首页 >  硕士论文 > 软件工程硕士论文 >   正文

软件工程硕士论文:基于灰色关联分析的热门微博数据可视化研究

添加时间:2017-11-20 19:21:01   浏览:次   作者: www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

1 绪论

 
1.1 研究背景及意义
当今互联网、社交网等网络的规模发展迅速,人们的生活已经步入了大数据时代,信息技术已经融入人们世界的政治、军事、经济、科研、生活等各个方面,产生了亘古未有的巨量数据。人们生活周围遍布各种智能移动设备、电子商务网站、传感器、社交网络,这些信息技术产物时时刻刻无不在产生形式各异数据。至 2015 年,全世界每天产生 4.4EB(4.4 × 1018)的数据1。然而,数据数量的加速膨胀并没有使用户在获取信息时带来想想中的方便快捷。大数据(BigData)具有 4 个特性,即:体量庞大(volume)、类型复杂(variety)、价值高密度低(value)以及时效性高(velocity)。英国著名杂志《Nature》,于 2008 年出版了针对大数据的刊物“big data”。着重讨论在面对巨量数据时如何应对互联网、环境、经济、生物等几个方面的机遇[1]。2011 年初,面对数据洪流,美国杂志《Science》也特意推出了相应的期刊“Dealing with Data”[2]。并在期刊中指出:人类社会向前发展的动力源于这些数据,其有效利用这些“动力”的本质是如何在繁杂的数据中提取可以转化为智慧的信息数据。目前,物联网与云计算技术的相继出现,骤然使数据成几何倍数猛增,促使了大数据成为学术研究的热点,具有信息技术的革命意义。目前社交网络正在迅猛的发展,与之有关联的信息传播被众多的研究者关注,尤其是热门微博的兴起,使社交网络的规模向着大数据时代挺近。研究大数据下的社交网络最为焦点的工作之一便是数据分析[3]。Berkeley 学府 Hal Varian教授任谷歌首席经济学家时曾指出:“数据正在变得无处不在、触手可及;而数据所缔造的真正价值,是在于人们可否在数据的背后提供深层次的附加服务,这种附加服务便是数据分析[4]。”各种信息隐匿于庞大的数据中,而且,种种未发掘的知识和智慧蕴藏在信息之中。如同石油一样,大数据作为人类开发新的知识以及智慧的新型数据能源,只有对其进行深入的剖析和提炼才能将挖掘并得出所需的信息、智慧以及知识。未来人们会日益利用大数据分析得出的结果来对某一事件、事物做出科学的决策与裁夺。2013 年,工作于微软纽约研究院的经济学家大卫罗斯柴尔德(David Rothschild),使用大数据工具成功的预测了 24 个奥斯卡奖项中的 19 个,正确率高达百分之 79。之后的 2014 年,罗斯柴尔德再接再厉,成功预测第86届奥斯卡24个奖项中的21个,继续向人们展现了大数据的魅力。当前,依托大数据分析技术和方法论的研究成为该领域的核心焦点。
...........
 
1.2 国内外研究现状综述
对于社交网络的探索,研究者们最先开始于人际交互的研究。在英国,研究人类学历史的学者布朗第一次将社交网络提升为一种概念理论,主要从一定范畴对文化的差异的成员进行界定,由于当时技术有限、初步的思想认知,没有考虑人类在交往的过程中的有规律但是繁杂的关系。但是,布朗提出的新式的概念以及理论思维,为后人对社交网络的重要程度做了良好的铺垫,后继的学者在其研究的基础上,着重分析社交网络的重点直至今日。互联网的出现以及大数据平台在各个社交平台的使用,使其有了日新月异的且蒸蒸日上的发展。热门微博的兴起,使社交网络在新的领域上开疆拓土,一些研究者紧跟步伐。Twitter 社交网络平台的火速蔓延使有些研究者对其进行了深入的剖析,例如:在人群与人群之间的交互和亲密度的联系上,AkshayJava 指出身处于社交网络的用户潜在里的交互以及互动倾向有很大的体现[8]。还有一些研究学者们提出了最新的理论,如 Shravan Gaonkar 在社交网络用户的频繁互动和信息的传播的方式上都将成为社交网络最新一代的特征[9]。随着现代科技的不断创新与发展,对社交网络前途有着未为可知的新天地,而且快速成长的微博使社交网络的成熟又推向了一个新的高度。Alexandre Passa 曾在一场学术回忆中指出,科技成熟的 Web2.0 时代的催化剂已经引起了人们对社交网络以及微博的高度喜爱和兴趣[10]。
.........
 
2 相关研究
 
2.1 数据可视化概念及理论技术
可视化技术可追溯到 20 世纪 80 年代,在美国国家科技基金会上,首次给出了“科学计算可视化”这一名词的定义[21],并且探讨了该项研究领域以及未来的发展前景,随后计算机学科便出现了科学计算可视化(Visualization inScientific Computing),该学科采用计算机信号处理、计算机图形学、计算机图像处理等多种方法对数据结构进行科学的表达。由于人视觉感知是入眼的快速识别和人脑的科学智能认知能力,可视化技术可以起到有效并清晰传达、沟通辅助分析数据的作用。步入 21 世纪以来,由于在数据之间的关联关系越来越多被挖掘出来,单一的可视化已经无法满足不断增长的需求,可视化已发展成为一个跨学科的研究方向,其主要涉及数据挖掘,人机交互和计算机图形学。从海量数据中获取有效的信息正是数据挖掘技术带来的红利。因此,将数据挖掘与可视化相结合,利用人类认知能力分析大规模复杂数据集,这一途径是从海量数据中提取信息的有效方法。在常见的可视化系统中,用户只是一个分析研究者,原始数据经过数据挖掘产生内容却是未知的,知识系统以可视化的形式将数据表现出来,从而协助用户获得观察的结果。如果将数据挖掘里面的关联分析和可视化技术结合,形成数据挖掘可视化系统,这样会有利于人们从海量数据中提取所需的有效信息。将可视化技术采用到关联分析的挖掘结果表示中,是数据挖掘中关联分析研究的一个新进展。近些年来,研究者们已经提出了许多种可视化技术供用户对关联规则进行分析和观察。然而,目前仍然缺乏有效的数据可视化系统。因此,针对海量数据,结合关联规则分析和数据可视化技术,定义了关联数据和复杂的网络数据可视化和总体目标,以及提高改进相关技术,最终提出了基于关联分析的数据可视化。针对某一特定领域的应用背景,例如将关联分析的可视化技术应用到社交网络行业中,不仅能够对社交网络领域内的海量数据进行有效的整合和分析,而且还能保持数据的一致性,实现抽象网络数据可视化,构建一个先进的高效的可视化引擎,以便用户能够快捷的有效的并准确的找到想要的结果。
..........
 
2.2 关联规则以及挖掘算法分析
近几年,关联规则数据挖掘算法研究中处于热门研究的方法之一,而且将其应用的范畴也颇为广泛。最初关联规则是由 Agrawal 等人提出[31],在数据挖掘中十分简易用。在信息爆炸的时代中,人们每天都会产生与接触巨量的信息,如何从大量的信息中找到有用的信息,成为亟待解决的问题之一。当前,关于关联规则的研究发展趋势有以下两点:第一就是由一维的关联规则的角度到多维度的发展与发现。例如:在不同的应用中,关联规则可以在数据库不同的层面上进行挖掘。第二是关于算法的效率问题,在大量的数据集合下,可能需要对数据库进行频繁的扫描,如何提高算法的效率,也是研究者热衷科研之一。关联规则的目的是在大数据集中发现数据的相关性或关联性,是一种简单实用的分析技术,它描述了某一事物或多个事物的属性出现的频率和模式规则。关联分析是寻找存储于数据库中元素与元素之间的关联规则或者相关联系。并基于大量数据进行研究。例如,在某一特定区域内对用户使用手机运营商的套餐进行分析,通过分析对用户使用套餐的构成,将用户进行分类,进而得出此类客户的需求,以及相应的套餐策略。其他的应用还包括价目表设计、商品的排放、商品促销和不同购买模式的顾客划分。可以从数据库中分析诸如“由于某些事件的发生而发生的其他事件”等规则。例如,“78%的客户在购买啤酒的同时将购买尿不湿,”因此通过啤酒和尿不湿的货架摆放布局或对其进行捆绑销售,从而可以提高超市的服务质量和效率。又如“C 语言”的课程中,优秀学生通过学习‘数据结构’而更容易理解 C 语言的可能性为 83%,那么可以加强数据结构的学习提高教学效果。
............
 
3 用户节点影响力计算....21
3.1 微博用户的影响力分析......21
3.2 中心性加权链接强度算法..........23
3.2.1 加权链接强度 .........23
3.2.2 用户节点影响力模型 .....24
3.2.3 CWLS 算法框架 .....25
3.2.4 算法复杂度分析 .....26
3.3 实验与结果分析..........27
3.3.1 实验数据集 .....27
3.3.2 不同数据集所产生的种子集的差异......27
3.3.3 不同阈值产生的种子集的差异 .....29
3.4 本章小结......31
4 面向微博数据的灰色关联度算法 .......32
4.1 基于灰色关联度的关联规则算法......32
4.2 算法效率分析......36
4.3 基于灰色关联度的可视化模型..........38
4.4 可视化结果分析..........39
4.5 本章小结......43
5 总结和展望....44
5.1 总结......44
5.2 展望......45
 
4 面向微博数据的灰色关联度算法
 
文中第三章节采用中心加权链接算法对社交网络中节点的影响力进行分析,得出网络中节点的影响力的计算公式。针对微博在社交网络的传播过程中,用户节点的影响力对微博属性权重的影响,利用CWLS算法计算用户节点的影响力,并将其作为评价热门微博属性权重的相关因素之一。结合灰色关联度算法以及可视化的相关技术,对社交网络中热门微博的元素属性进行分析,并用可视化的方法展现微博元素属性与热门微博的关联程度。
 
4.1 基于灰色关联度的关联规则算法
除了节点的影响力的计算之外,关联规则的属性在灰度集合经无刚量化处理之后,无法确定因素的权重,进而无法对关联规则中多属性因子权重赋值。4.1.1小结对灰度集合中多属性因子进行权值分析,并结合微博用户的影响力得出完善的属性权重计算方法。除了传播者的影响力之外,结合热门微博的传播特点,本文将热门微博的属性影响因素分为传播内容的转发数、内容的评论数以及内容的点赞数。在以往的属性权重的赋值过程中,研究者都会有意或者无意识的加入主观的因素来限制属性权重的阈值,但是在灰度集合中,热门微博的属性都是无量纲化的数字,无法将主观因素对属性进行赋值。
\
........
 
总结
 
随着社交网络向大数据时代的迈进,人们面临着很多机遇以及挑战。面向微博数据的关联分析可视化的出现无疑能够给而关联规则能够为那些持有和研究数据的公司企业提供极大的帮助和指导。但对于现在这个信息爆炸的时代,数据海量涌现,关联规则的结果也通过文本形式大量出现,并且没有任何规律可寻,使得关联规则原有的价值无法体现。因此,关联规则可视化技术作为对此问题的解决方法被提出,它可以将关联规则用文本形式显示的缺点得到克服,同时选择合适的关联规则挖掘还可以使数据中隐含的知识和信息得到更好的发掘。本文主要通过网络节点的影响力最大化、灰色关联度模型和关联规则可视化这三方面进行研究。
1) 在以往针对社交网络节点的影响力最大化的算法中,使用节点的度这一单一因素作为评定节点的影响力,会使节点的影响力的值不准确。结合加权链接强度中的相遇次数以及相遇频率,提出一种中心加权链接的影响力计算方法,相比较贪心算法、基于节点度的启发式算法,采用该算法在准确度上有明显的提升。由于微博数据的属性与微博博主影响力之间的关联关系,使用中心加权链接影响力的计算方法计算微博博主的影响力,为评估热门微博属性的权重提供可靠依据。
2) 针对现有关联分析挖掘算法在多属性的处理中存在不可忽视的缺陷,本文提出采用灰色关联度模型对多属性的关联规则进行挖掘分析。对热门微博的属性采用熵权的理论并结合节点的影响力对多属性的权重进行定义,在原有的灰色关联度算法模型上,加入了参考序列和对比序列之间的一阶和二阶偏导数,对算法进行了改进。结果证明改进后的算法具有更高的效率。
3) 结合改进的灰色关联度模型,并采用 Java3D 的技术实现了一个简单的关联规则可视化模型。以新浪微博数据为实验数据,结合中心性加权链接影响力最大化算法得出的用户节点的影响力作为评判关联规则属性的权重,对微博数据中3 个属性与热门微博进行关联度的分析,并且对比传统算法的可视化展现效果,更进一步的阐述改进的灰色关联度模型较传统算法以及未改进之前算法的效率有很大的提高。
..........
参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:http://www.dxlwwang.com/ruanjian/6271.html
论文关键字:软件工程硕士论文 灰色关联度 多属性值 数据可视化