首页 >  硕士论文 > 计算机硕士毕业论文 >   正文

微博文本情感分类与观点计算机挖掘研究及实现

添加时间:2018-09-16 21:10:51   浏览:次   作者: www.dxlwwang.com
专业论文资料, 搜索论文发表论文代写论文网为你解忧愁!详情请咨询我们客服。
获取免费的论文资料? 欢迎您,提交你的论文要求,获取免费的帮助

本文是一篇计算机硕士毕业论文,人和计算机交流信息使用的语言称为计算机语言或称程序设计语言。计算机语言通常分为机器语言、汇编语言和高级语言三类。如果要在计算机上运行高级语言程序就必须配备程序语言翻译程序(下简称翻译程序)。(以上内容来自百度百科)今天为大家推荐一篇计算机硕士毕业论文,供大家参考。

 
第一章 绪论
 
1.1 论文研究背景及意义
2018 年 1 月 31 日, 中国互联网络信息中心第 41 次公布了《中国互联网络发展状况统计报告》[1],报告显示目前我国具有 7.72 亿的网民数量,有着 55.8%的互联网普及率,快速发展的互联网正在深入我们生活的方方面面,与大众生活形成了更加密切的关系,人们正在从互联网带来的信息与资源受益。互联网不但方便我们获取信息,而且也成为生活中我们发表言论与看法的公共交流平台,我们常常会针对热点话题事件发表观点看法,例如通常会在微博平台对自己感兴趣的热点事件话题发出自己的声音,这些观点在一定程度上影响决策者的政策,或者在购物电商平台针对自己喜欢的或者购买过的商品进行点评,留下会对商品未来销量产生影响的评论,总之这些言论反映了大众对于热点事件,产品的态度与情感,对市场营销及舆情监测有着巨大实用价值。面对海量的数据,人工处理其中的文本情感难以胜任,由此文本情感分析技术应运而生。在实际应用中,比如某明星代言广告,可以从微博评论中获取其受欢迎程度及时获取当前大众态度及观点,进而采取不同的营销策略,对于舆情疏导来说,可以方便及时帮助政府进行网上舆情预警及监控,又例如分析新闻或政策的评论,可以替换费时费力的问卷调查获取观点的方式,这便于帮助政府决策部门短时间的收集分析大众看法,达到帮助政府快速发现警情和处理网络舆情的目的,进而引导舆情往积极的方面发展。除此之外,情感分析技术也可在经济领域用于挖掘用户情感,将其结果应用在到实际生产活动中,比如常见的有借助情感技术分析市场股票未来趋势,用来辅助理财投资。同时情感分析技术是 NLP 相关领域的重要部分,可以为解决包括文本聚类,分类,主题提取,问答等问题提供新的方案,又如最近很火的机器人问答或聊天系统,情感分析技术是其重要组成部分,包括由语句情感的差别导致答案或回答的选择不同。微博是现今国内大众比较喜欢使用的社交信息交换平台,如今是大众获取新闻信息和表达情感看法的主要途径,对微博进行情感分类有利于挖掘用户的行为,为舆情监管提供依据支持,本文以微博的情感分类作为研究的主体方向,可以为帮助我们快速精确地挖掘出大众用户的情感需求,帮助组织者做出切实且有依据可行的决策。
........
 
1.2 国内外研究成果及发展前景
情感分析一般指的是情感识别亦或是观点挖掘,主要是识别文本信息的情感倾向,在自然语言处理中,是一个融合数据挖掘,信息检索,语法分析等的多交叉领域,最近受到了国内外很多研究人员的关注。其中国际自然语言评测会议中,已经连续几年将推特情感分析作为大赛内容,最近的 2016 任务 4 仍是情感极性的分类,对于国内研究现状,与国外相比开始较晚,但通过近些年不少学者的努力,中文文本领域的情感分析有了,比如近年来在连续几年的中文 coae 自然语言评测任务中均涉及到文本情感倾向性识别任务,其中 2016 年任务三涉及中文电影评论情感分类,分为消极,中性,积极三类.目前,微博情感分类的方法可以分为词典与表情符号以及数据挖掘分类方法。其中词典与表情的算法采用表情符号与情感词作为基准点来计算数据的情感倾向性。这种情感词典模型具有简单处理时间短,不错的稳定性的优点,但也有较低分类识别准确度,常常适用于一般性的简单应用场景,难以胜任高准确度的大多数实际模型要求,因此将文本情感分类转换为常见的文本分类问题,使用机器学习方法去得到较好的效果是一个必然选择,但由于情感的多变性,如何将其融入机器学习算法进行研究是一个长久研究的方向。早在 2002 年,Pang 等人[2]运用朴素贝叶斯,SVM 等机器学习方法进行了情感分类比较研究,近年来,冯时等[3]利用文本的依存关系进行情感识别,取得较好泛化性。Jiang 等[4]运用交叉验证研究 Twitter 情感分析,经过交叉测试,发现了收集相对丰富的和主题关联较大的情感词语能帮助提高情感分类的准确率。早期以情感词典为主的方法是建立在已收集的词语集合和本体知识库的基础上,进而扩充形成情感词典,一般适用于句子的情感分析。朱嫣岚等[5]提出在基础情感词典上计算扩充新词汇的方法,即通过与情感种子词进行相似度计算,获得较好的候选词,从而重构新词典来进行情感分析。陈晓东[6]采用改进的点互信息算法扩充了微博相关领域情感词典,方法主要考虑特征选择方法依赖于情感词语,同时考虑了词性对情感分析的影响,最后通过加权计算对微博进行情感分析。Liu 等[7]使用情感词集里的词语情感信息还有抽取的规则知识,进行判定微博的情感倾向,缺点是很大程度受收集词典影响。李泽魁、赵妍研等[8]利用组合特征进行情感分析,包括对词语组合、词语、数字等特征的之间组合进行相应的测试,从而获得结果较好的组合的特征集。目前国内比较主流的研究侧重点主要在机器学习方法,同时对于如何选择特征也在不断进步中。
.........
 
第二章 相关理论与技术
 
本章将介绍微博情感分析涉及的技术及理论基础,包括情感词典分类算法,以及常用的文本特征提取算法,如 TF-IDF,分类常用的算法支持向量机,贝叶斯模型等,除此之外,这部分又介绍深度神经网络方法及相关技术,包括神经网络常见的模型,例如卷积网络 CNN 等相关构成与理论,以及训练神经网络过程中的反向传播原理与优化算法,最后对观点挖掘技术进行阐述。
 
2.1 分词技术
自然语言处理的工作起于中文分词,分词也是算法理解文本表达语言的前提。这里不同于英文句子中的空格区分,中文句子中 没有词的界限,所以在进行中文自然语言处理实验之前一般需需要先使用分词工具进行分词,其中分词结果的好坏同时决定后面的词性、句法树等后续模块的效果,下面介绍几种分词原理。1) 基于词典分词算法,这是进行字符串匹配的算法,基本过程是将待分词的句子不断改变长度地与收集好的基础词典集中的词语进行一一匹配,若和某个词条达到匹配要求,则表明匹配搜寻完成,即辨别出该词,实现分词。这种方法按照搜索的方向不同可以有以下划分:最长反向匹配法,最长正向匹配法,以及双向匹配分词法。这种依赖于词典的分词算法的有点是具有广泛的应用性,且有很快的分词速度。在研究者经过长时间对这种算法的优化,出现了采用哈希索引等索引树等方式对字符串进行快速存储与查找。2) 基于统计的机器学习算法,目前采用比如 HMM、CRF、深度学习等机器学习算法进行分词,例如 stanford 与 Hanlp 分词工具是以 CRF 模型为基础,以 CRF为例,大致过程是以标注形式对汉字进行训练,不仅注重词语的词频信息,还兼顾到上下文,此模型学习能力较强,能较灵敏分别出歧义词和新的未登录词。3) 基于规则的分词, 基本方法是在文本上进行语义分析和句法分析,这里多是利用语法知识进行分词,但由于难度较大,实际生活使用的较少。
..........
 
2.2 文本表示模型
为了有效充分特征化表达文本内容,学者们提出多种语言表示模型,常见的有如 0-1 布尔模型,向量空间模型,概率模型等形式,其中向量空间模型是常用的文本表示方法,本质是文档表示成浮点数向量或浮点数数组形式,当求文档相似时可以通过计算向量之间的相似度来表达,计算方式比如余弦计算。带有情感倾向信息的词语是情感词,一般是形容词或者名词,这些词语表达了人们对于某对象主体的观点情感倾向,通常分为消极,积极两类,本文实验分为消极,中性,积极三类,由于中文表达的多样性及反向性,使得情感词语在不同语境下可能表现出来的情感倾向有所不同,情感词典采用收集到的已有情感词语集合,这里常用的是知网 hownet 词典,台湾大学 ntusd 词典及大连理工情感词典,本文实验也依赖这些基础情感词典。如今网络用语层出不穷,带有一定情感信息的词语出现在社交表达中,如“洪荒之力”,“醉了”,“SB”等,收集这些网络情感词典对于情感词典扩充及情感分类有重要作用,使用情感词典进行句子情感识别时,采用权值累加形式,计算表达如下:如果正向词语权重大于负向词语权重,则为积极,如果正向词语权重等于负向词语权重,则为中性,否则为消极。使用情感词典进行分类的准确性比较依赖情感词典的质量,但微博文本表达复杂,只使用情感词典未考虑语法及转折反语语境,这一定影响了这种方法的分类效果。
........
 
第三章 基于词向量的微博情感词典扩充...... 15
3.1 词典扩充 ...... 15
3.2 词向量技术 ............ 16
3.3 基于 2E-SM 算法的微博情感词典扩充....... 19
3.4 本章小结 ..... 25
第四章 基于深度学习网络的微博情感分类............ 26
4.1 实验数据与评价指标 ...... 26
4.2 卷积神经网络的情感分类 ........ 28
4.3 长短时记忆网络情感分类 ........ 38
4.4 本部分实验总结 .... 46
4.5 本章小结 ...... 47
第五章 基于依存关系与扩展情感词典的观点挖掘........ 49
5.1 观点挖掘 ...... 49
5.2 基于规则与扩充情感词典的观点挖掘 ........ 50
5.3 基于具体实例的观点挖掘 ....... 57
5.4 本章小结 ...... 60
 
第五章 基于依存关系与扩展情感词典的观点挖掘
 
本部分进行微博文本观点挖掘,一般观点挖掘关注文本数据主题的分布,即使用主题聚类方法无监督学习,然后对于每一个主题下的微博文本数据进行情感识别分类,但对于微博数据来说,一般一个话题的主题比较固定,子话题的不同主要体现在特征方面或者说是评价词方面,对这些细粒度的特征方面情感识别是一项重要基础研究工作。
 
5.1 观点挖掘
本部分是本文第四章的深化,即不仅要识别微博文本的整体倾向性,也要对句子评价方面与评价词进行抽取,进入更加深入细致的研究,这里称之为观点挖掘。观点挖掘[50,51]可分为监督与无监督两类,一般监督的评价方面与倾向抽取需要一定数量的标注数据,比如基于 CRF 模型[52]和语法树结构的方法来联合抽取评价对象与评价词,其中 CRF 训练要依赖标注语料自动学习特征模板,将领域的本体知识作为主要特征,比如电子产品的内存,电池,颜色,屏幕等作为本体特征,将相关评价词如“不错”,“耐用”,“好看”等作为评价词,形成一系列标注模本,进行学习。对于无监督的方法,通常会使用语法规则与句法依存分析,这种方法具有很好的通用性,即不会过分依赖数据,这种方法要求高质量的情感词典,对于微博文本来说,由于其表达多样性,情感新词不断涌现,传统的基础情感词典难以满足需求。本部分工作对于评价词的抽取采用本文第一部分的工作内容,情感词典采用本文第一部分的扩充词典,当然包括基础情感词典,利用依存句法分析进行评价对象抽取,其核心思想是: 对句子进行依存句法 分析处理得到关系组,接着根据微博情感词典,发现评价词语,然后以评价词语为搜索核心查找合适的依存关系,最后在依存关系中获得评价对象.依存句法分析是一种基于规则的句法分析方法,建立人工组织的语法知识库,考虑条件约束与检查构建句法结构,一般语法理论涉及到短语和依存语法 2 种关系,这里主要考虑依存关系的语法作用。本文这一部分采用哈尔滨工业大学的语言技术平台 LTP[53,54]进行数据预处理分析,包括分词,词性,句法等处理,对于分词模块,平台利用 CRF 与 hmm 算法进行分词,并且能有效解决歧义词语,同时可以将词典及新型词典加入起来,对于词性标注,利用了含有 863 个词性标注集合,本文采用哈尔滨工业大学研究的LTP 平台依存句法分析器确定的 18 种依存关系,如下表 5-1 所示。
\
........
 
结论
 
进入互联网时代,网络社交平台诸如微博等对我们的工作与生活产生了比较大的影响,每个人常常会在社交平台上发表针对热点事件,产品等评价评论,这些行为渐渐成为日常生活的一部分.随着人工智能技术的发展及积累大量用户数据,挖掘出大众对于事件,人物或产品的观点看法已是网络舆情监控和获取商业产品信息反馈的关键途径。本文主要从微博情感词典扩充,基于深度学习的微博文本情感分类和微博文本观点挖掘三个方面进行研究,对此本文的研究内容及工作包括:
1,提出一种新的微博情感词典扩充识别方法,这里改进之处主要在候选词的筛选上,并不是传统的频繁共现原则用于筛选新词,利用收集的情感词典和 Glove以及 Word2Vec 计算相似度获取候选词集合,这种结合可以同时发现全局与局部相似新候选词,接着按照相似次数最多思想计算候选词的情感倾向信息,实验证明这种方法在选择情感新词的效果较好。
2,对于微博的积极,中性,消极三元分类研究,提出语义词向量与浅层语法特征向量融合输入到深度学习网络模型中,利用网络模型自动抽取特征用于分类,这里进行向量之间的融合,与对应的卷积神经网络及双向长短时记忆网络相结合,与基准模型比较,准确率分别提升了约 1.8%与 1.6%。
3,对于微博观点挖掘分析这一部分,这里应用句法语法规则与扩充的情感词典相结合的方法进行抽取工作。首先利用依存关系提取出若干语法规则,然后结合情感词典提取出若干三元组,以情感词与评价方面为中心,进行联合抽取。深入研究微博文本的情感分析方法研究具有很高的实用意义及商业价值,无论对于舆情监控还是了解产品反馈都有着重要意义。
..........
参考文献(略)

提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。
本论文由代写论文网整理提供 http://www.dxlwwang.com/
需要专业的学术论文资料,请联系我们客服
本文地址:
论文关键字:微博文本 情感分类 观点挖掘