面向大数据的互联网短文本情感分析与研究

来源 :中原工学院 | 被引量 : 0次 | 上传用户:philippetr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着大数据时代的到来,全球正面临着史无前例的信息井喷式增长的挑战,互联网信息处理技术也迎来了高速发展。如何准确、及时和有效的获取互联网短文本的情感信息是社会和谐稳定有序发展前进的动力,具有重要的价值意义。但是,互联网短文本具有自由、灵活且缺乏规范性等特点,且其中的情感信息受时间、地点、环境以及人物触发情绪场景的影响。这些都使得传统的文本序列标注方法对情感要素识别难度较高;其次,现有文本情感分析大多只停留在分类等表层分析,对文本情感事件根本原因却未识别出来。针对以上问题,本文提出基于深度学习的相关理论和方法,开展面向大数据的互联网短文本情感分析与研究。具体研究内容如下:(1)针对互联网短文本的语言形式自由、灵活、要素错综复杂的特点,提出一种基于长短时间记忆(Long Short-term Memory,LSTM)循环神经网络模型的互联网短文本情感要素抽取方法。主要基于深度学习的特征表示学习方法,从大数据量的互联网文本中获取词汇的语义分布表示,利用LSTM构建面向互联网短文本情感要素抽取任务的encode-decoder序列标注框架模型,并融入3元窗口的情感词特征选择,实现对互联网短文本中情感要素的抽取。在COAE2014测评数据集上,实验结果表明,该模型通过情感特征注入,情感要素抽取准确率达70.7%,取得了较好的效果。(2)文本情感产生受时间、地点、环境以及人物触发情绪场景的影响,其文本情感背后潜藏着情感原因信息,如何快速有效的掌握情感触发的原因是当前文本信息处理技术所面临的重要挑战。针对此问题,本文提出一种事件驱动的情感原因提取方法,该模型构建了一个七元组定义来描述情感原因事件,引入依存语法树的方法表示文本事件特征,然后基于CNN(convolutional neural network)和LSTM(long-short term memory)等混合模型训练方法实现文本情感原因判定。最后,在获得的情感直接原因标注数据集上,准确地获取文本事件的情感原因,准确率比基于规则方法提升2.7个百分点。本文根据情感要素和情感原因短文本特点,分别以不同的情感特征选择和情感原因描述,提出了基于LSTM特征模板情感要素抽取和基于混合模型情感原因判定的短文本情感分析任务,利用LSTM神经网络模型有效地捕获文本情感要素特征,利用模型混合方法判定文本情感原因,实现文本情感原因判定的可行性。在研究实验和实际应用中都验证了本文所提方法的有效性。
其他文献
法律原则存在于法律规范中,这已得到全世界范围内法学家的认可。体育法的原则在体育实践中引起了非常大的关注,特别是在处理体育纠纷事件中,产生了原则与规则的冲突,主要表现
随着节能环保理念的不断深入,国家电网公司提出了建设智能电网的发展规划,以减少环境污染、提高能源利用效率。智能电网以经济高效、安全稳定、节能环保为根本目的,同时具有
毫米波频段(30~300GHz)相比低频段具有宽频带、结构尺寸小、通信安全性好、目标识别分辨率高等诸多优点成为近年来研究的热点。在W波段(75~110GHz)特别是94 GHz频率附近大气
进入21世纪后,中国进入了人口老龄化加速发展阶段,养老方式呈现出多样化趋势。社区养老作为一种适合我国国情新兴起的养老方式,已经引起社会和学术界广泛关注。本文从家庭状
对山西朔州某电厂夯扩大头桩与素土挤密桩和后压浆旋挖灌注桩与素土挤密桩2种地基处理方案进行全面分析对比,揭示了黄土湿陷性对桩基承载力的影响,并得出了优化地基处理方案,