论文部分内容阅读
伴随着大数据时代的到来,全球正面临着史无前例的信息井喷式增长的挑战,互联网信息处理技术也迎来了高速发展。如何准确、及时和有效的获取互联网短文本的情感信息是社会和谐稳定有序发展前进的动力,具有重要的价值意义。但是,互联网短文本具有自由、灵活且缺乏规范性等特点,且其中的情感信息受时间、地点、环境以及人物触发情绪场景的影响。这些都使得传统的文本序列标注方法对情感要素识别难度较高;其次,现有文本情感分析大多只停留在分类等表层分析,对文本情感事件根本原因却未识别出来。针对以上问题,本文提出基于深度学习的相关理论和方法,开展面向大数据的互联网短文本情感分析与研究。具体研究内容如下:(1)针对互联网短文本的语言形式自由、灵活、要素错综复杂的特点,提出一种基于长短时间记忆(Long Short-term Memory,LSTM)循环神经网络模型的互联网短文本情感要素抽取方法。主要基于深度学习的特征表示学习方法,从大数据量的互联网文本中获取词汇的语义分布表示,利用LSTM构建面向互联网短文本情感要素抽取任务的encode-decoder序列标注框架模型,并融入3元窗口的情感词特征选择,实现对互联网短文本中情感要素的抽取。在COAE2014测评数据集上,实验结果表明,该模型通过情感特征注入,情感要素抽取准确率达70.7%,取得了较好的效果。(2)文本情感产生受时间、地点、环境以及人物触发情绪场景的影响,其文本情感背后潜藏着情感原因信息,如何快速有效的掌握情感触发的原因是当前文本信息处理技术所面临的重要挑战。针对此问题,本文提出一种事件驱动的情感原因提取方法,该模型构建了一个七元组定义来描述情感原因事件,引入依存语法树的方法表示文本事件特征,然后基于CNN(convolutional neural network)和LSTM(long-short term memory)等混合模型训练方法实现文本情感原因判定。最后,在获得的情感直接原因标注数据集上,准确地获取文本事件的情感原因,准确率比基于规则方法提升2.7个百分点。本文根据情感要素和情感原因短文本特点,分别以不同的情感特征选择和情感原因描述,提出了基于LSTM特征模板情感要素抽取和基于混合模型情感原因判定的短文本情感分析任务,利用LSTM神经网络模型有效地捕获文本情感要素特征,利用模型混合方法判定文本情感原因,实现文本情感原因判定的可行性。在研究实验和实际应用中都验证了本文所提方法的有效性。