论文部分内容阅读
随着信息技术的发展,互联网上越来越多的信息以非结构化的文本形式出现,其中包含在社区、论坛、博客以及微博等平台出现的大量主观性文本信息。对于此类信息,文本情感分析作为一种主要的研究技术日益成为自然语言处理领域的一个研究热点,在舆情监控、商品推荐、评论分析等领域有着广泛的应用。本文以领域(金融股票市场)文本为研究对象,以提高领域情感词语识别的准确率和召回率为目标,主要开展了下面四个方面的工作:1、词典方面,首先爬取了金融相关的平台语料并对这些语料进行人工标注情感词语。其次提取标注的领域情感词语,并结合现有的情感词典资源进行合并,得到基础情感词典。最后对该基础词典进行扩展,最终得到金融领域情感词典。该词典包含9类词语:正情感词、负情感词、转义词、并列词、否定词、程度词、命名实体、单位量词、新词。2、算法方面,创新性的总结了本文使用的情感模式集和词性模式集,并且基于这两个模式集提出了词性验证算法与情感模式匹配算法。前者用于校验或标注词性,后者用于自动发现新的领域情感词语,并把识别的新情感词语加入情感词典,从而提高情感识别准确率。3、系统实现,进行了中文情感分析软件系统开发与相关功能模块集成,包括架构设计、算法实现、数据可视化、软件界面设计等。最后还介绍了现有的开发工具包。本文以NLPIR作为分词工具,并导入情感词典作为分词工具的用户词典,以提高专业领域词语的分词和词性标注的准确性。4、实证方面,第一个实验开展了对错误分词的词语进行词性标注,选取300句单句,包含111个测试词语,最后和人工标注的词性进行对比。实验结果表明词性验证算法有着良好的准确率。第二个实验是以带有转义、并列规则的复句为实验对象,分别用基于传统的词典匹配算法和文本提出的情感模式匹配算法进行测试,识别句子中的情感词语。最后和人工识别的结果进行对比,实验表明:在识别新情感词上,情感模式匹配算法相比词典匹配算法有着更好整体效果。