中文领域情感分析关键技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:gloriayue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网上越来越多的信息以非结构化的文本形式出现,其中包含在社区、论坛、博客以及微博等平台出现的大量主观性文本信息。对于此类信息,文本情感分析作为一种主要的研究技术日益成为自然语言处理领域的一个研究热点,在舆情监控、商品推荐、评论分析等领域有着广泛的应用。本文以领域(金融股票市场)文本为研究对象,以提高领域情感词语识别的准确率和召回率为目标,主要开展了下面四个方面的工作:1、词典方面,首先爬取了金融相关的平台语料并对这些语料进行人工标注情感词语。其次提取标注的领域情感词语,并结合现有的情感词典资源进行合并,得到基础情感词典。最后对该基础词典进行扩展,最终得到金融领域情感词典。该词典包含9类词语:正情感词、负情感词、转义词、并列词、否定词、程度词、命名实体、单位量词、新词。2、算法方面,创新性的总结了本文使用的情感模式集和词性模式集,并且基于这两个模式集提出了词性验证算法与情感模式匹配算法。前者用于校验或标注词性,后者用于自动发现新的领域情感词语,并把识别的新情感词语加入情感词典,从而提高情感识别准确率。3、系统实现,进行了中文情感分析软件系统开发与相关功能模块集成,包括架构设计、算法实现、数据可视化、软件界面设计等。最后还介绍了现有的开发工具包。本文以NLPIR作为分词工具,并导入情感词典作为分词工具的用户词典,以提高专业领域词语的分词和词性标注的准确性。4、实证方面,第一个实验开展了对错误分词的词语进行词性标注,选取300句单句,包含111个测试词语,最后和人工标注的词性进行对比。实验结果表明词性验证算法有着良好的准确率。第二个实验是以带有转义、并列规则的复句为实验对象,分别用基于传统的词典匹配算法和文本提出的情感模式匹配算法进行测试,识别句子中的情感词语。最后和人工识别的结果进行对比,实验表明:在识别新情感词上,情感模式匹配算法相比词典匹配算法有着更好整体效果。
其他文献
目的 为了解吸烟对人体下肢大动脉的影响,应用彩色多普勒超声对长期吸烟的中老年患者行下肢动脉的检查,探讨长期吸烟与下肢动脉病变的关系。方法 对65例年龄50~78岁的长期吸烟
对大学校园景观设计在文脉的体现进行了分析,并进行了文脉在大学校园景观设计中的应用研究。以多个大学校园景观为例,提出了在大学校园景观设计中应从自然环境和建成环境,及
目的探究高血压患者行藏医放血疗法治疗对其血压水平的控制效果。方法择取2017年6月~2018年6月期间我院收治的74例高血压患者,以其病床号码奇偶性进行分组,奇数号码设为对照
随着人类社会的不断进步,高等教育越来越大众化,这就要求教学方式个性化、多样化。传统的课堂讲授、师生面对面进行信息交流的教学方式已不再够用,必须采用以多媒体、网络、
搜集了有关三维荧光指纹技术在油种鉴别、水体检测、中药鉴别中应用的研究文献。对三维荧光指纹技术在不同领域中的应用研究进行了综述。结果表明:目前三维荧光指纹技术已被广
亚麻荠是一种优良的油料作物,在我国有着广阔的种植前景。在分析亚麻荠品种特点及农艺性状的基础上。从播前、播种、管理、收获等方面详细介绍了和政县亚麻荠高产栽培技术。
通过分析我国社区医疗存在的问题,对比国内外社区医疗的现状,分析社区医疗面临的困难,基于对社区医疗信息化统一标准、建立区域医疗信息交换平台、使用大数据对社区医疗数据进行
通过加氢裂化装置反应进料炉辐射管架的断裂,介绍了其管架支撑形式、破坏部位、检测情况以及停工检修后管架裂纹的实际状态。借鉴国内外工程公司的设计经验,结合装置运行操作的
近年来,在全国不少晚报中,周末特稿成为报社周末奉献给读者的一道精美的晚餐。从不少见报的周末特稿中我们可以发现,周末特稿因题材广泛、主题鲜明、文笔优美、意境深邃、读
自然语言中存在着大量的模糊现象,模糊词义作为一种模糊现象,有其产生的原因、自身的界限变化,以及词义的模糊和精确之间的相互转化。这要求我们运用唯物辩证法矛盾双方对立统一