基于朴素贝叶斯的文本情感倾向识别方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:asd2303690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Web2.0的不断发展,互联网上论坛、社区、博客、评论专栏等互动平台中的评论信息迅速增长,这些网络评论反映了人们对于特定产品,事件、政策的态度,其社会影响力越来越大。研究网络评论不仅可以为企业提供市场参考,而且可以为政府提供政策的意见反馈,有着极大的实用前景。   目前,在篇章级的情感研究方面,多数学者注重将文本分类的方法引入到情感分类中来。然而,由于文本情感的表达方式多种多样,文本中的语义信息对理解情感表达十分重要,因此,获取这些语义信息对情感倾向识别是非常必要的。   本文从文本的情感表达方式着手,针对原始词汇特征不能完全适应情感分类的问题,提出使用语义特征对文本进行补充描述,通过在文本中增加语义特征进行情感描述,从而使得提取的特征更加有利于情感识别。实验结果表明,在不同的停用词表和不同的特征选择方法下,本文提出的新的语义特征均能够有效提高情感识别率。   对整个朴素贝叶斯分类过程进行了设计实现,完成了一个朴素贝叶斯分类平台用于情感识别。同时,针对传统的贝叶斯分类器需要在特征选择和训练分类器两个阶段对特征进行重复搜索,不利于系统获取数据的问题,设计了一个统计语料模块,该模块能够一次性获取特征在整个分类过程中所需要的信息,简化了查找过程。同时,在系统广泛使用查找性能优越的哈希表使得系统的性能得到明显提升。
其他文献
虹膜识别技术因虹膜的优秀生物特性,在众多的身份鉴别技术中脱颖而出,被列为最为安全与精确的身份鉴别技术,具有广阔的应用前景与重要的学术研究价值。由于虹膜识别技术应用
伴随着网络技术的迅猛发展,基于网络的企业级应用系统的开发与应用日益普及。随着系统规模的日益扩大,系统的数据安全越来越受到企业的重视。为此,人们设计了各种各样的权限
随着互联网的飞速发展,一方面网络已成为人们获取和发布信息的重要工具。另一方面越来越多的人通过网络表达自己的利益诉求以及思想情绪。因此,对网络上发布的信息进行必要的、
电信号的测量、计算、分析和研究是电气技术人员工作的主要内容,在电气技术人员的工作过程中还需要经常查询电气资料供参考。所以电气技术人员的工作就离不开万用表、示波器
从非结构化和半结构化的互联网信息中抽取结构化信息的技术广泛应用于商业数据挖掘、社交网络分析和垂直搜索引擎等领域。信息结构化包括一系列环节:设定信息抽取范围、网页爬
随着我国经济的快速发展和人民生活水平的提高,人们对现代交通的要求也越来越高,因此智能交通系统(ITS)成为发展现代交通的重要趋势。交通场景中的运动目标检测和分类技术是智
本文通过图像分割技术实时监测整个中药贴剂的生产流程,分析在线采集的贴剂图像的灰度特征、找到贴剂均匀度的影响因素,以此来实现经皮给药系统的自动化生产。其中通过图像分
随着计算机网络技术、信息技术的发展以及制造企业所处市场环境的变化,使得传统的项目管理模式不能适应当今社会的发展和需求。因此,构建一个支持分布式的、基于动态联盟的分
考生在高考后对大学专业的选择是其职业生涯的起点。根据考生自身的特性,选择适合他们的专业是促进其日后职业发展的前提。本文尝试用数据挖掘算法来发现规律,将数据挖掘算法