论文部分内容阅读
伴随着Web2.0的不断发展,互联网上论坛、社区、博客、评论专栏等互动平台中的评论信息迅速增长,这些网络评论反映了人们对于特定产品,事件、政策的态度,其社会影响力越来越大。研究网络评论不仅可以为企业提供市场参考,而且可以为政府提供政策的意见反馈,有着极大的实用前景。
目前,在篇章级的情感研究方面,多数学者注重将文本分类的方法引入到情感分类中来。然而,由于文本情感的表达方式多种多样,文本中的语义信息对理解情感表达十分重要,因此,获取这些语义信息对情感倾向识别是非常必要的。
本文从文本的情感表达方式着手,针对原始词汇特征不能完全适应情感分类的问题,提出使用语义特征对文本进行补充描述,通过在文本中增加语义特征进行情感描述,从而使得提取的特征更加有利于情感识别。实验结果表明,在不同的停用词表和不同的特征选择方法下,本文提出的新的语义特征均能够有效提高情感识别率。
对整个朴素贝叶斯分类过程进行了设计实现,完成了一个朴素贝叶斯分类平台用于情感识别。同时,针对传统的贝叶斯分类器需要在特征选择和训练分类器两个阶段对特征进行重复搜索,不利于系统获取数据的问题,设计了一个统计语料模块,该模块能够一次性获取特征在整个分类过程中所需要的信息,简化了查找过程。同时,在系统广泛使用查找性能优越的哈希表使得系统的性能得到明显提升。