论文部分内容阅读
在互联网技术飞速发展今天,互联网已成为一个巨大的信息来源地,越来越多的人通过互联网发表他们对诸如商品、服务的一些意见。通常,人们对某一事物进行评论表达自己的观点的时候,一般都是具有倾向性的,因而文本倾向性分析研究便应运而生了。对在线评论进行语义倾向性分析研究,提取对用户和商家有用的文本信息,这些信息一方面可以帮助消费者进行购买决策,另一方面也可以辅助产品制造商和销售商进行市场分析。如何根据实际的需求对在线评论进行语义倾向性分析,已经成为自然语言处理中比较活跃的一个领域,其研究工作具有非常重要的理论意义和实际应用价值。
本文以互联网上的在线评论信息为基础,采用文本挖掘技术研究语义倾向性问题,主要进行了以下几个方面的研究:
首先,领域本体是用于描述指定领域知识的一种专门本体,它是语义倾向性分析的基础。本文提出了一种面向特定领域文本语义倾向性分析的领域本体的构建方法。
其次,基准词作为情感倾向分析以及观点分析的重要基础,针对目前基准词选择方法仍有很大的随机性和主观性的问题,本文提出了一种基于词聚类的基准词选择方法,该方法将词聚类应用到基准词的选取过程中,通过从目标领域中选择初始种子词,然后扩展、聚类、从聚类结果中选出下一代种子词,依次迭代最终得出最优化的基准词。该方法很好的解决了基准词选择过程中随意性和主观性,提高了基准词在词汇情感倾向性判别中的准确率。
最后,在第三四章的基础上,提出了在线评论语义倾向性分析的具体步骤,并对其中的关键部分给出了具体的解决方法。然后将语义倾向性分析应用到基于特征的文本摘要生成中,通过实验给出了一个基于特征的文本的生成过程和结果。