论文部分内容阅读
随着Internnet的迅猛发展和电子商务的不断普及,互联网以其独特的优势吸引着各大制造商在网络上出售产品以及消费者在网络上购买产品。与此同时,网络上关于各种产品的评论语句的数量迅速增长。这些产品评价给制造商和消费者带来巨大好处。一方面,制造商可以从中得到关于产品的反馈信息;另一方面,潜在的消费者可以从已有的产品评价中找到客观真实的购物参考。
但是评论语句庞大的数量在一定程度上非常不利于制造商以及潜在的消费者从中提取有用信息。面对这样的现实问题,如何才能对这浩如烟海的评论语句进行快速查询和统计,意见挖掘技术应运而生。
意见挖掘是当前自然语言处理的研究热点,它帮助人们在大量产品评论中快速定位需要寻找的相关产品意见。意见由四个元素组成,即主题、持有者、陈述、情感。这四个元素之间存在着内在的联系,即意见的持有者针对某主题发表了具有情感的意见陈述。
在这四个元素中,主题的抽取可谓是重中之重。准确又快速地定位网络客户评论的主题(即评价对象),这是正确进行情感分析的基础,这也是意见挖掘系统准确率的保证。只有正确抽取评价对象,意见挖掘的结果才会准确可信。
本文使用了网络中的中文产品评论(电脑类)作为实验数据来源,着重研究了意见挖掘中的评价对象抽取任务。
本文从一个新的角度来考虑:一、抽取的评价对象符合抽取规则,但是并不一定与主题相关;二、即使与主题相关,但未必是主观句中的评价对象。本文不需要建立任何词典,也不需要进行主客观句的分析,只需要利用中国科学院计算技术研究所自然语言处理研究组的ICTParser的句法分析以及哈尔滨工业大学的语言技术平台IR的依存关系对评论语句进行分析,然后根据一定的规则计算候选评价对象的权重,对候选评价对象进行初步筛选,最后利用似然率检验方法计算候选评价对象与主题的相关程度,对候选评价对象进行排序。
实验结果验证了该方法的有效性。