论文部分内容阅读
随着web2.0时代的到来,网络已经成为人们生活与交流的重要工具。人们在网络上发表对某一事件或者产品的意见或者评论。如何挖掘产品评论中的有用信息即意见挖掘任务,成为自然语言处理研究的一个重要的问题。而跨领域意见挖掘不同于同一领域内的意见挖掘,完成一个自适应强的跨领域挖掘系统对跨语言信息检索、自动文摘等任务起到重大意义。本文是在机器学习的框架下,面向网络用户生成的非正式的产品意见文本研究跨领域的意见挖掘方法和技术,主要内容包括意见文本标点校正、意见要素抽取、领域相关的动态极性获取和融合领域知识的情感极性分类,重点解决汉语领域相关的情感知识获取问题,以提高系统在开放的网络中的自适应能力。具体地,本文从以下四个方面展开研究:(1)针对网络意见文本存在的标点错误,本文提出了一种多级的融合词层次、短语层次和功能块层次等深层次特征的无标点序列标注方法,重点研究不同层次的特征对标点预测和校正的性能影响,考察了不同序列标注模型对其性能作用。实验证明,融入深层次特征的多级序列标注方法对标点预测和校对的有效性。(2)意见要素抽取作为意见挖掘的核心研究任务之一。本文提出了一种基于语素的意见要素标注及抽取方法,探索了基于不同类型的序列标注单元对意见元组要素抽取的影响。实验结果表明,基于语素的汉语意见要素抽取的有效性。(3)领域相关的情感知识获取是跨领域意见挖掘的关键问题。针对跨领域情感知识获取所面临的数据稀疏问题,本文在分析汉语意见复述特点基础上,提出了基于相似度的属性-评价对正规化方法,并以此在权重化下的simRank算法进行领域相关极性识别,进而构建了一种基于正规化属性-评价对的领域相关的情感知识获取方法。在手机和汽车两个领域上的初步实验结果表明,引入正规化属性-评价对信息有利于系统性能的提高。(4)跨领域情感分类方面,本文首先识别了待测语句的领域,然后融合领域相关的情感极性知识、多种特征选择方法,在最大熵的框架下完成跨领域的情感分类问题。实验结果表明,融入识别领域知识,、融入领域知识对于跨领域情感分类的积极作用。