论文部分内容阅读
随着互联网技术逐渐走向成熟,网络上出现了大量的用户生成内容,其中不乏短文本对话信息,这使得面向短文本对话的立场检测成为意见挖掘领域的重要研究课题之一,其目的是根据谈论的话题,自动地从文本中辨别出用户的立场倾向是支持、反对或是其他。本文在神经网络框架下,研究短文本对话的立场检测问题,并从语料构造、方法研究、具体应用三方面证实了该任务的可行性,研究内容如下:1.构造中文短文本对话立场检测语料:作为短文本对话立场检测任务研究的基础,语料的构建至关重要,本文在获取大量短文本对话数据的基础上,分析对话场景下立场倾向的不同表达方式,重新对话题和立场倾向进行定义,并制定了面向短文本对话的立场倾向标注规范,采用伪标注-人工校对的两阶段标注方法进行了语料库构造,获得了大规模、高质量的用于立场检测的短文本对话语料库。2.中文短文本对话立场检测方法:本文将立场检测任务看作分类问题,首先通过基于稀疏特征的最大熵分类器验证本文提出问题的可行性,并作为基线系统给出其基本性能,接着构建基于稠密特征表示的神经网络模型,进一步提升系统性能,在此基础上分析立场倾向的语言表达特点,以及立场倾向和情感极性之间的相互关系,达到完善立场检测任务理论基础的目的。:3.立场驱动的短文本回复生成:在上文立场检测基础上,本文在基于转移的端到端神经网络框架下实现了回复生成系统,探讨了不同编码方法对回复生成的影响,并利用特征融合的方法将情感和立场信息融入到端到端网络框架中,构建立场驱动的回复生成系统,通过实验证实融入情感和立场信息能够有效的提升系统性能,降低模型困惑度。