论文部分内容阅读
随着信息技术的飞速发展,越来越丰富的信息传播方式出现并影响着人们的生活。短文本是指长度较短(通常少于160个字)的文本,它通常以手机短信、微博、网页评论等形式广泛存在于现实生活中。短文本具有长度短、所描述概念信号弱等固有缺陷,传统的文本分类方法并不适用于短文本,因此研究对短文本进行有效分类的方法是一项必须解决且具有挑战性的问题。
短文本分类的一条可行途径是利用外部资源的额外信息来扩展短文本所描述的信息量。角色关系是指某个事件与其固有的相关角色之间的语义关系,利用这种关系扩展短文本的特征向量,能够在一定程度上增加短文本的有用信息,弥补其描述能力较弱的缺陷。本文围绕如何获取短文本中存在的特定角色关系,和如何将这些关系有效的应用于短文本分类这两个核心问题展开研究,主要工作如下:
1)提出了一种自动获取短文本中存在的施事、受事角色关系的方法。由于一个事件涉及的角色类别较多,不同的角色对事件的重要性有差异,获取方法也不同,因此本文的研究重点主要是针对施事、受事这两类最主要的角色关系。在获取施事、受事关系方面,一种常规的方法是直接利用语义词典《知网》描述语言的特点确定短文本中词对间的关系,但是这种方法抽取的关系词对数量和覆盖度有限。针对这个问题,本文提出了一种新的角色关系词对抽取方法,该方法利用《知网》的特征文件中的义原共性和义原树层次结构确定真实文本中存在的施事、受事关系,并通过义原层次树中的义原距离计算关系强度。实验表明:通过该方法抽取出的关系词对数量和覆盖度较高,在一定程度上弥补了常规方法覆盖度不足的缺陷。
2)结合角色关系和短文本分类的特点,设计了一种利用角色关系的短文本分类框架。该框架首先将常规方法和本文提出的关系抽取方法组合,然后利用组合方法获取训练集中存在的施事、受事角色关系,再利用关系词对集合扩展测试集的特征向量,进而将扩展的测试集进行文本分类。实验表明:引入角色关系有助于短文本分类性能的提升,本文采用的组合策略和特征扩展方法具有可行性。