面向短文本分类的角色关系抽取研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chinaprogram
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,越来越丰富的信息传播方式出现并影响着人们的生活。短文本是指长度较短(通常少于160个字)的文本,它通常以手机短信、微博、网页评论等形式广泛存在于现实生活中。短文本具有长度短、所描述概念信号弱等固有缺陷,传统的文本分类方法并不适用于短文本,因此研究对短文本进行有效分类的方法是一项必须解决且具有挑战性的问题。   短文本分类的一条可行途径是利用外部资源的额外信息来扩展短文本所描述的信息量。角色关系是指某个事件与其固有的相关角色之间的语义关系,利用这种关系扩展短文本的特征向量,能够在一定程度上增加短文本的有用信息,弥补其描述能力较弱的缺陷。本文围绕如何获取短文本中存在的特定角色关系,和如何将这些关系有效的应用于短文本分类这两个核心问题展开研究,主要工作如下:   1)提出了一种自动获取短文本中存在的施事、受事角色关系的方法。由于一个事件涉及的角色类别较多,不同的角色对事件的重要性有差异,获取方法也不同,因此本文的研究重点主要是针对施事、受事这两类最主要的角色关系。在获取施事、受事关系方面,一种常规的方法是直接利用语义词典《知网》描述语言的特点确定短文本中词对间的关系,但是这种方法抽取的关系词对数量和覆盖度有限。针对这个问题,本文提出了一种新的角色关系词对抽取方法,该方法利用《知网》的特征文件中的义原共性和义原树层次结构确定真实文本中存在的施事、受事关系,并通过义原层次树中的义原距离计算关系强度。实验表明:通过该方法抽取出的关系词对数量和覆盖度较高,在一定程度上弥补了常规方法覆盖度不足的缺陷。   2)结合角色关系和短文本分类的特点,设计了一种利用角色关系的短文本分类框架。该框架首先将常规方法和本文提出的关系抽取方法组合,然后利用组合方法获取训练集中存在的施事、受事角色关系,再利用关系词对集合扩展测试集的特征向量,进而将扩展的测试集进行文本分类。实验表明:引入角色关系有助于短文本分类性能的提升,本文采用的组合策略和特征扩展方法具有可行性。
其他文献
基于摘要的垃圾邮件识别方法是众多垃圾邮件识别方法中十分重要的一种。这类技术通过对比邮件摘要相似性来判定垃圾邮件。然而,现有的识别技术大都采用集中式的摘要管理模式,该
随着通信技术日新月异的发展,相关的科研理论不断与时俱进,三维模型由于自身巨大的优势而逐渐成为主流,并广泛应用于虚拟现实、机械制造等行业领域,尤其在三维模型语义标注与
在众多数据挖掘技术中,多分类器融合技术是近几年来的研究热点,它利用多个分类器来解决问题,可以显著提高系统的泛化能力,达到比个体分类器更好的分类精度和鲁棒性,受到许多
可扩展标记语言XML(extensible Markup Language)已逐渐成为Web上对数据进行表示和交换的标准格式。随着XML使用的日益广泛,越来越多的数据库厂商考虑将XML数据的管理融入到传
随着网络技术的发展和互联网规模的扩大,互联网上的信息不断的增长,如何有效的检索这些海量信息成为Web信息检索领域的重要研究课题。在信息检索系统中,检索模型和检索系统的性
生物识别技术是一种用智能机器来模拟辨别验证身份的一种技术,其中人脸识别技术可以利用人脸部的生理或行为特征来检测图像中的人脸位置或识别出人的身份。由于人脸形态多变
图切割问题一直以来都是组合优化领域中经典并且活跃的主题,对此类问题的研究不仅对多物网络流问题、模糊聚类编辑问题(Fuzzy Cluster Editing).有向图中的反馈顶点集问题(DF
随着全球经济的一体化以及我国经济体制改革的进一步深化,使得国内中小企业都面临着巨大的挑战,管理体制的不完善成为中小企业发展的瓶颈。采购、库存、销售是中小型商贸企业的
基于区域的图像语义自动标注是计算机视觉研究的基础任务和关键技术之一,在图像检索及图像理解等领域有着广泛的应用。本文以室外静态图像作为研究对象,研究了图像全局特征提
当今,很多场所都已经安装了监控设备,为了获得并保存重要的视频数据,目的是保障安全。如果有人故意针对其进行恶意篡改来达到不良目的,可能会对个人和社会造成很大程度上的负