上下位关系抽取及其用于短文本分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:yyy123yy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络在各个领域中的广泛应用,产生了庞大的网络信息,其中,以手机短信、QQ聊天记录、博客评论、新闻评论等短文本形式存在的信息也得到了空前的膨胀,如何对这些以短文本形式存在海量知识进行有效的组织和管理,使用户能方便准确的查找到所需信息,是文本自动知识获取迫切需要解决的问题。   由于短文本长度短、描述概念信号弱,使得用于长文本时效果比较好的分类方法,在作用于短文本时,分类效果不理想,为了解决上述问题,我们采用了一种利用额外信息来辅助短文本分类的方法。   对于词语之间的语义关系的研究和学习,一直是信息处理和自然语言处理中不可缺少的一部分,其中,词语间的上下位关系在语义关系中扮演着重要的角色,引入上下位关系这个额外信息来辅助短文本分类是目前的一个研究热点,此前也有很多关于提取上下位关系的研究,尽管这些研究在获取上下位词对时有很大的效用,但如何提取具有上下位关系的词对,仍然是一个富有挑战性的任务。利用上下位关系对短文本的特征向量进行扩展,能够在一定程度上增强短文本的概念描述能力。本文是基于上下位关系的短文本分类研究,主要围绕以下工作进行:   (1)提出了一种基于概念内涵的上下位关系获取方法。该方法将词语在《知网》中的概念定义项作为其内涵,利用具有上下位关系的词语在概念内涵上具有包含关系的特性来计算概念之间的上下位关系强度,继而通过整合词语对的多对概念对得到词语对间的上下位关系强度,并设置阈值得到最终的上下位关系词对,将得到的词语对用来扩展短文本,实验结果验证了该方法的有效性。   (2)通过为短文本的特征向量增加新的特征词语的方式来提高短文本的概念描述能力,尽管这样对于短文本的分类效果有所改善,但还有需要进一步提高和改进的地方:在特征扩展时,我们只是简单的将新特征扩展进短文本特征向量中,虽然这样的扩展会给短文本的分类性能带来提升,但这样的扩展也给短文本分类带来了噪音,影响其分类效果,鉴于此,我们采用了一种考虑特征扩展方式的短文本分类方法,这种方法是在为短文本的特征向量增加新的特征词语时,考虑到原有特征词语和新增特征词语的来源不同,所以在计算权重时,它们的权重值不一样,并通过实验证实了方法的合理性。  
其他文献
为了满足用户的全局QoS(Quality of Services)需求,如何从大量的候选服务中选择出最优的服务组合已经成为Web服务研究领域中的热点问题。然而,现有的服务选择方法较少考虑到服
神经元集群编码和spike train分析是神经信息处理的关键问题。随着多电极同步记录技术的发展,在海量数据中发现神经信息处理的模式和规律,需要多维神经发放的理论模型和计算
已知一种高性能的两步文本分类方法,第一步使用某种分类器对可靠部分的文本进行分类,第二步使用某种分类器对不可靠部分的文本再进行分类,该方法能够明显地提高分类的效果。而两
突现是复杂系统中通过个体间的非线性交互作用而产生的群体行为,是复杂系统表现出来的高层次事物整体所具有而其组分不具有的一种新特性。针对突现现象的研究已经成为复杂系统
计算机的普及和更新带动了互联网的发展,互联网的发展使得网络上信息的传播更为迅速和广泛。博客作为一种互联网用户之间用于交流和传播信息的工具,受到大部分人的喜爱,成为网络
近年来,车载设备作为监测列车运行状态的重要组成部分,其健康运行受到人们的广泛关注。目前关于车载设备的研究大多是基于车载设备采集系统对列车上空调系统、受电弓、车钩及
随着生物信息学的发展,生物医学数据呈爆炸式的增长,目前已经拥有数百个活动的生物医学数据库,如何管理和分析这些海量的数据已成为研究的重点。数据挖掘技术用于发现大量数据所
室内电波预测由于不同室内环境的复杂性而出现了较多的预测模型。电磁波传播理论与数值分析方法为基础的确定性射线跟踪模型,依靠现有的计算机技术能够较好的预测电波数据。射
随着计算机技术的飞速发展和生活水平的提高,人们在许多领域对信息安全要求越来越高,例如用计算机对小区进行智能监控,不仅节约人力资源和成本,也为日后案件的调查提供证据。
蛋白质折叠结构预测问题是当前生物学研究的一个热点。由于其特殊的结构和所使用的模型限制,利用NP问题的求解来求其最小能量值从而推测出折叠结构是这个问题的研究方向之一。