论文部分内容阅读
随着计算机网络在各个领域中的广泛应用,产生了庞大的网络信息,其中,以手机短信、QQ聊天记录、博客评论、新闻评论等短文本形式存在的信息也得到了空前的膨胀,如何对这些以短文本形式存在海量知识进行有效的组织和管理,使用户能方便准确的查找到所需信息,是文本自动知识获取迫切需要解决的问题。
由于短文本长度短、描述概念信号弱,使得用于长文本时效果比较好的分类方法,在作用于短文本时,分类效果不理想,为了解决上述问题,我们采用了一种利用额外信息来辅助短文本分类的方法。
对于词语之间的语义关系的研究和学习,一直是信息处理和自然语言处理中不可缺少的一部分,其中,词语间的上下位关系在语义关系中扮演着重要的角色,引入上下位关系这个额外信息来辅助短文本分类是目前的一个研究热点,此前也有很多关于提取上下位关系的研究,尽管这些研究在获取上下位词对时有很大的效用,但如何提取具有上下位关系的词对,仍然是一个富有挑战性的任务。利用上下位关系对短文本的特征向量进行扩展,能够在一定程度上增强短文本的概念描述能力。本文是基于上下位关系的短文本分类研究,主要围绕以下工作进行:
(1)提出了一种基于概念内涵的上下位关系获取方法。该方法将词语在《知网》中的概念定义项作为其内涵,利用具有上下位关系的词语在概念内涵上具有包含关系的特性来计算概念之间的上下位关系强度,继而通过整合词语对的多对概念对得到词语对间的上下位关系强度,并设置阈值得到最终的上下位关系词对,将得到的词语对用来扩展短文本,实验结果验证了该方法的有效性。
(2)通过为短文本的特征向量增加新的特征词语的方式来提高短文本的概念描述能力,尽管这样对于短文本的分类效果有所改善,但还有需要进一步提高和改进的地方:在特征扩展时,我们只是简单的将新特征扩展进短文本特征向量中,虽然这样的扩展会给短文本的分类性能带来提升,但这样的扩展也给短文本分类带来了噪音,影响其分类效果,鉴于此,我们采用了一种考虑特征扩展方式的短文本分类方法,这种方法是在为短文本的特征向量增加新的特征词语时,考虑到原有特征词语和新增特征词语的来源不同,所以在计算权重时,它们的权重值不一样,并通过实验证实了方法的合理性。