基于支持向量机和语义信息的问题分类的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:gold704
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,计算机要处理的文本信息越来越多。人们期望计算机能迅速、准确地理解他们的需求和返回精准的信息。传统的搜索引擎不能完全满足这种需求,而问答系统作为自然语言处理领域中的一个相当活跃的分支,它所研究的内容就是理解用户用自然语言提出的需求,进而在大规模的信息中自动地给出满足用户特定需求的准确答案。 问题分类是问答系统的一个重要模块。对系统而言,为了能够正确地回答问题,知道一个问题问什么,寻找什么样的答案是非常重要的。问题分类为问题回答系统理解用户的提问提供了重要信息和解决方案:首先,问题分类能有效地减少候选答案的搜索空间,提高系统返回答案的准确率;其次,问题分类提供的答案类型信息决定了答案抽取策略。 本文在基于支持向量机的问题分类模型上进行研究和改进,主要在以下两方面提出新的见解和方法:一是提出把三种语义信息(命名实体,语义类别和WordNet语义)加入到语法树的SVM分类器中,使分类结果的正确率有比较大的提高,分类结果准确率为94%,高于目前已有的算法的结果92.6%;二是针对前一种方法在运行效率上的不足,设计一个基于依赖树的核函数和算法,提出了计算依赖树的相似性子树算法要优于子集树的观点。此算法正确率达93.8%。最后展望现阶段的成果的扩展性,可以用到细问题分类和中文问题分类中。
其他文献
在基于UML的软件开发过程中,各种UML图形从不同侧面描绘着所开发的软件系统,这些图形之间存在着信息的重叠,从而导致UML模型的一致性问题。UML模型的一致性问题也是建模过程中一
GUI测试多采用基于规约(Specification)的方法,即检查软件实现是否与规约一致。这种测试通常先基于规约建立测试模型,然后再在模型的基础上生成测试用例。当前描述GUI的测试模
随着国民经济的飞速发展,人们对通信业务的需求不断增加,对服务质量的要求也不断提高。电信运营支撑系统和运维支撑系统接口的结构化运行模式已不能满足市场发展的需求,迫切
聚类作为挖掘数据结构信息的有效工具之一,已被广泛应用于图像处理、生物信息学与数据挖掘等众多领域。根据在聚类目标函数中是否引入特征权重,可将聚类算法分为传统聚类算法
网络广泛存在于自然界和人类生活中。网络中的各种有害传播给经济、社会、生态等带来巨大挑战,寻找有效的干预策略实现对网络传播的控制是一个重要的研究问题。本文从两个方
近年来,随着医学成像技术的发展,从神经影像中发现对脑疾病敏感的生物标记和结构或功能连接特性,并用于脑疾病的分类,已成为一个新的研究热点。基于数据挖掘和机器学习的技术
光波分复用(WDM)使一条光纤链路可以互不干扰地同时传输多种不同频率的光波信号,从而提高光纤带宽的利用效率。目前,WDM已经成为构建高性能网络的一项重要技术。HORNET是为城域
本课题实现在嵌入式Linux下IDE硬盘的驱动,实现对IDE硬盘的管理。在此基础之上,实现简易的FAT16文件系统,满足一般的读写操作要求;充分利用Linux资源,完成了在ARM9嵌入式平台
后缀数组构造算法是建立大文本全文索引最主要的方法之一,在网络Web搜索以及生物信息学(基因数据库)等领域,有极其重要的应用。由于这方面应用处理的数据是数于亿计的字符,高效
用于数据分析与挖掘的数据可能包含数以百计的属性,其中大部分属性与数据挖掘任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能是一项困难而费时的任务,特别