【摘 要】
:
问答系统是信息检索的高级形式,其中问题理解模块的问题分类任务能够为后续的信息检索模块缩小搜索范围,并有助于答案抽取模块制定抽取策略,对问答系统整体性能的提高具有重
论文部分内容阅读
问答系统是信息检索的高级形式,其中问题理解模块的问题分类任务能够为后续的信息检索模块缩小搜索范围,并有助于答案抽取模块制定抽取策略,对问答系统整体性能的提高具有重要作用。处在发展初期的中文问答系统尤其需要追求每个阶段的品质,所以中文问题分类作为首要子过程极具研究价值。采取支持向量机的方法对中文问题进行分类比较可行且有效,因为处理问题集得到的特征空间维数较高,支持向量机可以有效解决高维问题;问题向量特征相关性小,支持向量机能够不受特征独立性假设的影响;问题向量特征稀疏,支持向量机具有主动学习能力。此外,如果缺乏用于公测的问题集,支持向量机在自行构建的问题集上仍然可以得到相对最优的结果,具有良好的泛化和推广性。中文问题包含的信息非常少,转换成向量后在高维空间的分类精度很低,因此需要对原始问句中的关键词在概念上进行扩展,一般地,从同义、近义和上下位三个方向扩展能够在尽量不引入噪音的前提下使问题向量的维数升高,从而大幅度提高分类精度。在易分中文问题分类系统上实验显示,对问题特征数目扩大一倍,分类精度可以提高55.263%;对每个类的问题个数增加一倍,分类精度提高35.956%。选取支持向量机参数的过程中发现参数和分类准确率有这样的关系:一、对于同一个数据集,数据区间范围的伸缩不影响分类准确率,罚因子值不变,高斯宽度参数值随区间的伸缩增大或减小;二、数据区间范围不变的情况下,罚因子和高斯宽度参数的值此消彼长,在追求最佳分类精度的取值趋势上是相对的。三、数据集的实例个数不变,罚因子不变;实例中非零属性个数较多时,高斯宽度参数相对较小。
其他文献
ICT(Information and Communication Technology)是信息与通信技术相融合而构成的一个新的概念和技术领域,信息服务提供商和电信运营商对发展ICT业务已经达成了共识。在“向
随着企业信息化的普及,业务流程管理系统在企业中的应用越来越广泛,然而,业务环境的动态变化,企业实际业务执行的时间限制给业务流程本身的管理能力,建模能力带来的新的挑战。首先
随着互联网中信息的爆炸式增长,搜索引擎在人们生活中的作用越来越重要,人们对于搜索结果精度要求的提高,使得面向特定领域的垂直搜索引擎的诞生了。对于服务于垂直搜索引擎
随着Internet的飞速发展,Web上可用的Web服务越来越多,如何从庞大的服务群中获取满足需要的服务成为值得关注的问题。然而传统的Web服务发现技术是在语法描述的基础上,通过关键
面向对象技术(OOP)很好地解决了软件系统中单个业务功能的模块化问题,但其对于横切关注点问题没有提供很好的解决方法。面向方面技术(AOP)正是对面向对象技术在这一问题上的
随着互联网技术的迅猛发展,如何保证网络的安全与畅通是网络维护所面临的一个重大课题。网络测试仪是网络安装与维护人员进行网络安装与维护测试的重要工具。目前,网络检测工
随着软件技术的快速发展,面向服务的软件作为一种新型的软件应用模型正受到越来越多人的追捧。在对面向服务的软件体系结构的深入研究过程中,诞生了许多以服务构件为粒度的构
业务规则是否被有效管理,以及是否能够达到正确、一致和完备的要求,一直都是困扰企业的问题。要利用业务规则对业务系统进行分析与建模,规则本身的一致性与完整性分析就显得非常
随着组件技术的发展,基于组件的软件开发逐渐成为软件工程界的应用研究热点。组件,特别是第三方组件的广泛使用,大大提高了软件开发的效率,降低了软件开发成本。然而,组件开