面向互联网的中文问题分类技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wuyan68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息加速膨胀,人们发现越来越难找到自己需要的信息。搜索引擎的诞生,在一定程度上缓解了这个矛盾。但是,搜索引擎返回的结果太多,而且有时候结果并不是用户所需要的。问答系统试图直接返回人们最关心的结果,可是现灾害处于实验室研究阶段。腾讯、百度、雅虎等著名互联网公司,推出一个在线问答系统,不过用户所提问题是由其他用户回答。人们浏览其他用户所提问题时,习惯按照一定的类别浏览,如何将用户所提的各种各样的问题自动分类,成为本文研究的重点。面向互联网的中文问题分类系统,是由语料构建、特征选择、权值计算和分类器等几个部分组成。在类别多,层次多,而且没有标准的训练与测试语料的情况下,如何保证较高的分类准确率,是整个系统的关键所在。腾讯公司提供问答对作为语料。在对该语料去除噪声和平衡处理后,作为训练和测试集。本文采用基于密度的聚类算法去除噪声,使用OverSample和UnderSmaple方法平衡语料。引入规则分类器解决一些类别召回率低的问题。由于类别多而细,采用层次分类方法,每层分类器相互独立。而层次分类有大类分错,小类一定分错的缺点。因此,层次分类器通过采用输出概率值,将各个层次的概率值加权相乘的方法,减少分类时因层次传递导致的错误。同时,根据用户特点,采用返回三个候选结果,供用户选择的方式,既可以提高分类的准确率,又可以便于用户浏览。实验表明,聚类算法有效地处理了不均衡数据集的样本噪声问题,OverSample和UnderSample方法的简单可行性。层次分类在解决多类别分类问题时有较好效果,推荐多个类别结果会极大地提高系统性能。
其他文献
蜜罐在网络安全领域是一种新的技术。它通过欺骗黑客达到追踪的目的,对黑客攻击进行追踪和分析,能够捕获黑客的键击记录,了解到黑客所使用的攻击工具及攻击方法。研究型蜜罐需要
海量图像检索是当前活跃的研究方向,它有着广阔的应用前景,在计算机领域中得到了广泛的关注。但同时它又是一个极为困难的问题,困难主要来源于海量图像检索环境经常是一个规
高端容错计算系统是关键应用领域中的重要信息化设备,此类系统一方面具有较强的事务处理能力,另外一方面具有较高的可靠性,可长期提供高速、稳定的信息处理服务。高端容错计
近年来,可穿戴计算机、移动计算及无线自组网技术飞速发展,应用移动对象的场合越来越多,另一方面,GPS技术和传感器技术快速发展,为移动对象提供位置相关服务的导航系统有了越
跨系统切换是指移动终端从一个通信系统被切换到另一个不同的通信系统,本文主要研究和实现无线网络控制器中移动终端从第三代移动通信系统到第二代移动通信系统的跨系统切换,
可穿戴计算机(wearable computer)是一种新概念的个人移动计算系统。它是伴随着计算机不断向超微型化发展应运而生的,也是“计算机应以人为本”这一理念的必然产物。SOPC是可
生物信息学已成为能够改变科学发展的决定性力量之一,网格计算为生物信息应用提供了强大的计算和存储平台。然而,网格应用首先需要解决服务集成、资源异构、作业管理和调度等
近些年来,人们收集数据、存储数据的能力得到了空前的提高,我们可以轻而易举地获得海量数据,在这些海量数据背后隐藏着许多重要的信息,理解它们已经远远超出了人的能力,这就
运动目标跟踪是计算机视觉研究领域的重要课题之一,也是近年来备受研究者关注的前沿方向。运动目标跟踪的目的是通过从含有运动目标的图象序列中跟踪运动目标,并对其行为进行理