【摘 要】
:
随着信息技术的发展,文本资料的数量呈几何级增长,如何在众多的资料中快速准确的找到人们需要的信息,成为当前信息处理领域一个亟待解决的问题。基于人工智能的文本分类技术
论文部分内容阅读
随着信息技术的发展,文本资料的数量呈几何级增长,如何在众多的资料中快速准确的找到人们需要的信息,成为当前信息处理领域一个亟待解决的问题。基于人工智能的文本分类技术能够根据文本的语义内容,自动将文本划分到预定义的类别体系中,从而一定程度上解决了上述难题。现在,文本分类技术已经有了很广阔的应用领域,而且还在不断发展。
文本分类是一个复杂的过程,主要包括文本预处理、文本表示、特征选择、分类算法、性能评估等。本文针对这几个方面进行了研究和探讨:文本表示方面,本文着重分析了向量空问模型;在特征选择方面,本文分析了互信息、信息增益、CHI统计等常用的特征选择方法。分类算法是系统的核心,本文给出了SVM和KNN分类算法,并以KNN算法为重点。
本文首先给出了传统KNN算法的概念、思想和实现,然后详细分析了该算法的优点、缺点,同时给出本文针对传统KNN算法的改进思路、改进方法。通过引入kd-tree存储搜索结构和聚类算法来提高KNN算法的速度。Kd-tree能够加速k近邻的检索速度,同时聚类算法的引入又能够大大的缩减样本空间。
最后,本文实现了一个简单的文本分类系统,并给出了各个模块的简要设计。通过该系统对本文改进算法进行实验验证。结果表明改进算法在分类准确率下降可以接受的情况下,大大提高了算法的分类速度。
其他文献
近年来,随着智能手机、平板电脑等移动设备的不断发展与快速进步,手机成为人们最常用的图像/视频采集、处理和存储工具。但是智能手机、平板电脑等移动设备在运行计算复杂的
手语是有听力障碍的人互相交际和交流思想的一种重要工具。但是当今社会中信息传播的主要方式都是建立在自然语言之上,对听力障碍者接受信息、融入社会主体造成极大的困难。手
随着P2P文件共享软件的广泛应用,P2P网络中不良信息的传播和相关P2P网络的盗版侵权等现象也不断增多。为了使P2P技术在应用领域充分发挥作用,P2P文件共享网络管理系统成为近
随着网络和信息技术的发展,各个应用领域的合作越来越密切,数据的互操作性日显重要。由于不同数据源的数据模式的自治性与异构性,为实现数据共享,模式匹配已成为数据密集型分
在图像处理中,图像分割是一种重要的图像分析手段,目的在于将图像划分为具有不一致性特征的区域并提取图像中有意义的或人们感兴趣区域,是后续图像处理的基础。在计算机视觉
数字水印技术是数字产品版权保护的主要方法之一,也是信息隐藏技术的一个重要研究方向。数字水印技术最初的主要研究内容是图像水印技术,取得了众多研究成果,在视频水印技术
随着网络的普及、信息技术和电子商务的蓬勃发展,电子商务协议的研究越来越深入。交换协议是电子商务协议中很重要的一部分,通过对交换协议的建模和形式化分析来研究交换协议
序列模式挖掘是数据挖掘的一个重要研究领域,其中带通配符约束的序列模式挖掘越来越受到人们的关注。带通配符的频繁序列模式挖掘,是传统频繁序列模式挖掘的自然推广,它允许挖掘
支撑向量机(Support Vector Machine,SVM)是由Vapnik等人于上世纪90年代在多年研究统计学习理论的基础上提出的一个新的机器学习方法。由于在学习和分类问题中出色的泛化性能,支
现实社会中存在大量的动态优化问题,研究并解决这些问题具有重要的现实意义。进化算法是一种智能计算方法,目前已被广泛的应用于求解动态优化问题中。因此,研究进化算法下的