KNN算法的改进及其在文本分类中的应用

被引量 : 0次 | 上传用户:wuaiboer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络上的文本信息急剧增长,如何从庞大的信息库中提取有用的信息已变得越来越重要,这有赖于数据挖掘中的文本挖掘技术。文本分类技术是文本挖掘的关键技术之一,因此,对文本分类的研究具有重要的意义。KNN以简单和高鲁棒性而被广泛应用于机器学习和数据挖掘领域,被证实是向量空间模型(VSM)下最好的文本分类方法之一。然而KNN算法有其固有的缺点,当训练样本集过大或特征过多时,KNN算法的效率会明显下降。针对KNN算法的不足,本文提出了一种改进的KNN文本分类算法—PKNN,该算法基于投影寻踪理论和iDistance索引结构,能够通过对一维投影距离的搜索快速获得与待分类样本最近的小样本库,然后通过计算与小样本库内文本的相似度即可获得最近的K个样本,而无须与整个训练样本库的文本进行计算,因而在保证分类精度的同时明显提高了计算的效率。本文首先介绍了文本分类技术的概况和研究现状,然后系统介绍了文本预处理技术,在对KNN算法研究的基础上,提出了改进的PKNN算法。在此基础上,实现了一个中文文本分类系统,该系统由训练模块、分类模块、评价模块组成,能够对文本进行去停用词、特征选择、加权、分类等功能。该系统可以实现不同特征选择算法之间、PKNN和KNN之间分类性能的对比。最后通过实验验证了PKNN算法的效率和准确性。
其他文献
筛选了市场上应用较好的酵素菌、速腐剂、生化黄腐酸(BFA)三种菌剂,对有机肥发酵过程中的温度、微生物活性、酶活性及铵态氮、腐植酸总量及游离腐植酸、及成品肥料中的全氨和
多品种混合装配是在基本不改变或较少改变现有生产设施的前提下,通过对装配生产线的合理组织与排产优化,实现多品种共线装配,以最大限度地挖掘生产线的潜能,用大批量生产的制
如今计算机软硬件技术的发展,计算机辅助设计软件的智能化、普及化,为空间设计研究的方法提供了全新的“平台”,但也使学生在空间创造过程中选择更为快捷方便的电脑进行建模工作
<正>日前,一位中青年剧作家创作了一个唐代题材的戏,搬上了舞台,然而他却苦恼、惊讶于该戏竟然没有使用唐代的服装与发型,而仍然是我们习见的传统戏服样式,发型也仍然是传统
随着城市化进程的加快,城市的人口密度、建筑密度越来越大,而适合市民活动的户外场所越来越少,远远满足不了广大市民的户外活动需求。由此,在西方高度发达的城市产生了口袋公
研究目的:依据中医辨证施治理论,观察健脾化浊方对湿性老年黄斑变性(age-related maculardegeneration,AMD)患者视力、黄斑区视网膜厚度及脉络膜新生血管(choroidalneovascul
二氧化硅气凝胶是一种结构可控的新型轻质纳米多孔性非晶固态材料,被称作"蓝烟"、"固体烟",是目前已知的最轻的固体材料,具有低密度、高孔隙率、高比表面积、低热导率、低光
<正>孩子们的性格千差万别,后天形成固然重要,但先天因素也不能忽略。如果我们形象地将他们的性格分为红、黄、蓝、绿四种不同的色彩,那么善用色彩性格理论,可以让您对孩子更
期刊
ABS全自动塑料电镀生产线主要由机架、镀槽、管路、通风、行车、导电系统、阴极移动及辅助设备组成。电镀生产线的研发是一项系统的工程,耗时长,资本投入大,但其研究成果具有