基于蜂群算法和改进KNN的文本分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ylwang8866
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,文本信息量成几何级数增长,人们可获得的网络信息资源越来越多。面对海量信息,人们对快速、准确且全面获取信息的渴望与信息的杂乱无序、各类数据爆发式的增长产生了矛盾。而文本分类作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义,并已成为数据挖掘领域中一个重要的研究方向。本文在分析和总结文本分类中文本预处理、特征选择、文本表示模型、分类方法和分类性能评价的基础上,对特征选择、分类方法进行了深入研究。本文的主要研究工作如下:(1)针对文本分类中初始特征空间维数过高、初始特征集大量冗余,从而导致分类精度的下降的问题,提出了一种基于模拟退火机制的蜂群优化特征选择算法,对初始特征集进行有效降维从而达到提高分类精度的效果。该方法中,以蜂群算法流程为主体,把模拟退火机制引入其中,选择合适的蜂群数量和温度下降函数,并通过实验与与卡方统计、信息增益和互信息等算法进行对比,从而证明该特征选择方法对于提高文本分类性能是较为有效的。(2)针对传统KNN算法在处理大数据集时的不足,本文提出一种基于聚类去噪及密度裁剪的改进KNN算法。该算法通过聚类手段进行去噪处理,并且通过加快K近邻的搜索速度提高KNN算法的分类效率,同时保持KNN算法的分类精度。通过实验证明,该算法能够有效的提高KNN算法在处理大数据集时的分类效率,并且很好的保持了KNN算法的分类精度,具有良好的分类性能。本文通过对文本分类系统中的特征选择方法以及分类方法两个方面分别进行研究和改进,从不同方面提高了文本分类的分类性能。
其他文献
大庆炼化公司炼油一厂350万t/a常减压装置于1997年建成投产,已连续运行22年,近年来相继出现冷换设备管束频繁腐蚀泄漏、减渣泵出口主线与减底一路分支管线腐蚀泄漏等问题.影
低温甲醇洗是利用物理的方法吸收工业废气,进而达到净化的目的.在低温甲醇洗工艺中,使用甲醇溶剂吸收二氧化碳和硫化氢等气体,而且也能吸附水汽、氨气和硫化物,在当前的工业
在某些大型的合成氨生产环节当中,通过低温甲醇洗的方式展开相应操作时,会存在对应的液氮洗工艺进行原料制造.液氮洗的作用在于更好地消除一氧化碳、甲烷等物质,然后留下氨合
工业锅炉的长期运行过程中,要通过定期检验工作分析工业锅炉系统运行过程中存在的各类风险和隐患,以真正做到防患于未然.基于对工业锅炉系统检验工作任务的分析,结合对当前常
头戴显示器(Head Mounted Display,HMD)是一种近眼(Near to Eye,NTE)微型显示装置,应用前景广阔。HMD的像源器件(即微型显示芯片)是整个HMD系统中最重要的组分,现阶段的主流
压力容器在实际应用时,应该及时对其所面对的腐蚀问题进行处理,处理不及时很有可能会影响容器的正常使用,甚至会增加用容器在使用过程中的安全隐患,因此,对安全隐患进一步的
一般大型的空分的设备在各个煤化项目之中,占有着总要的地位.其中包含了对电源系统在空分装置地位的分析,以及在交流电源中UPS的制约,而针对目前直流系统的方案存在着一定的
往复式压缩机一个完整的冲程实施之后,在排气管、进气管均有空气进入.其中进入到下一个冲程中,进、出管道空气会受到加速推进力影响,诱发不同程度振动.此类振动声响会超出噪