基于改进KNN分类算法的文本分类关键技术研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xiexinhai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息处理技术和计算机网络的普及,Internet上的Web页面数量呈指数增长,为了快速、方便地处理这些信息,Web文本自动分类技术应运而生,并且已经成为信息检索和文本数据挖掘领域的一个研究热点。  结合在企业竞争情报系统中的应用,本文提出了新的特征选择函数并且对KNN算法做了改进,具体的工作如下:  (1)介绍了文本挖掘中所用到的主要关键技术,包括:中文分词技术、文本的特征表示、文本的特征选择、分类技术、聚类技术,以及一些性能评估方法。  (2)介绍了KNN算法的步骤、优缺点,着重介绍了两方面的改进方法。第一个改进特征选择函数,引入词频、文档频、信息熵等元素后,信息选择函数对词的重要性有较好的区分度,既有较好的类内代表性,又有较好的类间区分度。第二个改进的是 KNN分类算法,根据KNN分类算法常常遇到的问题,提出了对样本空间的裁剪方法,不但提高了精度,又减少了时间复杂度。  最后,在前面研究的基础上,根据所做的项目课题,将改进的KNN算法应用于企业竞争情报系统中,取得了较好的结果。
其他文献
随着互联网用户规模的指数型增长,以及IPV4空间的枯竭,地址空间问题受到了前所未有的关注。在层次化路由模式发展出现局限的现今,即便是IPV6的使用使得空间问题得到了暂时性的缓
为了提高发电机组培训质量和效率,本文研究用三维虚拟仿真技术来模拟风力发电机组结构与功能、风机运行过程,用虚拟人模拟检修人员执行风电机组巡检流程,以及风力发电机组检修信息的存储与信息的实时交互显示。系统首先用Pro/E和3dsMax构建风机三维模型,然后用三维引擎OSG组织三维场景模型,通过OSG的回调机制仿真了机组的结构功能,演示了风机的运行过程。接着用3dsMax构建了虚拟人模型和动作库,在场景
市场经济高速发展的今天,软件的开发周期时间越短,软件产品质量越好,后续可拓展性越好,所创造经济价值效益越大,所以如何能够加速软件开发时间与提高软件质量,加强后续可拓展性,成为
计算机技术和网络技术的飞速发展,极大的改变了人们的生活方式。在这种大环境背景下,航天航空、工业自动化等产业也迅猛发展,这些领域中,时间同步是一个最基本但又是最重要的环节
时序数据由不同时间点的数据值组成,通过反映数据随时间变化的特征,它已被广泛应用于统计分析学、信号处理、金融数学、气象预测等各行各业。对时序数据分析最直观的方法就是
随着医学成像技术的发展,越来越多的医学图像被应用到医务人员的诊断和治疗过程中。为了更加有效地管理和利用这些图像,研究人员开始关注医学图像聚类。本文首先介绍了医学图像
伴随着3G网络在全世界范围内的广泛部署和不断增长的用户数目,越来越多的业务种类以及越来越大的数据流量使3G网络不堪重负。在无线接入技术中,3G技术与Wi-Fi(Wireless Fidelity
随着互联网技术的不断发展,电子商务的不断兴起,BBS、博客、微博的不断涌现,商家与购买者的网上交互日趋频繁。越来越多的购买者在使用产品后,将产品的评论发表在网上,评论的数量
本文基于BIRIS(双边资源整合)的服务模式,构建一个车辆服务平台,平台收集社会上各式各样的闲置车辆,对车辆资源进行整合,满足客户的多种个性化需求,能充分利用车辆,并提供监控、调度
人机交互(Human-Computer Interaction,简写HCI)是指人与计算机之间进行信息交换过程。但是,由于受到距离以及设备的非便携性等因素,这些设备会增加用户的操作负荷,因此建立