自然邻在文本分类中的应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:dxw2814
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,网络信息量呈爆炸性的增长。以互联网为载体的海量数据蕴含着大量信息,有效的分析并挖掘这些信息中的价值是很有必要的。文本分类技术是数据挖掘领域最常用的技术之一,本文对文本分类技术进行详细的研究。在文本分类领域中,国内外学者基于最近邻技术提出了K近邻文本分类算法,然而传统的K近邻文本分类算法有两大缺点。第一,K值的确定始终面临着困难,如果设置不合理将会对分类结果产生很大的影响,降低分类算法的准确率。并且,对于不同的文本数据集,K值的设定并无经验可循,这给研究者带来很大的麻烦。第二,分类结果受文本集分布影响很大,当训练文本集的分布严重倾斜时,分类效果很不理想。基于此本文提出自然邻的思想,并将其应用到文本分类中,很好的克服了K近邻文本分类的缺点。本文所做的具体工作如下:第一,调研并分析了文本分类的背景和意义,总结了文本分类关键技术的国内外研究现状。第二,分析并总结了文本分类的详细过程和步骤,对每个步骤中的经典技术进行详细的归纳和总结。着重探讨了文本分类的几种常用算法,并对它们的优缺点进行分析和总结。第三,研究了最近邻技术的概念,详细分析了最近邻技术的缺点。针对最近邻中参数的不确定性以及对数据集分布比较敏感等缺点,提出了自然邻居思想,并对自然邻居算法中的自然稳定状态进行改进。自然邻算法可以自适应的获取数据集的自然邻居,无需任何参数,很好的克服了最近邻技术的缺点。最后分析并总结了自然邻的特征,验证了自然邻算法对高维数据的可行性。第四,提出了一种基于自然邻的文本分类算法(TCbNaN),并通过与K-近邻算法以及无权重分配的自然邻文本分类算法的对比验证其优越性。首先,提出了一种基于自然邻的权重分配算法,通过对文本训练集进行权重的重新分配得到训练集中每个文本向量合理的权重信息,然后提出了基于此权重分配信息的自然邻文本分类算法,最后,通过与KNN文本分类算法和无权重分配信息的自然邻文本分类算法进行对比实验,验证了TCbNaN算法的优越性。
其他文献
随着数据量的迅速增加,其中文本形式的数据占很大比重。而文本分类作为最常见的文本挖掘技术,可以在大量杂乱的文本数据中发现有价值的信息具。在文本分类领域,一直将确保分类准确率的同时减少分类时间这一问题作为首要目标。因此,本文基于深度学习的卷积神经网络模型对新闻文本分类模型问题进行研究。主要研究工作如下:(1)针对新闻文本的稀疏性和上下文依赖性,提出一种针对新闻文本数据集的预处理和特征提取方法。该方法采
网络的发展从最初之始到互联网时代,再到如今的移动互联网时代,人们接入网络的便捷性,为整个网络带来了庞大的数据流量,数据中心如何管理这些众多用户的接入和任务请求变得越
诺贝尔文学奖获得者多丽丝·莱辛毕生都在以“史诗级作者的身份去剖析分裂的文明”。莱辛既推崇并身体力行现实主义的创作手法,又运用后现代写作技巧为小说的内容赋予了新的形式和活力。作为一个人文主义作家,莱辛认为要认清现实,必须了解历史,要从历史中学到经验和教训,从而学会怎样看待我们自己和我们的社会。本文以琳达·哈琴的“后现代主义诗学”为理论支撑,分析莱辛小说中“历史事实”的问题化,以探究莱辛对历史以及人类
织物组织是机织物的重要结构参数,对织物的机械性能和服装的外观效果起到关键作用,因此,机织物的组织识别也是产品质量检测过程中必不可少的环节。传统人工识别织物组织的方
本论文以风险管理理论为基础,注重定性与定量分析相结合,通过空间站火情监测及防护系统的项目实际案例对风险管理的实践问题进行研究。通过对该项目的风险因素进行深入研究,
复杂事件处理技术是一项应用非常广泛的信息处理技术,能够从实时数据信息中提取特定信息,具有实时性和准确性。在应对不同应用环境下的复杂事件处理方面,使用事件树表示复杂
随着社会经济生活的发展,不断催生着一人公司生长的活力,但是行贿领域也越来越多的出现一人公司行贿的情形,2016年的两高关于办理贪污贿赂案件的司法解释并没有对单位行贿罪
学位
随着能源危机的加深和低碳政策的推进,分布式电源得到大力推广,以缓解能源和环境的双重压力。但分布式电源中风电、光伏等发电方式的间歇性、波动性为其广泛应用带来严重阻碍
中国人汽车保有量的节节攀升是伴随社会经济发展的一个现象,但是凡事总是辩证的看,当下在各种侵财类案件中,盗开机动车现象越来越普遍,成为侵害公民合法权益的主要问题,加强