基于距离度量学习的文本分类研究

被引量 : 0次 | 上传用户:w253602739
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术作为作为现代互联网信息科技的重要分支在过去的二十年中有了长足的发展,然而随着互联网上Web页面数量的指数增长,互联网信息的多样性也呈现出越来越复杂的态势。如何改变传统的文本分类算法使其适应现代Web信息类别多样、低区分度等特性成为现在文本分类亟待解决的问题。距离度量学习算法是一类围绕样本之间相似度的度量模式来进行研究的机器学习算法,由于目前基于统计和机器学习的文本分类算法已经比较成熟,在分类精度方面很难再有更大的提高,因此如何改变样本的距离度量模式使其达到更好的分类效果,是当前的一个研究热点。此方面的研究已经在图像识别、分类领域有了比较成功的应用。本文主要针对距离度量学习在文本分类中的应用展开研究,首先在广泛调研文献的基础上总结了目前已有的本领域相关工作,并介绍了几种常见的距离度量学习算法,其次介绍了文本分类的具体流程,并对其中关键算法进行了分析,最后根据文本分类的特点结合已有的距离度量学习算法根据在实际应用中出现的问题提出了一系列改进方案。本文的主要工作有:(1)在引入距离度量学习的基础上考虑到其对样本密度的影响,提出了改进方案。新的方案设计了一个密度函数与K近邻分类器相结合来平衡距离度量学习算法对样本数据的影响。(2)在大边界最近邻(LMNN)算法的启发下,提出了一种新的基于余弦距离度量的学习算法(CS-LMNN),该算法更加适用于经典的向量空间模型下的文本分类。(3)最后在上述理论基础上,实现了整个文本分类系统,包括预处理模块,特征选择模块,距离度量学习模块,分类模块以及评价模块。
其他文献
中国电影产业保底发行是非零和博弈。在博弈过程中,双方即制作方与发行方在利益上既存在冲突,也会"双赢",因此在策略选择时,双方既有竞争策略,也有合作策略。在采取合作策略
无级调幅智能化振动压路机是压路机的发展的必然趋势,本论文是基于一种新型的无级调幅机械结构而设计的液压与控制系统。该机械结构应用于双钢轮振动压路机上。在每一个钢轮中
信托业是四大金融产业之一,对信托业的监管是金融监管中重要的组成部分。国家“十二五”规划提出,我国在“十二五”规划期间,要深化金融体制改革,努力完善金融监管体制机制,并加强
经济的快速发展加大了城市的用电量需求,国内许多经济发达城市都出现供电紧张的局面。电线与电缆是电力、信息等工作传输中的重要载体,直接关系到电力、信息等方面的日常工作
目的设计出鉴别汾远2号远志的特异性PCR引物,建立快速鉴别汾远2号远志的方法。方法利用植物核糖体DNA(rDNA)的内部转录间隔区(internal transcribed spacer,ITS)通用型引物扩
目的:建立苦参饮片规格分级方法及其质量评价标准。方法:1.使用酸性染料比色法测定总生物碱含量,使用高效液相色谱法测定指标性成分含量,研究不同采收季节、不同生长年限、不同产
主要阐述了屋顶花园的景观价值,并基于分析空间、功能、时效及地域特性确立了适用于屋顶花园的景观设计形式与方法,最终达到相应及美观的景观效果。
氯代有机物具有分布广泛、危害严重、难降解、毒性大等特点,是许多国家的优先控制污染物。在零价铁的研究基础上,负载型的纳米级含铁双金属作为催化还原剂,具有活性高、成本低、
目前国内大部分的热工规范和标准都是针对城市建筑制定的,研究民居尤其是偏远地区民居室内热环境的课题相对较少。干热干冷气候区的农村居民整体生活水平偏低,而且该地区多民族
牛磺酸是一种含硫的β-氨基酸,在动物体内多以游离形式存在,具有促进体内营养物质代谢、提高机体免疫力、参与神经内分泌调节等多种生物学功能。本研究以牛肝脏为原料,采用不同