基于距离度量学习的文本分类研究

被引量 : 0次 | 上传用户：w253602739

【摘要】

：

文本分类技术作为作为现代互联网信息科技的重要分支在过去的二十年中有了长足的发展，然而随着互联网上Web页面数量的指数增长，互联网信息的多样性也呈现出越来越复杂的态势。

【作者】

：

彭凯

【发表日期】

：

2013年期

【关键词】

：

文本分类距离度量学习密度余弦向量空间模型大边界最近邻

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类技术作为作为现代互联网信息科技的重要分支在过去的二十年中有了长足的发展，然而随着互联网上Web页面数量的指数增长，互联网信息的多样性也呈现出越来越复杂的态势。如何改变传统的文本分类算法使其适应现代Web信息类别多样、低区分度等特性成为现在文本分类亟待解决的问题。距离度量学习算法是一类围绕样本之间相似度的度量模式来进行研究的机器学习算法，由于目前基于统计和机器学习的文本分类算法已经比较成熟，在分类精度方面很难再有更大的提高，因此如何改变样本的距离度量模式使其达到更好的分类效果，是当前的一个研究热点。此方面的研究已经在图像识别、分类领域有了比较成功的应用。本文主要针对距离度量学习在文本分类中的应用展开研究，首先在广泛调研文献的基础上总结了目前已有的本领域相关工作，并介绍了几种常见的距离度量学习算法，其次介绍了文本分类的具体流程，并对其中关键算法进行了分析，最后根据文本分类的特点结合已有的距离度量学习算法根据在实际应用中出现的问题提出了一系列改进方案。本文的主要工作有：（1）在引入距离度量学习的基础上考虑到其对样本密度的影响，提出了改进方案。新的方案设计了一个密度函数与K近邻分类器相结合来平衡距离度量学习算法对样本数据的影响。（2）在大边界最近邻（LMNN）算法的启发下，提出了一种新的基于余弦距离度量的学习算法（CS-LMNN），该算法更加适用于经典的向量空间模型下的文本分类。（3）最后在上述理论基础上，实现了整个文本分类系统，包括预处理模块，特征选择模块，距离度量学习模块，分类模块以及评价模块。

其他文献

博弈视角下中国电影保底发行的性质及策略选择

中国电影产业保底发行是非零和博弈。在博弈过程中,双方即制作方与发行方在利益上既存在冲突,也会"双赢",因此在策略选择时,双方既有竞争策略,也有合作策略。在采取合作策略

期刊

保底发行非零和博弈策略选择

多功能无级调幅振动压路机电液控制系统研究

无级调幅智能化振动压路机是压路机的发展的必然趋势，本论文是基于一种新型的无级调幅机械结构而设计的液压与控制系统。该机械结构应用于双钢轮振动压路机上。在每一个钢轮中

学位

振动压路机无级调幅液压系统智能控制ARM

我国信托业监管改革法律问题研究

信托业是四大金融产业之一，对信托业的监管是金融监管中重要的组成部分。国家“十二五”规划提出，我国在“十二五”规划期间，要深化金融体制改革，努力完善金融监管体制机制，并加强

学位

信托业监管改革信托业法

电线电缆常见故障原因检测及预防探讨

经济的快速发展加大了城市的用电量需求,国内许多经济发达城市都出现供电紧张的局面。电线与电缆是电力、信息等工作传输中的重要载体,直接关系到电力、信息等方面的日常工作

期刊

电缆线路故障预防措施

汾远2号远志的rDNA ITS等位基因特异性PCR鉴别研究

目的设计出鉴别汾远2号远志的特异性PCR引物,建立快速鉴别汾远2号远志的方法。方法利用植物核糖体DNA(rDNA)的内部转录间隔区(internal transcribed spacer,ITS)通用型引物扩

期刊

远志汾远2号ITS等位基因特异性引物分子鉴别

苦参饮片规格及其质量评价标准研究

目的：建立苦参饮片规格分级方法及其质量评价标准。方法：1.使用酸性染料比色法测定总生物碱含量，使用高效液相色谱法测定指标性成分含量，研究不同采收季节、不同生长年限、不同产

学位

苦参饮片规格分级质量评价标准一测多评药效指纹图谱

谈屋顶花园设计中的景观效果营造

主要阐述了屋顶花园的景观价值,并基于分析空间、功能、时效及地域特性确立了适用于屋顶花园的景观设计形式与方法,最终达到相应及美观的景观效果。

期刊

屋顶花园景观特性营造手法效果

Al2O3/PVDF负载Ni/Fe催化还原剂制备及氯乙酸脱氯研究

氯代有机物具有分布广泛、危害严重、难降解、毒性大等特点，是许多国家的优先控制污染物。在零价铁的研究基础上，负载型的纳米级含铁双金属作为催化还原剂，具有活性高、成本低、

学位

还原脱氯载体Al2O3·PVDF氯乙酸纳米Ni/Fe

干热干冷地区民居建筑热环境研究

目前国内大部分的热工规范和标准都是针对城市建筑制定的，研究民居尤其是偏远地区民居室内热环境的课题相对较少。干热干冷气候区的农村居民整体生活水平偏低，而且该地区多民族

学位

民居热环境干热干冷气候区热舒适设计策略

牛肝中牛磺酸提取纯化工艺研究

牛磺酸是一种含硫的β-氨基酸，在动物体内多以游离形式存在，具有促进体内营养物质代谢、提高机体免疫力、参与神经内分泌调节等多种生物学功能。本研究以牛肝脏为原料，采用不同

学位

牛肝牛磺酸超声波辅助提取离子交换法

基于距离度量学习的文本分类研究

其他学术论文