具有自然分组特性文本的分类研究

来源 :南开大学 | 被引量 : 1次 | 上传用户：wxiaof

【摘要】

：

文本分类问题是信息检索与数据挖掘领域的研究热点,具有广泛的实际应用,如垃圾邮件过滤、博客分类以及个人主页识别等。文本分类任务主要是在给定的类别集合下,根据文本的内

【作者】

：

卢敏

【出处】

：

南开大学

【发表日期】

：

2013年01期

【关键词】

：

文本分类自然分组数据分组间协作分组相关度集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类问题是信息检索与数据挖掘领域的研究热点,具有广泛的实际应用,如垃圾邮件过滤、博客分类以及个人主页识别等。文本分类任务主要是在给定的类别集合下,根据文本的内容判定文本的类别。目前,基于机器学习的自动文本分类方法成为了解决文本分类问题的核心技术,其主要任务是从训练数据集中构建一个符合实际数据特性的分类模型,以预测未知文本的类别标签。在诸多文本分类应用场合,数据集常常可以自然地划分为若干个组。各个分组不是根据数据的分类标签划分的,也不是通过数据聚类形成的,而是数据集的一个具有客观物理意义的切分。例如,在垃圾邮件过滤任务中,邮箱是邮件客观存在的寄件人标号,可按邮箱对邮件进行分组。在具有自然分组数据的文本分类任务中,分组数据具有分组文本特性不同、分组样本规模不同以及组内正负例不均衡等数据特性,是分类过程中可以利用的先验知识。然而,传统分类算法忽略了分组数据上述特性,造成分类模型的偏差,制约分类性能。针对上述问题,本文开展自然分组数据上文本分类研究,旨在研究如何利用数据的自然分组信息以提升分类性能。本文并不探讨数据自然分组的形成原因,也不涉及如何从众多分组属性中选择最优分组属性的问题。针对具有自然分组数据的文本分类任务,本文开展了以下研究：首先,针对不同分组具有不同的文本特性,提出基于分组间协作的集成分类算法,以综合考虑训练数据集中所有分组的文本特性,避免分类模型丢失来自小规模分组以及组内样本失衡分组的文本特性。具体地,提出基于分类模型参数共享的分组上分类模型互训算法,使得各个分组上分类模型的训练除了利用其自身数据,还可借助于来自其他分组的分类数据,从而为训练数据中各个分组构建一个具有泛化性的分类模型。在得到各个分组上分类模型后,对各个分组上分类模型输出类别标签的概率进行融合。其次,针对自然分组之间存在相关度这一特性,在基于分组间协作的集成分类算法基础之上,提出融入分组相关度的集成分类算法,以进一步提升集成分类性能。具体地,将分组相关度作为一种正则化信息,引入到各个分组上分类模型构建的损失函数中,使得相似分组具有相似分类模型,为各个分组上分类模型的构建提供了额外的归纳偏置信息,必然为各个分组构建一个更具有泛化性的模型。由于在实际文本分类任务中,无法预知分组相关度。本文将分类模型参数和分组相关度融合到一个优化目标中,通过迭代优化策略从数据集中自动地学习分组相关度和各个分组上分类模型参数。最后,针对测试数据也存在自然分组特性,在融入分组相关度的集成分类算法基础之上,提出体现测试数据分组特性的分类预测算法,以充分利用测试数据的自然分组信息,更好预测未知文本的类别标签。具体地,提出基于代价敏感列表排序算法的测试数据融合权重学习算法,为每个测试数据构造具有考虑其分组信息的集成权重,使得与样本相似的分组上分类模型赋予较大的融合权重。基于学习得到的融合权重,对训练数据中各个分组上分类模型输出类别标签的概率进行融合,以输出未知文本的类别标签。为了验证本文提出算法的有效性,将本文所提的算法应用于垃圾邮件过滤任务、个人主页识别任务以及文档排序任务。在基准数据集上的实验结果表明,本文提出的算法在分类性能上有显著的提升,尤其是相比于未考虑数据自然分组特性的分类算法。此外,本文的研究成果还可应用于其他领域的具有自然分组数据的分类任务,推动相关领域的研究发展。

其他文献

关于高校图书信息资源共享的几点思考

我国教育事业的不断推进，人力、物力、资金在高校方面的建设也在不断加强。针对在目前高校中图书信息资源中较为突出的问题，已经严重影响了学校师生对图书信息资源的需求。本文

期刊

高校图书馆图书信息信息资源共享

醇法大豆浓缩蛋白碱改性后乳化性的研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

大豆浓缩蛋白改性乳化性

探析新形势下同级财政预算执行审计策略

期刊

新形势同级财政预算执行审计策略

活动轮廓模型中向量场基本理论及发展

论文研究了计算机视觉中的基本问题:图像分割及目标边界提取。目标边界提取把图像中感兴趣的目标与背景区分开来，它是一类特殊的图像分割。实现图像分割和目标边界提取的重要

学位

图像分割目标边界提取活动轮廓模型向量场凹边界

重大专项“常规岛关键设备自主设计和制造”课题通过国家能源局正式验收

<正>由上海成套院牵头,联合21家单位共同承担的大型先进压水堆及高温气冷堆核电站重大专项"常规岛关键设备自主设计和制造"课题通过国家能源局组织的正式验收。专家组听取了

期刊

常规岛大型先进压水堆东方汽轮机国家能源局重大专项

氧化锆全瓷冠与全锆冠在后牙固定修复中的临床效果

目的分析氧化锆全瓷冠与全锆冠在后牙固定修复中的临床效果。方法随机抽取我院口腔科于2016年3月至2017年3月收治的牙缺失需修复的患者240例,共470颗缺损牙,均分成两组,对照

期刊

后牙固定修复氧化锆全瓷冠全锆冠临床效果

“智能电力营销”环境下供电优质服务创新

期刊

“智能电力营销”供电优质服务创新

具有自然分组特性文本的分类研究

其他学术论文