论文部分内容阅读
文本分类问题是信息检索与数据挖掘领域的研究热点,具有广泛的实际应用,如垃圾邮件过滤、博客分类以及个人主页识别等。文本分类任务主要是在给定的类别集合下,根据文本的内容判定文本的类别。目前,基于机器学习的自动文本分类方法成为了解决文本分类问题的核心技术,其主要任务是从训练数据集中构建一个符合实际数据特性的分类模型,以预测未知文本的类别标签。在诸多文本分类应用场合,数据集常常可以自然地划分为若干个组。各个分组不是根据数据的分类标签划分的,也不是通过数据聚类形成的,而是数据集的一个具有客观物理意义的切分。例如,在垃圾邮件过滤任务中,邮箱是邮件客观存在的寄件人标号,可按邮箱对邮件进行分组。在具有自然分组数据的文本分类任务中,分组数据具有分组文本特性不同、分组样本规模不同以及组内正负例不均衡等数据特性,是分类过程中可以利用的先验知识。然而,传统分类算法忽略了分组数据上述特性,造成分类模型的偏差,制约分类性能。针对上述问题,本文开展自然分组数据上文本分类研究,旨在研究如何利用数据的自然分组信息以提升分类性能。本文并不探讨数据自然分组的形成原因,也不涉及如何从众多分组属性中选择最优分组属性的问题。针对具有自然分组数据的文本分类任务,本文开展了以下研究:首先,针对不同分组具有不同的文本特性,提出基于分组间协作的集成分类算法,以综合考虑训练数据集中所有分组的文本特性,避免分类模型丢失来自小规模分组以及组内样本失衡分组的文本特性。具体地,提出基于分类模型参数共享的分组上分类模型互训算法,使得各个分组上分类模型的训练除了利用其自身数据,还可借助于来自其他分组的分类数据,从而为训练数据中各个分组构建一个具有泛化性的分类模型。在得到各个分组上分类模型后,对各个分组上分类模型输出类别标签的概率进行融合。其次,针对自然分组之间存在相关度这一特性,在基于分组间协作的集成分类算法基础之上,提出融入分组相关度的集成分类算法,以进一步提升集成分类性能。具体地,将分组相关度作为一种正则化信息,引入到各个分组上分类模型构建的损失函数中,使得相似分组具有相似分类模型,为各个分组上分类模型的构建提供了额外的归纳偏置信息,必然为各个分组构建一个更具有泛化性的模型。由于在实际文本分类任务中,无法预知分组相关度。本文将分类模型参数和分组相关度融合到一个优化目标中,通过迭代优化策略从数据集中自动地学习分组相关度和各个分组上分类模型参数。最后,针对测试数据也存在自然分组特性,在融入分组相关度的集成分类算法基础之上,提出体现测试数据分组特性的分类预测算法,以充分利用测试数据的自然分组信息,更好预测未知文本的类别标签。具体地,提出基于代价敏感列表排序算法的测试数据融合权重学习算法,为每个测试数据构造具有考虑其分组信息的集成权重,使得与样本相似的分组上分类模型赋予较大的融合权重。基于学习得到的融合权重,对训练数据中各个分组上分类模型输出类别标签的概率进行融合,以输出未知文本的类别标签。为了验证本文提出算法的有效性,将本文所提的算法应用于垃圾邮件过滤任务、个人主页识别任务以及文档排序任务。在基准数据集上的实验结果表明,本文提出的算法在分类性能上有显著的提升,尤其是相比于未考虑数据自然分组特性的分类算法。此外,本文的研究成果还可应用于其他领域的具有自然分组数据的分类任务,推动相关领域的研究发展。