论文部分内容阅读
高效率的进行海洋文献的分类对海洋科学研究具有重要意义。目前,解决此问题较为成熟的技术是有监督的文本分类技术。但其往往存在人工标注量太大的缺点;此外,有标注资源代价昂贵,而大量无标注资源没有加以利用。半监督机器学习方法能根据少量有标注资源从大量无标注资源中获取有用信息,有效降低人工标注量。因此,本文运用半监督机器学习方法进行海洋文献分类中的极小化标注问题的研究。本文从描述文本分类和机器学习的基本概念入手,对基于机器学习的文本分类基础技术——文本的表示、分类方法和效果评估三部分内容逐一进行了讨论和介绍,并根据已有实验结果选择了最佳的分类方法;接着通过对半监督机器学习问题的描述,引出了本文所采用的核心算法——协同训练(co-training)算法;最后,使用c#.net语言编程实现了基于co-training算法的海洋文献分类极小化标注,这是本文研究的核心问题。本文的主要工作和创新点有:(1)本文给出了基于协同训练算法的海洋文献分类的详细流程,详细设计了六大功能模块,包括文本预处理、特征分割、训练、预测、挑选特征和评估模块。其中,特征分割模块是co-training方法区别于传统的有监督分类方法的标志性模块,是本文所实现的分类方法的重点部分。(2)采用给特征添加标签的方式,将特征分成两个View,从而训练两个不同的分类模型,实现协同训练方法。又通过一系列的实验,确定了适当的协同训练次数和缓冲区样本数,以使分类结果稳定且良好。(3)最后,将基于co-training的分类方法与有监督分类方法的效果做了对比,实验结果表明,在有标注训练集仅包含2篇文献的条件下,该方法最终的F1值和错误率分别可达到85.88%和14.35%左右,分类性能上基本接近由1500多篇有标注样本训练得到的有监督分类器(90.20%和9.13%)。这说明将co-training方法应用于海洋文献分类可以大大减小人工标注量,并有着较为良好的分类性能,从而实现海洋文献分类的极小化标注。