论文部分内容阅读
近几年来,随着数据分析和数据挖掘等领域的实际问题广泛提出,半监督学习在理论和实际应用研究中获得了长足的发展,半监督学习研究主要关注当训练数据的部分信息缺失的情况下,如何获得具有良好性能和推广能力的学习机器。协同训练和多视图方法是半监督学习理论的基本方法,在实际问题解决方案中这两种方法被越来越广泛的采用,并取得了较好的结果。本文首先从半监督学习的理论体系入手,概述半监督学习理论产生渊源及发展过程,主要介绍了人工智能与机器学习的发展,半监督学习在数据挖掘体系中的作用,半监督学习的研究现状与进展以及简要介绍了半监督学习主要算法框架。对贝叶斯理论、期望最大化算法、有限混合模型三个方面进行了剖析,这些理论算法是本文研究的基础。其次介绍了协同训练方法的注意点及应用背景。指出属性集合的聚类假设和分割集合的PAC设置是该方法的限制之一,并阐述了协同训练方法在自然语言处理和基于内容的图像检索这两个研究热点的应用问题。然后,本文对半监督框架下传统多视图EM算法的实现及算法中使用的公式推理细节进行说明;主要针对贝叶斯分类器和基于高斯混合模型的多视图EM算法进行分析,并对上述算法进行设计上的高进,以提高该算法在多视图框架下获取合适参数的能力,特别指出的是,改进后的算法设计在后续的实验中取得较好的分类结果;多视图EM算法的具体实现的注意点以及如何协调不同视图的权重参数等内容进行阐述。最后,本文采用烟草数据进行验证实验,实验结果表明该协同训练方法与传统算法相比在分类准确率方面有了一定的提高。两种半监督学习方法的对比实验中,多视图方法在这批数据上有较好的学习能力。这些实验结果,为烟草企业在产品配方设计中的数据分类提供了数据支持,并且在企业的产品设计中可以得到推广应用,以提高烟草企业在数据分类处理中的实际应用能力。