论文部分内容阅读
特征提取与集成学习算法一直是当前机器学习中的研究热点,在多个领域有着成功的应用。但集成学习技术还没有成熟,在研究过程中仍然存在着众多待解决的问题,在应用上也和人们期待的水平相去甚远。本课题对特征提取与集成学习进行了深入地研究,一方面分析了现有方法的优劣,另一方面,研究了影响特征提取与集成学习算法性能的各个因素,这为进一步改进特征提取与集成学习做好铺垫。在现有算法的研究基础上,提出了新的特征提取与集成学习算法。本论文的主要研究内容和创新点如下:1)核主成分分析与多层感知器神经网络是流行的特征提取算法,但这些算法存在效率低下与易陷于局部最优解等问题。针对KPCA与MLP算法存在的问题,提出了一种新颖的特征提取算法—基于最大间隔超平面的增强的特征提取算法。该算法独立于输入样本的概率分布,通过采用隔间最大化且两两正交的最大分割超平面,将输入样本映射到超平面的法线所构成的子空间中,实现输入样本的特征提取。在对现实世界数据集wine与AR的特征提取的实验表明,基于最大间隔超平面的增强特征提取算法在执行效率,识别准确率方面均超出了KPCA与MLP的执行效率与识别准确率。最后对这些实验结果进行了解释。2)特征提取技术的应用依赖于数据的固有属性,研究了当前流行的特征提取技术,并针对这些特征提取技术所存在的弱点,提出了一种新颖的特征提取算法—强健特征提取算法,该算法分为两个阶段,以同时最大化不同类之间的距离与最小化类内距离为目标。实验表明,在用强健特征提取算法对现实世界数据集进行特征提取时,所表现出的性能在分类精度与效率的指标上均能达到最优。3)传统的集成学习算法存在无法依据数据的特点进行分类的缺陷。在此基础上,首先用间隔分布刻画数据的特点,然后将其引入到标准的支持向量机中,并依据数据分布特点更新支持向量机内核函数,对最初的内核函数重新进行保形调整,增加分类边界附近的Riemann度量,增大不同类之间的分类间隔,实现标准支持向量机算法的改进。将此改进的SVM算法作为基学习器,构建集成学习算法,提出了基于数据特点的受监督集成学习算法—改进支持向量机的集成学习算法。最后通过实验证实了所提出的集成学习算法的优越性。4)当前流行的聚类集成学习算法存在缺陷,即无法依据不同数据集的不同特点,给出恰当的处理方案,提出了一种新颖的聚类集成学习算法—基于数据特点的增强聚类集成学习算法,该算法由基聚类器的生成,基聚类器的选择与共识函数构成。该算法依据数据的特点,通过启发式方法,选出合适的基聚类器,构建最终的基聚类器集合,产生最终聚类结果。实验中,同其他算法相比,所提出算法的聚类误差始终最低。在增加候基聚类器的情况下,所提出算法的NMI值始终高于用于比较算法的NMI值。因此,同这些流行的聚类集成学习算法相比,所提出算法的聚类精度最高,可伸缩性最强。所提出的算法能够依据数据集的不同的特性进行处理,是一种很有前途的自适应聚类集成算法。5)将特征提取与集成学习算法的应用到入侵检测中,详细分析了入侵检测数据集—KDDCUP99。在对KDDCUP99做了适当的处理后,成功将所提出的特征提取与集成学习算法应用到入侵检测中,并提出了一种新颖的入侵检测模型—集成入侵检测模型。最后比较了经典的集成学习算法和本论文提出的基于集成学习算法的集成入侵检测模型在KDDCUP99入侵检测数据集上的检测效果。