论文部分内容阅读
在许多领域,人们发现很多问题本质上都有多示例设定的背景,例如新药发现,文本分类(信息检索),图像分类(机器视觉),语音识别(信号处理)等等。多示例问题的成为机器学习领域研究的一个重要问题,在过去的几年,有很多方法被研究出来解决多示例问题。但是多示例问题面临的样本多,大多数学习算法训练速度慢,限制了他们在实际中的应用。本文分别从基于包空间的角度和从基于示例的角度提出了了改进极限学习机的两种方法。主要的研究内容如下:1.从基于示例空间的角度,不仅可以预测包层次的标签,也可以对包中示例的分布和示例标签进行预测。本文从基于示例空间的角度提出了改进极限学习机的一种方法MIL-ELM。这种方法考虑到对于一个神经网络来说,包中的示例每有标签,无法进行有监督的学习,但是可以把一个负包中的所有示例当成一个多示例空间上的点,让随机产生的神经网络对所有的示例进行一个评价,通过最大化先验概率,这样就可以挑选出一个包中最有资质的示例来代表这个包。基于多示例的基本假设,一个正包中所有的示例都是正示例。负包中至少有一个示例是负示例。第一阶段,利用单隐层神经网络在负包中挑选最负(负示例概率最大),在正包中挑选正包(正示例概率最大)。在第二阶段,把示例当成包的代表作为训练集,利用极限学习机算法原理重新训练神经网络。实验证明MIL-ELM训练速度快,分类精度较高。2.针对MIL-ELM算法的不稳定性,提出用bagging技术优化MIL-ELM。Bagging优化后的MIL-ELM克服了极限学习机算法先天的随机不稳定性,提高了MIL-ELM的预测精度。3.提出一个基于包空间的方法MI-ELM。此方法应用一个Hausdorff距离度量包之间的距离从而改进了高斯核的极限学习机。隐层节点是由包空间组成的,这个包空间是随机产生的。由于我们不需要调节输入层到隐层节点的参数,MI-ELM学习的速率非常快。又利用了核技巧,有较好的分类回归精度。4.提出多示例算法是为了更好的解决多示例问题,本文提出的算法在药物活性预测成功实现了应用,并取得了较好的药物活性预测的效果。通过基于改进Kmeans的聚类算法对图像分割,成功把MI-ELM和ELM-MIL算法应用到基于内容的图像检索。最后,实现了本文提出的算法在多示例回归问题中应用并取得较好的回归测试效果。