论文部分内容阅读
在监督学习任务中,训练集通常是由随机选择的无类标样例经由专家标注得到的。而标注样例的这个过程通常代价很大,利用主动学习方法选择样例可以减少训练样例的需求量;支持向量机与其他的监督学习方法相比具有一定的优势。因此,本文结合支持向量机与主动学习提出了一种新的样例选择方法。对于无类标池中的每个样例和该样例的所有可能的类标情形,考虑该样例在加入训练集参加训练时与超平面的距离大小,新方法选择在最坏的类标情形下与新的超平面最近的那个样例交给专家标注。按照本文方法选择的样例可以最大程度地有助于最优超平面的构造,从而只需标注少量的样例就可以学到具有较高精度的分类器。实验验证了新方法的有效性。在利用支持向量机学习最优超平面时,我们没有考虑训练样例的条件属性与决策类标的不一致性问题,因此得到的最优超平面对噪音具有敏感性;粗糙集明确定义了一致性的概念,使用依赖函数衡量样例的条件属性与决策类标的一致程度,是一种处理模糊和不确定性的有效工具。因此,本文构造了软间隔模糊粗糙支持向量机,通过适当放松模糊粗糙支持向量机的约束条件,在学习最优超平面时允许错分训练样例,综合考虑间隔最大和训练误差最小两个原则,进一步降低了分类器对噪音的敏感性。实验结果证实了软间隔模糊粗糙支持向量机的预测能力。