论文部分内容阅读
近年来互联网技术与多媒体信息技术的快速发展,宣告了二十一世纪正式开始步入大数据时代,如何从海量的数据信息中检索出有用的信息将非常具有研究意义。互联网的多媒体信息中就包括数量增长迅速的数字音乐,大量歌手涌现,海量专辑和网络歌曲纷纷面世,另外受世界文化发展多元化的影响,各式各样的音乐风格也随之产生,为满足人们根据自己不同的喜好来准确而又快速的找到自己想要查询的歌曲,这就要求音乐检索系统更加高效和快速。然而传统的音乐分类都是先训练音乐样本得到分类模型,然后对未知的音乐样本进行预测,这种传统的分类方法所得到的分类器效果往往取决于训练样本的数量。对海量的训练样本全部进行人工标注显然是不现实的,主动学习方法可以很好的解决这个问题。支持向量机(Support Vector Machine)是一种性能十分优良的机器学习方法,本文将主动学习方法与SVM相结合,并将其应用于音乐流派分类当中。传统的基于SVM的主动学习方法的样本选择策略往往只局限于样本的不确定性,即认为距离分类超平面最近的样本点所包含的价值也就最大。基于这种算法本文做出了如下改进:(1)在选取最有价值样本时,考虑选取那些距离分类超平面较近的样本的同时也考虑保证样本的多样性。由于音乐样本的特征维度较高,本文选取样本之间的角度来作为样本多样性的衡量标准,并由此制定了最终的样本价值评判标准score;(2)“一对其余”方法是SVM应用于多分类时的常用方法,然而这个方法人为的造成了数据集的偏斜,这会对最后的分类效果产生一定的影响,所以本文在进行价值样本选取时,制定了样本平衡性判断标准参数b,当主动学习方法选取的价值样本数量不满足平衡性条件时就对其进行平衡性调整。