论文部分内容阅读
随着信息技术的飞速发展,海量的音乐数据涌现在互联网中。如何有效地对这些音乐数据进行组织与检索吸引了越来越多来白不同领域研究者的关注。作为音乐检索的一个重要手段,基于音乐的情感属性对音乐进行分类可有效提高音乐检索的精度和效率,但同时也面临着诸多技术挑战。音乐数据通常由音频信号与歌词文本两种模态所组成,传统的音乐情感分类方法多数侧重于对单一模态数据的分析,由于单模态数据中所包含语义信息的局限性,使得其往往无法完全表达音乐中蕴含的情感信息,因此研究有效的方法挖掘和利用音乐中多种模态数据间相关性与互补性,对提高现有音乐情感分类方法的性能具有十分重要的意义。本文以融合多种模态数据的音乐情感分类方法为具体研究对象,探索综合利用多种模态音乐数据中包含的相关情感信息以有效提高情感分类的准确率。不同于以往基于文档级音乐表示的多模态音乐情感分类方法,本文提出了句子层次的音乐特征表示机制以从更细粒度精确刻画其情感属性,并且提出了基于区分度排序与同义词扩展的音乐文本预处理方法以提高音乐文本数据的情感类别区分能力。另一方面,为消除不同模态数据间的异构性以实现更加有效的融合,本文提出了针对音乐情感分类的多模态Locality Preserving Projection算法,将音频与歌词模态数据映射到更具情感分类能力的公共隐式特征空间中。在其基础上,本文进一步提出了基于多模态投票的Hough森林音乐情感分类方法,利用不同模态的音乐数据在时间上的相关性提升了音乐情感分类的准确率。另一方面,本文提出了基于多模态K近邻与图学习的音乐情感分类方法,基于不同模态特征在隐式空间中的相似度实现情感标签的有效传播,充分利用了不同模态音乐数据之间的相关性和互补性,提高了音乐情感分类的准确率。实验结果表明,本文提出的方法有效融合了不同模态音乐数据中的情感信息,有效提升了音乐情感分类的精度。