论文部分内容阅读
随着互联网和计算机技术的发展,音视频内容的数量呈爆炸性增长。对于用户来说,想要快速查找到自己需要的内容则愈发困难。基于内容的音乐检索为用户提供了一种全新的音频内容检索方式,他摆脱了通过乐曲名、作曲家等文字信息对音乐进行查找的传统模式。用户可以使用录音片段或乐曲旋律找到自己需要的音乐,在数字版权管理等方面也有广泛应用前景,是目前基于内容检索中的研究热点之一。音乐主旋律提取又是基于内容的音乐检索中的一项非常重要和关键的技术,但是由于相关的盲分离和计算听觉场景分析等关键技术还未发展成熟,针对音乐主旋律提取的方法也一直在探索当中。本文提出了一种基于语音谐波能量互相关的基音频率跟踪算法。算法基于人类在发出元音音节的过程中声带和声道的变化特征,提出相邻语音帧谐波能量互相关值较大的假设,并使用大量各类型的语料对该假设进行了验证。对多声源基音频中可能出现的情况进行了详细分析,并基于以上结论设计了基音频率跟踪算法。随后,本文设计了一套基于谐波能量互相关的音乐主旋律提取算法,该算法首先利用谐波能量互相关的假设对音乐进行多基频提取,然后从多基频数据中筛选出人声演唱的部分作为该段音乐的主旋律。最后使用ADC04数据库和MIREX09测试数据库对算法进行了测试,测试结果显示该算法可以成功完成音乐主旋律提取任务,与MIREX2011的测评结果相比,提取性能优异,准确度较高。较以往的算法实现简单,不使用复杂的学习算法和概率模型,而且还可以应用在多说话人盲分离、语音降噪等领域。