论文部分内容阅读
音乐信息检索是跨学科研究的一个新兴领域,以往音乐都是依赖于人为手动对音乐标注进行分类的,但是这样的分类方式容易因为错误的标签从而导致检索错误。为了解决自动分类的问题,有人着手从音频本身的特征出发,即人工提取音频特征用于自动分类。但是由于音频的分类包含的特征复杂,且难以提取出合适的音频特征,使得音乐的自动分类效果并不是特别的准确。本文设计出一种方法,通过将音乐转换为频谱图,使得音频文件以图片的形式进行处理。由于目前卷积神经网络被广泛地用于图像识别中,本文采用了卷积神经网络对频谱图中进行深层特征的提取,根据每一小段音频对应的频谱图实现了音乐的流派识别。为能更好的从整体判断音乐的风格,本文还设置了一个全局平均池化层,通过将所有音频片段的分类结果进行了一个汇总,实现了整体上的流派识别。为了进一步提高系统的识别精度,本文验证了不同阈值,不同池化大小对神经网络的影响,通过实验找到了实验最优参数。另外,本文还重新优化了系统架构,提出了循环卷积神经网络,该架构通过在卷积神经网络后增加了循环神经网络用于处理时序序列数据。在训练阶段,通过设计了动态加权欧几里德损失函数用于神经网络训练,进一步提升了系统的稳定性。