论文部分内容阅读
单声道人声与伴奏分离问题是信源分离问题的一种,意图从一路混合信号中分离出人声与伴奏。分离问题可以很自然地表达成一个监督学习问题。随着机器学习技术的快速发展,基于监督模型的方法已成为近几年的研究趋势。以深度神经网络为代表的深层模型,比如卷积自编码器,显著提升了分离问题的性能。神经网络的输入通常是时频图幅度或由此提取的特征,输出有两种选择,一种是人声时频图幅度,另一种是时频掩膜。由于时频图幅度有着更广的动态范围,以往的方法倾向于预测时频掩膜。当预测人声时频图幅度时,一方面模型需要进行复杂的非线性运算去除伴奏的频率成分,另一方面需要将人声的频率成分以较小的失真输出。增加卷积层、池化层的数目能够增强神经网络的非线性处理能力,同时也会引入更多的失真。针对这个问题,本文提出基于U-Net的单声道人声与伴奏分离算法。U-Net在卷积自编码器的基础上增加了融合层与跨层连接,跨层连接把两个不相邻的层连接起来,因而输出能够获取未被池化的高精度特征。此外,为了避免过拟合,本文提出了一种针对语音分离问题的数据扩增方法。本文设计了一系列实验来展示U-Net方法的特性。在iKala数据集上的实验显示,相同深度下U-Net的分离性能总是优于自编码器,同时增加U-Net的深度能够提升分离性能。此外,预测幅度的分离性能要优于预测掩膜。预测幅度时,选择损失函数为KL离散度的分离性能又要优于均方误差。本文也在DSD100数据集上进行了评估,在没有对分离后的语音进行额外处理的情况下,U-Net方法取得了第三名。相比其它方法,U-Net方法具有分离框架简单、延迟低、速度快、权重数目少的优点。最后,本文首次提出以视频的形式对神经网络进行可视化,视频能够反映隐藏层输出随不同声音输入的变化。实验发现U-Net能够提取出具有区分性的音频特征。