论文部分内容阅读
语音变声伪装会导致人耳感知和声纹识别出现错误,从而达到隐匿说话人真实身份的目的 .为削弱变声语音的影响,提出一种融合卷积神经网络(Convolutional Neural Networks,CNN)和Transformer编码器的模型,提取变声语音的局部特征和全局特征用于判别变声因子,并根据变声因子的数值实施变声语音还原.在中英文真实场景录音数据集上验证了所提方法的有效性,对变声因子判别实现了95%以上的准确率.利用所提出的方法,在黑箱条件下对某型商用硬件变声器输出的语音进行鉴别与还原,取得了较好的效果.