融合CNN和Transformer编码器的变声语音鉴别与还原

来源 :信息技术与网络安全 | 被引量 : 0次 | 上传用户:shening
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音变声伪装会导致人耳感知和声纹识别出现错误,从而达到隐匿说话人真实身份的目的 .为削弱变声语音的影响,提出一种融合卷积神经网络(Convolutional Neural Networks,CNN)和Transformer编码器的模型,提取变声语音的局部特征和全局特征用于判别变声因子,并根据变声因子的数值实施变声语音还原.在中英文真实场景录音数据集上验证了所提方法的有效性,对变声因子判别实现了95%以上的准确率.利用所提出的方法,在黑箱条件下对某型商用硬件变声器输出的语音进行鉴别与还原,取得了较好的效果.
其他文献
基于光电检测技术开发了电缆表面缺陷实时监测系统.在硬件结构方面,系统采用半环形LED白光源照射电缆,利用线阵CCD相机采集电缆表面图像.在软件算法方面,提出一种改进的ROI (Region of Interest)算法精确定位电缆区域,利用一种基于改进双边滤波的图像差分算法建立背景模型,改进一种基于CV-Kmeans区域分类自适应滤波窗口算法来凸显电缆表面缺陷特征.研究结果表明,基于光电检测技术研发的电缆表面缺陷实时监测系统的识别能力较高,整体监测准确率不低于97.0%.