【摘 要】
:
单声道歌声分离指从单声道歌曲中分离出期望的伴奏或歌声目标信号,一方面可以为单声道的多声源分离提供借鉴和研究基础,另一方面可以应用于音乐信息检索。由于歌声与伴奏在频谱上互相交织缠绕,给单声道歌声分离带来挑战。大量研究专注于寻找可以明确区分伴奏/歌声的途径。传统非深度学习算法根据音频先验知识寻找区分伴奏/歌声的方法,此类方法很难找到对所有类型歌曲都适用、分离性能好的算法,缺乏灵活性。深度学习方法通过神
论文部分内容阅读
单声道歌声分离指从单声道歌曲中分离出期望的伴奏或歌声目标信号,一方面可以为单声道的多声源分离提供借鉴和研究基础,另一方面可以应用于音乐信息检索。由于歌声与伴奏在频谱上互相交织缠绕,给单声道歌声分离带来挑战。大量研究专注于寻找可以明确区分伴奏/歌声的途径。传统非深度学习算法根据音频先验知识寻找区分伴奏/歌声的方法,此类方法很难找到对所有类型歌曲都适用、分离性能好的算法,缺乏灵活性。深度学习方法通过神经网络,自动学习找寻易区分的特征,拟合输入与输出之间关系,展现出更好的分离质量。由于深度学习在图像上性能显著,以及频域相比时域有更多可挖掘信息,歌声分离算法集中在频域上建模,将歌曲的时频谱图作为输入,构建神经网络,分离得到歌声和伴奏的时频谱图,最后结合原歌曲相位,重构出伴奏和歌声信号。目前单声道歌声分离算法性能遇到瓶颈的主要问题是:(1)目前用于歌声分离的神经网络是串行结构,降采样后缩小特征尺寸,导致部分特征信息丢失,造成预测的频谱幅值精度受限。(2)由于人耳对相位不敏感,重构阶段用原歌曲相位近似表示伴奏和歌声的相位,忽视对相位建模。虽然相位对听觉影响不大,但在迁移到其他需要精确相位的场景时,须予以考虑。基于以上单声道歌声分离的研究现状,本文围绕深度学习的频域模型,从神经网络结构、相位准确度等方面考虑,提出一套基于高分辨率网络,并校准分离信号相位的单声道歌声分离算法,达到提高分离信号质量,提升分离性能的目的。本文的主要工作内容和创新点如下:(1)提出基于高分辨率神经网络的单声道歌声分离。因高分辨率网络存在不同分辨率表征并行的子网络,同时拥有原分辨率表征以及多种低分辨率表征,消除串行网络降采样效应造成信息丢失的困扰;并且重复多次特征融合生成新语义表征,从而能学到全面、高精度、高度抽象的特征。本文采用高分辨率神经网络对时频谱图建模,使预测时频谱图的幅值精确逼近真实值。在数据集MIR-1K上的实验表明,本文方法较目前领先的SH-4Stack模型,在SDR,SIR,SAR衡量分离性能的指标上都有提升,证实本文算法的有效性。(2)提出相位估计策略。在频域模型中,对于分离信号缺失准确的相位问题,本课题利用时域模型在时域上对信号直接建模,避免相位失真的优势,根据频域模型分离信号的幅值大小,结合时域模型,估计出分离信号的相位,有效缓解相位不准确的问题。最后结合预测的时频谱图幅值和估计的相位,重构出高质量分离信号。在数据集MIR-1K上的实验表明,加入相位估计,SDR、SIR指标有显著提升,证明准确的相位有助于减弱其他信号的干扰,得到纯净目标信号。为保证分离前后信号时频谱图幅值的一致性,加入时频掩蔽函数,约束分离信号的时频谱图幅值相加之和等于原歌曲信号幅值,使伴奏/歌声的频谱幅值更加准确,接近于原纯净真实的伴奏/歌声。实验表明,约束时频谱图幅值,能够提高分离质量。
其他文献
近年来,海军东海舰队某潜艇支队党委始终以强烈的政治意识抓好党的创新理论武装,夯实官兵的思想政治根基,有力推动了支队建设科学发展和各项任务的圆满完成。支队先后被评为"
钒,被誉为“现代工业的味精”,是国家重要的战略资源,广泛应用于冶金、航空航天、化工和能源等领域。近几年,随着钒产品的广泛应用,对钒原料的需求也不断攀升。然而,为了满足
水资源短缺和肥料利用率低是阻碍我国农业现代化进程的主要因素。水肥一体化技术是解决香蕉产业大水肥管理模式困境和国家“一控两减”政策的重要途径和技术支撑。广西是我国的香蕉主产地之一,目前的香蕉种植面积和产量均位居全国第二。智能水肥一体化系统在香蕉生产上的应用面积不断扩大,逐步取代传统的灌溉施肥方式,缓解了水资源短缺和肥料利用率不高的问题,为香蕉种植带来显著收益。但是,智能水肥一体化管理系统在香蕉生产管
广西葛根种植地拟锈病病害严重,严重影响葛根产量。目前有关葛拟锈病的研究报道较少,尚未见有记载该病在广西的分布区域和发病规律。为了解广西葛根产区葛拟锈病的发生情况,本课题组于2018~2019年对本课题组选育出的4个葛根品种在广西各地推广区域的拟锈病发生情况和种植户管理情况进行调查,探索该病的流行规律,并进行了防治药剂的初步研究,以便寻找出有效防控措施。本文结合文献收集法、问卷调查法、实地调研法、综
钢中残留的大型夹杂物会导致材料裂纹萌生而损害其机械性能,同时由于晶粒粗大而导致大幅度降低材料的强韧性。上世纪有学者提出了“氧化物冶金”技术用于解决以上问题,即控制
不锈钢冶炼新技术的开发一直是不锈钢冶金工作者关注的研究课题。单嘴精炼炉,简称“单嘴炉”,是我国原创的一种钢液真空炉外精炼装置,长期的工业性批量试验已经证明了该炉型
近些年来,随着社会经济高速发展,视频监控成为智慧城市必不可少的一部分。视频监控可以对流动人员及其行为进行实时的采集和记录,从而防范一些意外事故的发生。然而,通过事后查看和人工监督的传统方法已经不再适用。为了更加准确和便捷的获取相关信息,人们希望借助智能视频监控系统来完成一些特定的动作,例如对一些特定的场景以及特定的事务进行识别和检测。运动目标检测作为智能视频监控系统的核心技术,是目标实时跟踪、目标
时空热点是指居民来往次数多、交通流量大的三维时空区域。快速发现时空热点对一系列基于位置的实时服务有重要的现实意义。现有的高效时空热点查询算法是基于Spark分布式计算框架和Getis-Ord统计量的两阶段map-reduce算法。第一阶段map-reduce用于计算各立方单元格的属性值,第二阶段map-reduce用于计算各立方单元格的邻居贡献。现有算法在两个阶段map-reduce中存在耗时严重
近年来,受外部扰动的半导体激光器因其复杂的非线性动力学特性,成为人们研究的热点话题。其中,光反馈半导体激光器具有结构简单、易于集成等优点,成为应用最广的光源系统之一。混沌激光具有类噪声的大幅度波形,因此在保密通信、高速随机数生成、密钥分发等领域具有重要的应用价值。对于传统半导体激光器,受弛豫振荡频率的影响,产生的混沌信号存在低频能量占比低、频谱平坦度差的问题。常用电子器件为低通器件,导致在实际应用