论文部分内容阅读
本文研究并实现了一个用于可伸缩感知音频编码的信号模型,并对其进行优化,提出了一种由正弦+瞬态+噪声(Sines + Transients + Noise, STN)组成的信号自适应的混合模型。该模型非常适合码率和音质可伸缩编码的音频应用,实现对CD 音质或FM音质从低到中码率的编码和传输,比如6 到64千比特每秒(Kbps)。本文提出了一种基于感知信息提取STN 模型参量的算法。该算法基于共轭匹配跟踪(conjugate matching pursuit) 算法和交叠相加的分析综合法(analysis-by-synthesis overlap-add)。通过计算时变输入信号的心理声学参数,用信号的掩蔽值对匹配跟踪矩阵进行加权。该算法可以准确提取对人的听觉最重要的STN 元素,在面向极低码率应用时这一特点更突出。本文提出了一种新方法实现STN 模型中瞬态信号处理和预回声控制。该方法依赖于STN 正弦模型,因此,它避免了使用滤波器组或其他非参数算法来描述瞬态信号,而后者的若干方法一般都是码率较高的。同时,本文提出的方法可以有效的减小预回声噪声。在研究算法的同时,本文针对此STN 模型提出一套编解码方案。该方案利用STN参数的长时相关性,通过STN 参数轨迹链实现了高的编码增益,同时该方案具有很高的抗丢包鲁棒性。非正式主观听力测试表明,本算法在高码率应用优于变换编码(transform coders),在低码率优于参数编码器(parametric coders)。本文提出的STN 算法构筑了连接低码率低音质参数编码器和高码率高音质变换编码(通常由严格抽样的完全重建滤波器组来实现)之间的桥梁。而且,本算法的STN 模型可以在编码域(coded domain) 实现高质量的时间尺度或基音尺度的调整(time-scale and pitch-scale modifications)。