论文部分内容阅读
基于内容的音频分类是一个涵盖十分广泛的研究领域,为了使计算机能够像人那样对音频语义实现自动理解,这个领域的研究从初始对原始音频流分析向目前感知理解发展,从实际认识向抽象理解发展,因为人脑对事物的理解是抽象的,是基于知识的。
目前,基于内容的音频分类研究主要集中在非压缩音频的分类上,专门针对压缩音频进行分类的方法研究较少。虽然非压缩音频的分类方法也可用于对压缩音频进行分类,但这些方法的效率太低,计算量太大。专门对压缩音频进行分类的方法也有学者进行了研究,但已有方法普遍存在一些不足之处:如对特征参数提取的理论分析不够深入,没有很好地利用音频压缩编码过程的计算结果,对人耳的听觉特性考虑得较少。
本文设计了一个对压缩音频进行基于内容分类的系统,并对系统各个模块的实现方法和原理进行了深入的分析和探讨。本文提出方法的优势在于,充分利用了编码器的计算结果,充分考虑到了人耳的听觉特性,使用了心理声学的研究成果。另外,本文还对从压缩音频中提取参数的含义做了透彻的分析,并通过实验检验了方法的有效性,从而在理论和实践两方面验证了方法的正确性和可行性。