论文部分内容阅读
随着多媒体技术的飞速发展和计算机处理的不断增长,人们面临着一个巨大的数字化“信息海洋”,如何对这些信息进行快速准确地检索已经成为人们的迫切需要。在这样的条件下,多媒体信息检索技术于20世纪90年代开始蓬勃发展起来,成为信息检索技术研究的一个重要分支。开始阶段,研究的注意力主要集中在基于内容的图像检索和视频检索两个方面,而往往忽视了音频数据中所蕴含的丰富语义,加上原始的音频数据的非结构化特性,因此,音频检索相对滞后。随着音频数据的大量出现,基于内容的音频检索也逐渐成为多媒体信息检索技术的一个研究热点。本文在认真总结了前人研究成果的基础上,对基于内容的音频信息检索中的若干问题进行了相关探讨,着重研究了音频特征的分析、分类器设计和语音信息检索这几方面的问题。本文的主要工作和研究成果包括以下几个方面:(1)音频特征分类方法的研究音频分类主要以一些主观或者客观的音频特征为基础,音频特征的选取要能够充分体现出音频在时域和频域中的重要分类特性。因此,音频特征的分析与提取也就成为音频分类问题的基础和重点。如何有效地提取音频特征,并保持特征间相互独立,减少信息冗余就是需要进一步解决的重要问题。本文在音频特征分析中,引入独立分量分析算法,用来提取音频最为关键并高维独立的特征,提高特征的可分性。同时,在此基础上,利用支持向量机良好的分类性能,对各类音频数据的特征进行分类,即提出一种将独立分量分析和支持向量机结合而构成的混合模型用于音频特征分类问题,收到较好的效果。(2)音频分类器的设计与实现基于内容的音频检索就是要针对连续的音频信号进行分类。因此,如何构造一个分类器,使其能较好地表征音频的时间统计特性,同时又具有一定的类别区分能力是一个值得研究的问题。本文在结合课题组在语音识别研究中己完成的研究基础之上,将由隐马尔科夫模型引申出来的广义模型运用到音频分类检索中,将广义模型与支持向量机结合,提出将基于支持向量机和广义模型的混合模型用于音频分类检索。(3)基于广播新闻音频的检索技术研究语音是音频数据中的一个重要组成部分,比如,在广播新闻节目、学术会议的录音中包含着大量的语音信息。由于语音具有直观、自然、方便使用的特点,因此,如何直接利用语音来有效地检索多媒体中相关的音频信息,也是一个值得探讨的研究方向。本文针对广播新闻,进行音频检索探讨,研究其中的音频分类、音频检索以及语音识别问题。并在此基础上,设计和初步实现一个基于内容的音频信息检索原型系统。