基于内容的音频信息分类检索技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:mlove251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的飞速发展和计算机处理的不断增长,人们面临着一个巨大的数字化“信息海洋”,如何对这些信息进行快速准确地检索已经成为人们的迫切需要。在这样的条件下,多媒体信息检索技术于20世纪90年代开始蓬勃发展起来,成为信息检索技术研究的一个重要分支。开始阶段,研究的注意力主要集中在基于内容的图像检索和视频检索两个方面,而往往忽视了音频数据中所蕴含的丰富语义,加上原始的音频数据的非结构化特性,因此,音频检索相对滞后。随着音频数据的大量出现,基于内容的音频检索也逐渐成为多媒体信息检索技术的一个研究热点。本文在认真总结了前人研究成果的基础上,对基于内容的音频信息检索中的若干问题进行了相关探讨,着重研究了音频特征的分析、分类器设计和语音信息检索这几方面的问题。本文的主要工作和研究成果包括以下几个方面:(1)音频特征分类方法的研究音频分类主要以一些主观或者客观的音频特征为基础,音频特征的选取要能够充分体现出音频在时域和频域中的重要分类特性。因此,音频特征的分析与提取也就成为音频分类问题的基础和重点。如何有效地提取音频特征,并保持特征间相互独立,减少信息冗余就是需要进一步解决的重要问题。本文在音频特征分析中,引入独立分量分析算法,用来提取音频最为关键并高维独立的特征,提高特征的可分性。同时,在此基础上,利用支持向量机良好的分类性能,对各类音频数据的特征进行分类,即提出一种将独立分量分析和支持向量机结合而构成的混合模型用于音频特征分类问题,收到较好的效果。(2)音频分类器的设计与实现基于内容的音频检索就是要针对连续的音频信号进行分类。因此,如何构造一个分类器,使其能较好地表征音频的时间统计特性,同时又具有一定的类别区分能力是一个值得研究的问题。本文在结合课题组在语音识别研究中己完成的研究基础之上,将由隐马尔科夫模型引申出来的广义模型运用到音频分类检索中,将广义模型与支持向量机结合,提出将基于支持向量机和广义模型的混合模型用于音频分类检索。(3)基于广播新闻音频的检索技术研究语音是音频数据中的一个重要组成部分,比如,在广播新闻节目、学术会议的录音中包含着大量的语音信息。由于语音具有直观、自然、方便使用的特点,因此,如何直接利用语音来有效地检索多媒体中相关的音频信息,也是一个值得探讨的研究方向。本文针对广播新闻,进行音频检索探讨,研究其中的音频分类、音频检索以及语音识别问题。并在此基础上,设计和初步实现一个基于内容的音频信息检索原型系统。
其他文献
<正> 在人民共和国璀璨的开国将帅中,林彪、聂荣臻、罗荣桓、徐海东、黄克诚、杨勇、杨得志、梁兴初……3名元帅、2名大将、400多名将军曾经来自同一个传奇之师——八路军第1
<正>人们常说时势造英雄。现如今。时代需求成为研发新技求、推动新变革的最好催化剂。随着现代智能交通技术的飞速发展。公路养护业务与信息化技术不断融合。传统的公路养护
会议
就如同人体的心脏,发动机是各种类型汽车的核心构件,是最为关键的部件,发动机的质量优劣直接影响着汽车的运转与整体效果。发动机的使用寿命需要得到人们的重点关注与保障,对
<正>5月18日至19日,高考综合改革与福建教育新征程论坛在上杭县古田干部学院举行。本次论坛由省教育厅、龙岩市人民政府、福建师范大学河仁基础教育研究院共同主办,龙岩学院
光学透明胶膜(CEF0807)是一种用于粘接光学透明元件的特种PSA(压敏胶),其对被粘基材的力学性能、透光性能、雾度、色彩失真度和可靠性等影响很大。研究结果表明:CEF0807是一
检测了3种PVC-SG5型树脂的基本性能,优化了PVC管材配方的润滑体系,考察了采用该优化配方生产的管材的性能。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
寒温带地区土质肥沃,产出的丹参品质较好,但气候冷凉,栽培工艺较其他地区有所不同,为保障生产周期便采用了机械化移栽技术。通过优良的机械化移栽技术能提高丹参的成活率,保
在不同视点处得到的同一三维场景的两幅视图(图像)之间存在着固有的几何关系——极几何关系。极几何关系独立于场景结构,只与摄像机的内部参数和相对位置和姿态有关。基本矩