论文部分内容阅读
近年来,随着计算机网络技术和数字媒体处理技术的发展,数字化视频、图像、音频的数据量越来越庞大,其应用越来越普及。基于媒体信息语义内容的组织分类检索成为现在迫切需要解决的问题。但是,由于文化背景等差异,每个人对视听觉媒体的评判标准和感官存在着差异,特别是对媒体情感语义的理解。因此,情感认知识别的研究对于提升数字媒体的标注、检索以及数字娱乐产品的情感交互能力具有重要意义。情感是视频、图像的特征之一,是音乐的本质特征。本文以音乐视频媒体作为研究对象,从个人的情感认知角度出发,基于机器学习的方法用音乐视频的视听觉特征识别个性化情感内容,来弥合视听觉低层特征和人类情感高层语义之间的语义鸿沟。着重研究音乐视频训练集的构造与标注、情感模型与情感子空间的建立、视听特征及音乐乐理特征的提取、音乐视频个人情感识别以及音乐视频摘要的建立等。本文主要研究工作和创新点包括:1)用户音乐视频个性化情感子空间的建立。音乐视频是一种与个人情感偏好有很大关联的视听媒体,为了有效的表征个人情感,本文提出了可以表达个人离散和连续情感的诱力(Arousal)–激励(Valence)–偏好(Preference)心理学模型,采用了心理学反应量表(李克特量表,Likert scale)来标记情感值。为了更好的表现个人的个性化情感空间,采用有限学生t分布参数混合的KL模糊C均值聚类(Finite Mixture of student’s factoranalyzer with the Kuiiback-Leibler Fuzzy c-means,MSFA-KLFCM)来划分情感子空间,引用学生t分布混合模型(t-distribution mixture model,TMM)来估计情感子空间的隶属度,并确定划分的个性化情感子空间的有效性。实验结果表明,情感子空间的划分能够有效表示个体对音乐视频的个性化情感。2)音乐视频视听特征的提取。音乐视频的情感识别是基于其特有的视听觉特征。音乐是一种特殊的感性载体,音乐更是人类情感的表现,本文从音乐的乐理知识与音乐心理学出发,设计选择了一组情感视听特征。和弦作为高级的乐理特征能很好的表达音乐的情感,为此特别引入了高级乐理特征和弦直方图,并提出了新的和弦识别方法,即基于谐振时频图像(Resonator Time-Frequncy Image,RTFI)分析音乐时频的谱特性。同时根据和弦的泛音特性提出一种新的显著色度矢量特征,通过和弦模板期望最大的方法提取和弦。本文引入节拍特征进行后处理以提高识别的准确性。对比实验表明,该算法具有更加的识别准确性和鲁棒性。3)基于局部多核回归算法的个性情感识别。音乐视频的音频数据具有时间动态性,本文提出了提取音乐(梅尔倒谱、色度谱)的动态纹理模型,捕捉音乐特征的表征性和动态性。将整个音乐视为一个线性动态系统,用动态纹理的系统袋直方图来表示音乐的新特征用于音乐视频的情感识别。为了识别音乐视频的个性化情感内容,根据音乐视频的视觉特征和听觉特征的不同,提出采用局部多核回归(Localized Multiple Kernel Regression,LMKR)的方法识别个性化音乐情感的情感值。实验结果表明,结合系统袋直方图和和弦特征能够更有效地表示和识别个性化音乐视频的情感内容。4)基于图像视觉复杂度的音乐视频摘要的生成算法。本文针对音乐视频提出了一种基于视觉图像复杂度的提取关键帧生成静态视频摘要算法。首先对音乐视频进行子镜头分割检测;然后以镜头为基本单位,以图像视觉复杂度作为相似性机制来提取候选关键帧;最后基于镜头单位存在着信息的冗余,采用分层模糊C均值聚类算法对候选关键帧进行聚类,去除冗余的信息,按原有的时间顺序排列生成视频摘要。采用TRECVID客观评价标准对视频摘要进行评价。实验结果表明,使用本文视频摘要算法生成的视频摘要具有良好的压缩率、保真度、重构度。本文的研究工作是基于用户对音乐视频情感认知的应用需求而展开的,研究了音乐视频的视听觉特征与用户的情感之间的映射关系,从而可帮助用户在大量的视听媒体中更好地获取他们感兴趣的,且符合他们情感状态的音乐视频。同时,本文就音乐视频情感认知的研究成果,也为数字新媒体情感认知识别的研究与应用提供了新的思路与方法。