论文部分内容阅读
近年来随着海量图像和多媒体社交数据的指数级增长,多标记学习因其丰富而完整的语义表示可以有效应对复杂场景下的不同用户需求,广泛应用于文本分类、图像识别与标注、多媒体音视频内容分析、生物医疗诊断和个性化推荐等领域。现有的多标记学习算法主要面临四大挑战:训练样本数量巨大而已标注样本数据却非常有限;标记之间的相关性利用不充分,已标注样本的标签集合中存在噪声数据和缺失项;输入数据特征表示不全面。针对上述问题,本文提出了两种多标记学习算法并将其应用于图像语义理解领域。基于半监督对偶低秩特征映射的多标记图像标注算法。该算法针对训练数据中存在大量未标注样本且已标注样本的标签存在噪声的情况,创新性的引入线性自修复模型修复原始标签矩阵中存在的噪声项和缺失项,同时还可以保证标签空间的低秩结构特性。为了充分利用样本标签之间的相关性,引入基于特征映射矩阵和自修复模型系数矩阵的对偶低秩迹范数正则项,同时用于控制模型复杂度。另外,图拉普拉斯正则项的引入有利于充分利用训练数据中的大量未标注样本,通过衡量样本几何结构的相似性维持其局部流形结构,为预测模型提供更好的样本数据支撑。大量实验证明,该方法具有非常优异的标注性能,尤其在训练样本不足和标签矩阵不完备的情况下更可以体现出自己的优势。基于块特征语义隐变量模型的多标记学习算法。该算法针对以往大多数多标记学习算法忽略输入数据的特征表示,当图像中包含复杂高层语义概念时导致“语义鸿沟”问题出现的情况。本文创造性地引入隐变量模型从概率统计学角度对图像原始特征做再表示,即原始输入图像的分块特征是输入特征初表示,也叫低层特征表示;分块特征基于隐变量模型映射得到的特征是输入特征再表示,即中层特征表示;最后用中层特征去映射与输出标记空间(即高层语义)的对应关系。隐变量的引入不仅有利于从全局角度挖掘图像子块间的隐含关系,同时还有助于数据降维,加速模型建立。图像分块和图拉普拉斯正则项的引入则从局部空间层面利用图像子块间的内部几何信息和关联性。大量实验证明本文提出的算法在图像语义理解领域具有非常不错的标注性能。另外本文利用Matlab平台实现了一个基于此算法模型的简单的图像标注系统,其可对包含复杂高层语义概念的图像做很好的预测。