论文部分内容阅读
视觉数据理解是计算机视觉领域非常重要的一个研究方向,因为它有助于缩小计算机与人类在视觉语义理解上存在的语义鸿沟。随着数码相机、智能手机、数字摄像机的普及以及图片、视频社交分享平台的兴起,用户产生的视觉数据量正以惊人的速度膨胀。据统计,照片共享网站Flickr上的图片数量已经超过了30亿,并还以每月4000万的速度在递增;视频共享网站You Tube每分钟的视频上传量已达35小时,每日视频浏览量达40亿次。因此,视觉数据理解方法亟待研究。本论文从场景识别和场景分析两个角度对视觉数据理解进行研究,提出了一系列算法:1)针对大多数的语义建模方法只能学习到浅层或单层的特征表达,并且忽略图像之间潜在的结构信息的问题。受人类视觉系统分层结构以及最近深度学习研究热潮的启发,提出了一种基于流形约束的深度学习框架,克服了传统语义建模方法的不足。该方法在利用数据之间的流形结构关联的同时,建立了从可视层到隐层的映射关系,从而可以无监督地学习到较高层的特征表达。2)提出了半监督多任务的场景分类算法。在多任务学习框架下对不同分辨率的图像进行统一的特征学习,并且提出了流形约束的稀疏特征选择策略对冗余特征进行精化,最终学习得到有效的特征表达。在主流场景分类数据库上取得了显著的提高。3)为了降低场景分析中超像素间存在的类内差异性与类间相似性对结果干扰的问题,提出从最大后验概率的角度进行场景分析的方法。首先,利用低秩表达对超像素的类别后验分布进行建模,然后采用马尔科夫随机场模型对图像中超像素的空间先验分布进行建模。最后,在最大后验概率的框架下进行统一优化,得到最终分析结果。低秩表达思想的引入,其鲁棒的子空间分割特性能够很好地降低超像素间类内差异性和类间相似性的影响,而且对空间先验分布的建模更加符合人类视觉的真实情况。