基于场景分析的视觉数据理解

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:fzy321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉数据理解是计算机视觉领域非常重要的一个研究方向,因为它有助于缩小计算机与人类在视觉语义理解上存在的语义鸿沟。随着数码相机、智能手机、数字摄像机的普及以及图片、视频社交分享平台的兴起,用户产生的视觉数据量正以惊人的速度膨胀。据统计,照片共享网站Flickr上的图片数量已经超过了30亿,并还以每月4000万的速度在递增;视频共享网站You Tube每分钟的视频上传量已达35小时,每日视频浏览量达40亿次。因此,视觉数据理解方法亟待研究。本论文从场景识别和场景分析两个角度对视觉数据理解进行研究,提出了一系列算法:1)针对大多数的语义建模方法只能学习到浅层或单层的特征表达,并且忽略图像之间潜在的结构信息的问题。受人类视觉系统分层结构以及最近深度学习研究热潮的启发,提出了一种基于流形约束的深度学习框架,克服了传统语义建模方法的不足。该方法在利用数据之间的流形结构关联的同时,建立了从可视层到隐层的映射关系,从而可以无监督地学习到较高层的特征表达。2)提出了半监督多任务的场景分类算法。在多任务学习框架下对不同分辨率的图像进行统一的特征学习,并且提出了流形约束的稀疏特征选择策略对冗余特征进行精化,最终学习得到有效的特征表达。在主流场景分类数据库上取得了显著的提高。3)为了降低场景分析中超像素间存在的类内差异性与类间相似性对结果干扰的问题,提出从最大后验概率的角度进行场景分析的方法。首先,利用低秩表达对超像素的类别后验分布进行建模,然后采用马尔科夫随机场模型对图像中超像素的空间先验分布进行建模。最后,在最大后验概率的框架下进行统一优化,得到最终分析结果。低秩表达思想的引入,其鲁棒的子空间分割特性能够很好地降低超像素间类内差异性和类间相似性的影响,而且对空间先验分布的建模更加符合人类视觉的真实情况。
其他文献
探讨了直纺83 dtex/114f波浪扁平涤纶全拉伸丝(FDY)的工艺制备过程.试验证明,在熔体输送温度276~282℃,纺丝温度286~290℃,喷丝板规格DIOφ104 mm-114孔、“王”字形,环吹风压1
小麦(Trticum aestivum)是我国乃至世界的主要粮食作物之一,其种植面积约占谷物种植面积的30%左右。小麦面粉可以加工成各种不同的食品,是人类植物蛋白质的重要来源,因此,对小麦的研究一直是人们关注的热点。小麦种子中贮藏了大量的淀粉和蛋白质,小麦种子蛋白约占谷物蛋白质的80.4%,大量研究表明,小麦的营养品质和加工品质都与种子蛋白的含量和组成密切相关,因此对小麦种子贮藏蛋白的研究则倍受关
摘要:在语文教学中,能把握好授课的技巧,就可上好每一节课。这样,就可充分发挥好一节课几十分钟的作用,使学生的能力得到提高,学习成绩也会不断进步。这对于推进创新教育,全面提高学生素质,无疑具有极大的促进作用。高中语文学习能够使学生掌握语文学习的基本方法,养成自学语文的习惯,培养发现、探究、解决问题的能力。  关键词:高中语文;教学质量;语文教学  文化教育质量代表了一个国家的文化水平、素质水平、精神