视觉模式识别中的差别性视觉词选择研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ttcj_008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一般目标类识别和行为识别是当前计算机视觉界研究的热点问题。词袋模型为解决该类问题提供了一个基本框架。词袋模型涉及四个关键的因素:局部特征检测、局部特征描述、视觉词典的构造及分类器的设计。传统的视觉词典是由聚类算法得到,把聚类中心作为视觉词。其局限性在于,那些平凡的视觉词,就像文本处理中的冠词一样,大量出现在词典中,使词典庞大,造成图像量化表示的维数高,从而使得计算复杂性高。针对这一局限性,本文重点研究判别性视觉词的提取,在模式分类中提取最具判别性的视觉词,减小词典的规模,降低计算复杂性。另外,传统的词袋模型假设视觉词之间是独立的,然而,视频图像的视觉词之间在时间上是有关联的,本文针对行为识别研究具有时间关联性的判别性视觉词选择。本文主要的研究工作和贡献如下:   1.针对一般类目标识别,提出基于假设检验的判别性视觉词提取算法。本文分别利用T检验,秩和检验,柯尔莫可洛夫-斯米洛夫检验三种假设检验方法计算各自的最优置信集的视觉词,三种检验得到的所有视觉词构成判别词典。将本文所提算法应用于Caltech、UIUC及Xerox标准图像库,实验结果验证了所提算法的有效性。   2.针对一般类目标识别,提出基于最大边际多样性的视觉判别词提取方法。对图像的局部特征集,进一步放宽假设检验的限制,在不作任何先验假设的情况下,采用使边际多样性最大化的优化模型,求解判别性视觉词。将本文所提算法应用于Caltech、UIUC及Xerox标准图像库,并与传统的K-means聚类形成的词典比较,实验结果显示,算法在计算时间及分类精度上有了一定的提高。   3.针对行为识别,提出基于格兰杰因果关系检验的判别性视觉词提取算法。将视频中局部特征之间的时间关联性考虑到视觉词的构造中,利用格兰杰因果关系,建立视频视觉词时间上的关联性,同时,结合最大边际多样性对视觉词进行选择。将本文算法应用于KTH人类行为视频库,鼠行为视频库等标准行为识别数据库上进行实验,实验结果验证了算法的有效性。
其他文献
年龄是人的重要属性。近年来,用户年龄自动估计技术逐渐成为一个涉及模式识别、计算机视觉、语音识别和机器学习等领域的活跃课题。该技术在现实世界中有很多应用,如法医学、电
当今的制造系统正受到高要求快变化的环境形势所挑战。工业企业必须实施控制政策以及调整自己的制造系统,以最大限度地提高生产率、降低成本和提高质量,同时还要应付强大的竞
肝脏是人体内最大的实质性脏器,以代谢功能为主。肝脏内部管道系统交错重叠,包括门静脉、肝静脉、胆管及肝动脉,存在很大的变异性。为了全面、准确地了解肝脏内管道系统的情
随着智能体理论与技术的发展,多智能体系统在科学研究、互联网、生产控制、金融服务、企业管理等诸多领域中有了较广泛的应用,但在执行效率和效果上依然存在很大的提升空间,而面
图像自动标注隶属于计算机视觉、模式识别、信息检索以及机器学习等领域,在学术界和工业界均得到高度的关注,但是由于图像自动标注存在数据集的不平衡性,底层视觉特征与用户高层
随着经济的高速发展,交通运输业也得到了飞速发展,车辆数量越来越多,但是随之而来的交通问题也日益突出,这使得智能交通(Intelligent TransportationSystem,简称ITS)系统成为研究
当今社会随着信息产业的高速发展,信息系统中所储存的数据量越来越大,而人们逐渐从管理数据的单一需求,发展到想通过历史数据总结出所感兴趣的规则,来对未来的行为起到一定的
本文分析了著名的开源3D游戏引擎Irrlicht,通过阅读引擎源代码,剖析了该引擎的主要功能、逻辑结构及关键技术,掌握了其跨系统平台以及跨图形驱动器的实现方式,设计出一种适用于Wi
进化算法和群智能算法等元启发式算法是目前求解复杂计算问题的主要方法。烟花爆炸算法(也称烟花算法—Fireworks Algorithm,FWA)是一种模拟烟花爆炸过程的元启发式算法,它在求解
随着计算机网络技术的不断发展,以及互联网产业的异军突起,网络中的信息量呈爆炸式增长,数据的可靠性和安全性受到越来越广泛的关注。基于光纤通道技术的存储区域网络为存储