基于语义相关性视觉单词的图像表达方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:qqanjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉物体表示(visual object representation)是联系底层图像信息和高层语义概念之间的纽带,在物体识别、图像检索等计算机视觉任务中起着关键性的作用。基于鲁棒性局部图像特征的词包(Bag-of-Words)图像表示方法具有表示能力强、对图像遮挡和背景混淆较为鲁棒的特点,近年来引起学者们的高度重视。然而,这种模型的不足在于:一是图像在转化为“视觉单词”的过程中,忽略了特征与特征之间的空间关系而导致特征间语义信息的丢失;二是由于图像底层特征与高层语义之间存在的鸿沟,事实上,不同的外观属性所提取的特征可能在高层语义概念层次上是相关的,忽略这些语义信息使得仅仅基于底层特征的视觉词典难以有效地分类图像。   本文针对这些不足,提出了一个从“视觉单词”到“视觉词组”的图像表示框架:(1)我们通过保持更多的底层图像信息,生成更具表达力的高质量“视觉单词”;(2)聚类语义相似的“视觉单词”以构成稳定的“视觉词组”。   提出了一种高质量的“视觉单词”图像表示模型。在图像到“视觉单词”这一过程中,我们首先对同一图像进行多特征检测子采集大量的兴趣点,以获取尽可能表示图像信息的不同特征,然后对提取出来的特征采用X-means聚类语义相关的特征,在获得语义信息的同时,消除图像中的噪音特征点,获得能反映出图像精准信息的代表特征点,从而生成更具表达力的高质量“视觉单词”。   提出了一种基于语义局部自适应聚类算法(Sem-LAC)的“视觉词组”表示模型。利用Sem-LAC算法,在图中聚类语义相似的“视觉单词”以构成稳定“视觉词组”。由此构成的“视觉词组”可以解决不同视觉外观可能在高层语义的相似问题,且较单个“视觉单词”具有更高的可区分性。   根据本文所提出的图像表示框架,我们分别给出了具体的解决方案,并将这些方案应用于物体识别的图像分类问题上,通过实验验证了它们的合理性及有效性。
其他文献
分子动力学模拟是一种微观领域的模拟方法,在物理、化学、生物及材料等领域应用广泛。由于分子动力学模拟的计算量非常庞大,计算非常耗时,并行计算是解决该问题的必经之路。然而
近年来,随着WEB3.0的飞速发展,社交媒体也迅速发展起来,各大社交平台竞相怒放,用户量迅猛增长。截至2016年11月,Facebook注册用户数超过14亿,Twitter月活跃用户数已达到3.1亿
近年来,由于基于视觉的手势识别技术能够使人以更自然的方法与机器进行交互,越来越受到人们的重视。基于计算机视觉的手势输入技术的特点是对用户的限制少,但是需要处理的数据量
车载自组网(VANET, Vehicular Ad-hoc networks)技术自2003年ITU-T的汽车通信标准化会议上由各国专家提出以来,受到广泛重视并得到迅猛发展。隐私性是车载自组网的基本安全需
倒排索引是目前应用最为广泛的全文索引技术,是现代搜索引擎的核心技术。现在互联网上文本数据呈现爆炸式增长,为这些文本数据构造的倒排索引也需要越来越多的存储空间,压缩
随着软件开发的发展,系统结构的日益庞大,漏洞修复和新功能的扩充将贯穿于整个软件生命周期,软件升级作为软件维护的重要支撑起到了不可或缺的作用。现在越来越多的软件具备了自
近年来,随着计算机相关技术及图形图像技术的广泛应用,医学图像的质量和显示方式得到了极大的改善,从而借助于图像处理与分析技术使得诊疗水平大大提高。医学图像的三维可视化是
负载均衡技术是并行文件系统中常见且不可或缺的重要优化手段。在并行文件系统中实现副本技术,利用负载分析方法和调度算法,可以有效地将系统中各种负载均衡地分配到各存储节点
随着互联网技术的发展和网络规模的扩大,人们对远程登录的需求也变得十分迫切,很多企业、组织对网络设备以及服务器的管理都需要使用远程登录服务。因此远程登录技术成为了非
随着科学技术的快速发展,越来越多的企业或单位开始利用虚拟机搭建数据中心来应对日益增长的计算需求。然而,随着数据中心虚拟机数目的不断增加,单个虚拟机发生故障从而导致整个