基于聚类索引的图像检索系统的研究

被引量 : 0次 | 上传用户:cqssq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
所谓基于内容的图像检索系统,具有与传统基于文本的检索系统完全不同的框架。图像依赖其视觉特征(颜色、纹理、形状等)而非文本描述进行索引,查询根据图像视觉特征的相似度进行。用户可通过样本图像进行查询,然后查找视觉内容相似的图像,按相似度的大小排列返回给用户。通常图像可视化特征,用高维空间点或向量来描述,向量之间的接近程度反映了对象内容的相似程度,因此基于内容的图像检索就简化为空间中点快速搜索问题。速度是图像检索中的关键问题之一。但由于图像资源非常丰富,图像库中的图像通常是海量的,顺序检索的计算量是十分巨大的,因而也是十分耗时的。为进一步提高检索速度,索引作为检索的有力支持工具,已经开展了大量的研究。IBM公司最早推出的QBIC系统,它利用K-L变换来降低特征维数,再用树来构造索引。哥伦比亚大学开发的VisualSeek系统,采用了二进树算法构造索引,支持空间位置关系的查询。已经提出的索引方法还包括多维二叉树算法和Cell索引算法、Quad树、k-d树以及Grid树索引算法等等。这些早期研究的索引算法,虽然结构比较简单,但是不适合于构建目前多媒体数据库的索引。目前,比较流行的高维索引方法有R树、线性四叉树以及栅格文件。其中R树及其变体R+树 、R*树 、SS树 、SR树等组成的R树系列空间索引是最为有效的多维索引方法。但是当向量维数超过20时,应用R树索引方法的效率均迅速降低,几乎等价于顺序查找。为了能够有效地利用以上的索引方法,必须将高维特征向量转换为20以内的维数。但维数的降低不可避免地会带来信息的丢失,导致查询结果中有较多的错误记录。另外,由于R树的构造基于几何意义上的覆盖关系,它只限于以欧氏距离作为相似度量的查询。上述方法仅仅适用于对图像检索中的高维数据进行索引,而没有涉及<WP=72>到非欧氏距离的相似性度量问题。针对以上索引方法的局限性,有人提出了基于聚类的索引技术,这种技术具有动态的结构,能够处理高维数据,同时支持非欧氏距离的查询。这种索引方法将特征空间分类,相似的类别拓扑相近,支持K-近邻查询和范围查询,大大地减少了搜索的次数。目前,国内外对基于内容检索的索引技术主要集中于研究各种聚类算法的实现上。现有的聚类算法很多,比较经典的有均值算法、ISODATA算法、传递闭包法、最大树法、动态直接聚类法、编网法以及自适应算法等等。K-均值聚类算法是一种应用最广泛的一种分割聚类算法,它能有效地处理大数据集,迭代速度快,但其缺点是聚类数预先设定、聚类效果与初始聚类和事件的顺序有关,这与现实的图像数据库的特点是不符的。而模糊C均值算法,利用伪随机数产生初始类中心,造成聚类效果不稳定。本文提出了一种改进的模糊C均值聚类在图像检索中的应用算法,该算法有效地解决了初始值的选取问题,同时具有动态的删除、分裂、合并、融合、插入等功能。能够有效地对图像库进行聚类处理。实验表明通过聚类的方法索引方法,搜索时间不会随图像数据库中的图像数量线性增加,从而提高了检索效率,更加具有实效。但较高的特征维数,直接影响了聚类和检索的速度。为解决这一问题,在采用索引技术前,首先应对高维特征进行降维和去相关处理。其中,Karhunen-Loeve 变换(KLT)方法是最小均方误差意义上的最佳变换,同时具有很好的去相关特性。它基于图像统计特性的变换,提供了最大能量的压缩,而且在统计上是最优的。但缺点是不能进行基于距离空间进行,数据库规模对变换速度影响较大。这里我们提出了一种基于FastMap映射算法的降维方法,而FastMap映射算法在克服以上缺点的同时具有下列优点:它是一种基于距离函数的映射,能够与SAM相结合实现有效地检索;可视化和数据挖掘,目标能够用2-D或3-D的点来描述,能够使用户方便地<WP=73>发现图像数据库的模拟分布情况。通过实验表明,在利用不同的特征维数时,FastMap映射算法能够较好的准确度。使用该算法能够在提高了聚类和检索速度的同时,获得更高的查准率和查全率,优于传统的KLT降维方法。因此FastMap映射算法的降维能力使其对图像的检索非常有效。已有的解决高维数据聚类可视化方法主要是通过降维[6],把高维数据投影到二维或三维空间上,从而达到可视化的目的。对于用高维特征向量来表示的图像,降维将会造成信息的严重丢失。基于上述考虑,本文采用了基于近邻方法的聚类可视化方法,直观地描述了图像数据库聚类的状况,有利于图像检索效果的评价。对于单一特征检索,由于其约束信息不足,检索效果有时会与人的视觉感受不相吻合。综合特征检索是解决这类问题的有效办法,但是,确定不同特征之间或是同一特征的不同分量之间的权重是很困难的问题。本系统实现了与操作者的检索交互中进行学习的方法, 调整权重以达到不同特征的优势互补的效果,使检索性能更接近人类视觉的特性,同时又可以提高检索的灵活性和系统的性能。文中详细地介绍了相似度衡量及多特征权重调整的算法。最后,本文研究并设计了基于聚类索引的检索工作系统。系统基于Windows2000环境,程序采用C++Builder 5.0开发,实现聚类和检索两大模块,经测试,系统运行稳?
其他文献
本文主要研究了香菇Cro2菌株的液体培养特性,比较了木屑母种与斜面母种摇床培养的差异。用超声波处理发酵液,制备出了用于配制口服液的发酵原液。
医患沟通障碍容易诱发医疗纠纷。手术是外科治疗的主要手段之一,手术治疗的创伤性和高风险性决定了外科是医疗纠纷的高发区。在外科诊疗过程中,以患者为中心,践行"同理心"的
介绍了CA6140普通机床的数控化改造技术,包括对机床改造的可行性分析,普通机床改造原理,主传动系统改造,进给传动系统的改造,自动回转刀架的选择与安装,以及在改造中应注意的
随着我国售电市场逐渐放开以及微电网的相关政策更加完善,并网型微电网得到重视与发展。研究了售电市场环境下具备售电资质的微电网内部电源的优化配置问题,优化计算微电网申
一.问题的提出移动机器人是机器人学科的一个重要分支,移动机器人研究是20世纪80年代以后兴起的一个比较新的研究领域。随着计算机、传感器、控制等领域的技术进步,移动机器人的
本文从对比教学法的内涵、对比教学法的作用、对比教学法在大学数学课堂上的实际运用、运用对比教学法应该注意的问题等方面介绍了对比教学法在大学数学中的运用。
医药行业是高增长、高投入、高技术含量的产业。云南省将医药产业列为继烟草行业后的支柱产业。如何发展云南医药产业关系到云南地方经济的发展水平和速度。云南医药企业数量
基础设施是一个国家的命脉,是整个社会经济活动的基础,建设一流的基础设施是促进我国经济和社会可持续发展的基础性条件。进入21世纪,为了加快经济的发展,我国已经进入了主要通过
根本违约是从英国普通法上发展出来的一种制度,在联合国国际货物销售合同公约、国际商事合同通则、欧洲合同法原则中均有体现,可见其影响力之大。本论文从根本违约的历史沿革和
国以人治,政以才兴,这是千古不易之理。在当今世界政治多极化、经济全球化、科技迅猛发展的新形势下,人才问题作为战略课题越来越迫切的摆在了我们的面前。省八次党代会为了应对