论文部分内容阅读
在数字化信息时代,面对庞大的数据,检索成为提取有效信息的重要手段。图像检索是一种广泛应用的技术,百度,谷歌最早进入了这一领域。早期图像检索以人为方式对图像进行语义分析,给定文本描述,检索时通过关键字实现匹配。但是,随着数据越来越庞大,人工成本越来越高,人工参与标注的方法变得不切实际且效率并不高。于是,基于图像内容的检索方法被提出。基于图像内容的检索方法能够排除人工参与因素,计算机直接对图像自身特征进行分析,给定一张图像,经计算机特征提取处理后与数据库中的图像信息进行匹配,从而找到其相似的图像。本文将基于内容的图像检索方法应用到文物图像检索系统中,提出了SIFT特征二阶检索算法的使用,以图像的SIFT特征为检索算子,对图像进行处理匹配,达到检索的目的。主要内容如下:(1)文物图像进行SIFT特征的提取,对每张图像进行提取运算,获取特征点为包含空间位置等信息的128维向量,将提取的全部特征点存放于计算机文本中待用。(2)对提取的特征点进行聚类,成千上万的特征点并不能带来高效的检索,因此,需要对这些特征点进行高效的降维,聚类出视觉特征词。K-Means能对这些特征进行聚类,通过自动迭代计算寻找出它们的中心。最后将每张图像的特征在这些聚类后的中心点上做投影计算,建立一张二维的特征分布词频表,表中可以得到图像特征在这些视觉特征词上的分布,至此检索算法的准备工作完成。为了能减少构建词频表的时间,本文通过加入哈希函数改进了词袋算法,加快了词频表构建速度。(3)二阶检索的第一阶通过词频表,以欧氏距离为相似度检索寻找出图像特征分布相似的图像,以此来提高检索效率,第二阶根据两张图像“对应”特征点落于同一特征类的数量与图像自身特征点总数的比例实现精确检索,提高图像检索的准确率。图像SIFT二阶检索算法应用到了实际的文物图像检索系统中,本文进行了大量实验,测试算法的实际检索效果。实验为在拥有-万张文物图像的图像库中检索出相似图像。实验结果表明,该方法具有很好的查全率,改进的词袋法在建立词频表的时候加快了构建时间,而二阶检索算法,减少了查询时间,在检索的效率上得到了提高。所以将基于内容的图像检索技术应用到文物查询上得到了良好的实用效果。