论文部分内容阅读
随着多媒体技术、网络技术的飞速发展,各种各样的信息爆炸式的增长,导致人们对信息检索的要求越来越迫切。而在诸多的多媒体信息中,视频图像信息占据了很大的一部分,人们一直在寻找一种有效的检索图像方法,基于内容的图像检索作为一种新兴的技术正越来越受到研究者的青睐,成为一个新的研究热点。 基于内容的图像检索包含三个层次,一个是底层视觉特征,另一个是一般语义层,最后是情景语义层。由于抽取一般语义和情景语义存在很大困难,目前绝大多数的研究都是基于底层视觉特征的,并研发出了相应的系统。但是这些系统普遍存在视觉特征与高层语义之间的不对称问题,也就是所谓的语义鸿沟。在广域图像的检索中,语义鸿沟是个很难克服的问题。如果限定在某一个狭小的领域如指纹、汽车牌照、人脸等,能产生比较准确的语义,但检索问题如果限定的领域过小就失去了它的意义。目前,可行的办法是找到一种尽量缩小语义鸿沟的办法,而语义鸿沟的彻底解决还依赖于相关的模式识别、图像分割、计算机视觉等领域技术上的突破。 要缩小语义鸿沟,我们就要特别注重三点:一个是特征的抽取与描述(这里着重指图像的底层视觉特征),这是图像检索的根本和基础;另一个为检索算法,好的检索算法表现在有着良好的时间空间复杂性,更重要的是能保证良好的检索准确率,最后一个是相关反馈,近年来绝大多数的基于内容图像检索都采用了相关反馈的策略,通过人的参与,检索结果会有非常大的改善,这种方法无论在图像检索领域还是信息检索的其他领域都具有非常重要的现实意义。 本文对基于内容的图像检索中的这些关键技术进行了探讨,并且提出了一个新颖的基于内容的图像检索模型。在这个模型中,采用了底层视觉特征与高层语义相结合的方法,而高层语义的产生和修改来自于人们相关反馈后的分类结果(采用支持向量机技术)。模型中还提出了一种新颖的适合于图像数据的聚类检