论文部分内容阅读
计算机技术以及互联网的迅猛发展,产生了大量的图像以及视频等多媒体数据。面对这些海量的复杂视觉图像信息,如何对其进行表达、存储和提取,进而对其进行快速分类和检索,是目前计算机视觉领域亟待解决的一个关键技术问题。尽管目前已有的分类算法可以较好地实现多类图像的分类和识别,但是大多数算法都侧重于分类能力,忽视了认识新类别的能力,而且这种分类机制与人类对视觉模式识别机制相差较大。而人类之所以能够轻而易举的对物体进行学习、分类和识别与人类的记忆机制密不可分。因此将人类记忆机制应用于计算机视觉中,研究视觉信息是如何在人脑中表达和存储而在需要时又是如何提取的具有重要的理论和应用价值。论文所做的主要工作如下:1.首先对有效记忆提取模型(Retrieving Effectively from Memory,REM)进行了深入研究。REM模型主要应用于单词的学习和记忆,本文将其改进引入到自然图像的学习与记忆中,提出了一种基于REM记忆模型的视觉图像表达、存储与提取方法。实验结果证实了REM记忆模型可以用于自然图像的存储与提取,能够实现在小幅度旋转情况下的简单图像的识别任务与简单类别图像的分类任务。2.在REM记忆模型的基础上提出一种新的更适合视觉图像处理的记忆模型——基于稀疏编码和贝叶斯决策的视觉图像表达、存储与提取记忆模型(VIRSRBD)。模型采用稠密尺度不变性(SIFT)特征并进行稀疏编码,利用得到的稀疏表达进行特征匹配,然后在匹配结果基础上计算似然率值。最后给出基于贝叶斯决策的识别分类规则。VIRSRBD模型从人类记忆模型的角度上解释了视觉图像的识别与分类过程。在保证识别精度的情况下,所提模型的误识率比传统模式识别方法如支持向量机(SVM)、稀疏表示分类(SRC)和极限学习机(ELM)都低。在图像类别数目已知的情况下,所提模型在两种数据库上的分类性能都要优于SVM方法。3.为提高图像特征提取的精度,将深度学习领域中的卷积神经网络(CNN)引入到VIRSRBD模型中,提出一种基于卷积神经网络与贝叶斯决策的图像识别与分类记忆模型。利用卷积神经网络获得图像特征,并以二进制形式对特征进行存储,然后基于贝叶斯决策建立匹配规则以及判别准则。实验结果表明所提出的基于卷积神经网络与贝叶斯决策的图像识别与分类记忆模型能很好地应用于图像识别分类任务中,正确率比SRC以及ELM方法高,而误识率要比它们低得多。4.为模拟人脑短时记忆分类过程,将视觉短时记忆组织的概率聚类理论引入到视觉图像记忆研究中,采用潜在狄利克雷分配模型(Latent Dirichlet allocation,LDA)描述图像,在图像语义信息的基础上提出一种新的图像分类方法。首先利用K-均值算法生成视觉词袋(Bag of Words,BoW)模型,采用吉布斯采样采样(Gibbs Sampling)方法来获取LDA模型的参数,并且获得图像中隐含主题的分布特征,最后利用VIRSRBD模型中基于贝叶斯决策的分类规则在主题空间中对视觉图像进行分类判别。实验结果表明所提算法分类准确率优于LDA主题方法。