论文部分内容阅读
图像压缩技术是存储和传输数字图像的关键技术。现有的压缩技术以像素矩阵为编码对象,通过预测、变换、量化和熵编码去除图像中的冗余信息,而达到压缩图像的效果。经过多年以来的研究和发展,目前正在应用的压缩技术在性能上提升的空间已经不大,而系统的复杂程度却显著增加。同时,目前的技术采用基于块的编码思想,以及用像素差异控制率失真优化,在低码率下重构图像的视觉效果不高。本文从人脑知觉模型的角度,对编码对象的改进做了广泛而深入的研究。首先,本文在广泛搜集了脑科学、神经学和心理学等学科的相关研究成果基础上,阐述了面向编码的人脑模型。其中着重指出了可以用于指导改进编码效率与视觉质量评估的视觉特性。在给出视觉系统物理模型的基础上,对神经元的有效编码理论作了全面的概括与分析,包括二阶线性模型,高阶线性模型以及高阶非线性模型等。随后,指出在各种线性和非线性模型中,具有较大实际意义的是高阶线性模型,即稀疏编码模型。稀疏编码模型中最重要的部分是如何获取用于编码图像的基函数字典。本文首先使用基于学习的方法,在高斯白化之后的训练图集上得到了超完备基函数集合的子集。该函数集合具有人眼视觉系统所具备的局部性和带通特性,其响应概率分布也满足稀疏分布,可以作为用于编码图像的基函数。但是基于训练的方法得到的基函数集合存在收敛不稳定以及泛化能力不高的问题。为克服学习得到的基函数集合所存在的问题,本文引入调和分析中的多尺度多分辨率分解曲波变换。曲波变换在数学上拥有对二维曲线奇异的理想的逼近阶,同时对分解得到的各个子带中不同朝向的基函数的系数满足稀疏性的特点,仅使用少量有代表性的系数就可以重构出图像的主要结构。实验表明,使用10%的大系数对图像进行重构时,可以满足视觉的需要,而当使用的系数达到50%时,人眼观察无显著失真。该方法可以作为前端图像表示部分,用以构建基于视觉的图像编解码器,具有很强的理论和实际意义。