论文部分内容阅读
由于JPEG2000在压缩质量和码流可伸缩性等多方面的优点,数字电影倡导组织DCI(Digital Cinema Initiatives)推荐它成为数字电影图像的编码标准。但是该编码算法的高复杂度制约了其在实时性要求较高的电影系统中的应用。为了提高其编码速度,促进数字电影编码技术的更广泛应用,本课题对DCI图像编码进行了算法优化研究。目前,GPU的发展速度和计算能力都远远地超过了同时期CPU的发展速度。特别是,NVIDIA公司于2007年正式发布CUDA(Compute Unified Device Architecture),可以实现大量通用数据的多核高效并行处理。综合GPU的强大通用计算能力和DCI图像编码算法特点两方面原因,本课题选用CUDA作为硬件平台,来完成DCI图像编码的优化实现。本文的主要工作在于,分析DCI图像编码标准中各个关键算法的不同特点,采用不同的并行策略对占编码总耗时69.9%的四个关键算法进行优化:1通过合理的任务划分和资源分配,对图像预处理和量化算法进行CUDA实现。2为使CUDA中连续的线程访问连续的存储空间,采用两次行变换加转置的方法优化离散小波变换。3将传统系数位平面编码的串行三通道编码重新设计为通道预测、重要性状态更新和通道编码三步,使得在CUDA上可实现编码块比特平面内各比特的细粒度并行编码。实验结果显示,相比传统的CPU串行编码,图像预处理和量化算法的加速比分别为33.4和20,耗时比较多的离散小波变换和系数位平面编码也分别有40和4倍左右的性能提升。另外,为了充分利用数字电影后期制作中常用的GPU渲染集群的计算能力,本课题还采用CUDA和MPI(Message Passing Interface)的混合架构设计实现了多GPU多CPU的高效率协同计算系统,以更好地加快数字电影图像序列的并行编码。