论文部分内容阅读
当前,淫秽、色情等敏感图像/视频信息借助网络得以传播蔓延,对社会稳定和人们身心健康造成了极大的危害,尤其影响青少年的健康成长。因而,如何识别敏感图像/视频信息已经成为净化网络环境、促进网络健康发展的一项重要研究课题。
网络中敏感图像/视频信息多以压缩格式存在、表现形式多样、缺乏统一定义等诸多因素影响着敏感信息识别速度和准确率的提高。针对这个问题,本论文从压缩域图像/视频处理及基于数据挖掘探寻识别规则两个角度出发,对敏感图像/视频信息识别进行了初步研究。
压缩域图像/视频处理是在不解码或尽量少解码的压缩数据中进行操作的一种技术,不仅能够节约大量的解码时间,而且处理的数据量少,能够有效地提高敏感图像/视频识别的速度。由于敏感图像/视频信息表现形式多样、终端用户判断标准不统一,使得难以通过经验确定需要提取的特征和获取鲁棒的决策规则。为此,本论文采用数据挖掘的方法在大量的样本数据中探寻隐含的判决规则,并用于进行敏感图像/视频的识别。
本论文涉及到的主要内容有:(1)分析了基于DCT变换的图像/视频压缩编码技术,并基于压缩域对敏感图像语义特征提取与表征方法进行了研究。
肤色和人脸是敏感图像识别中比较重要的两种语义对象。本论文首先开展了压缩域人脸和肤色检测的研究。
针对肤色对象,提出了一种基于数据挖掘的压缩域肤色检测方法。该方法以8×8图像块为单位,首先在压缩域提取图像块的颜色和纹理等特征;然后在大量的训练样本中探寻隐含的肤色决策规则,并将这些规则作为压缩域肤色检测的依据。实验结果表明,该方法有效地提高了肤色检测的速度,并且准确率也较高。
针对人脸对象,提出了一种快速的压缩图像人脸检测方案。首先在压缩码流中快速构建低分辨率版本图像,然后再利用像素域方法检测人脸。实验结果表明,该方案有效地提高了压缩图像/视频中人脸检测的速度和准确率。
然后,基于肤色和人脸检测的结果,探讨了能够表征敏感图像的多种特征及其在压缩域的提取方法。这些特征包括:基于肤色区域的特征、基于图像检索结果的特征、基于人脸区域与感兴趣区的特征以及图像全局颜色和纹理特征等。(2)分析了敏感图像识别的特点,提出了一种基于数据挖掘的敏感图像识别方法。
在敏感图像识别中,将敏感信息误判为正常和将正常信息误判为敏感所造成的影响是不同的,并且图像特征的提取也需要一定的时间。在数据挖掘中,前者称为误分类代价,后者称为测试代价。这两种代价影响到了敏感图像识别的准确率和速度。针对这个问题,本论文提出了一种基于非支配邻域免疫算法的多代价敏感决策树构建方法。将决策树作为非支配邻域免疫算法中的抗体,通过对决策树的平均误分类代价和平均测试代价进行优化,获得一组Pareto最优决策树。该方法不仅仅能够用于敏感图像识别,也能够应用于其他对误分类代价和测试代价比较关注的分类领域。
敏感图像表现形式多样并且缺乏统一定义,难以获取准确的判决规则。针对这个问题,本论文首先将图像划分为4种较为客观的类别,并在压缩域提取多种图像特征;然后,利用基于多代价敏感决策树的数据挖掘方法,对大量图像样本进行分析,探寻隐含在其中的敏感图像判决规则:最后,通过引入可由用户自行定义的敏感程度的概念,使决策规则可输出待检测图像的敏感程度信息。最终识别结果取决于终端用户对各类图像敏感程度的定义,可以适应不同群体用户的需求,有效提高了识别的准确率和速度。(3)对敏感视频识别进行了初步探讨,提出了一种压缩域关键帧抽取方法。
关键帧抽取是敏感视频识别中的一项关键技术。本论文分析了敏感视频的特点,提出了一种结合DC图、宏块编码类型和肤色特征的压缩域关键帧抽取方法。首先在视频压缩码流中抽取Ⅰ帧,将其组合成缩略视频序列,并利用DC图将该序列划分为视频片段。然后,根据预测帧的宏块编码类型估计Ⅰ帧局部运动信息。最后结合肤色特征,抽取局部运动较缓且含有一定肤色信息的帧作为关键帧。