面向互联网的图像敏感内容分析系统的关键技术研究

来源 :西安电子科技大学 | 被引量 : 2次 | 上传用户:xiaosanhuah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、网络流媒体技术和多媒体信息检索的发展,图像和视频已成为当前多媒体信息交流和服务的主流信息载体。第四代(4G)数字通信网络的出现,微信等即时通信模式使信息传播具备更加快速、广泛的特点。互联网丰富的内容给网民带来便利的同时,内容安全也成为更加棘手的问题。政治反动、淫秽色情、商业机密以及个人隐私等敏感信息的传播对国家安全、社会稳定以及青少年的健康成长均有较大程度的影响。目前纯文本的敏感信息过滤已经相对成熟,但对图像内嵌文字的提取、敏感图像及视频的快速识别等问题仍然存在相当的挑战性。本文瞄准网络监控的内容安全重大需求,以图像内嵌文字为线索进行多媒体内容分析,重点研究场景图像中的文本检测和提取技术;针对本领域的敏感数据传输、存储安全要求,研究私有协议的文字及图像编解码算法,提升数据压缩效率同时兼顾数据信息安全;最终结合文字及图像信息,实现移动互联网多媒体的敏感内容监控。本文的主要研究成果可概括如下:1、针对复杂背景下的文字区域的检测问题,提出了一种基于Gabor纹理和神经网络的由粗到细的文字区域检测新方法,对多语种的文字区域取得较好的效果。针对图像背景复杂造成文字区域难以检测的问题,利用文字区域纹理的方向性,提出一种基于Gabor纹理和神经网络的由粗到细的文字区域检测新方法。首先,通过不同方向和尺度下的Gabor特征来描述原始图像中文字区域的方向性纹理;然后,将文字区域和非文字区域的Gabor特征输入到BP(Back Propagation,反向传播)神经网络训练文字区域分类器,训练好的分类器用于图像和视频中文字区域的检测。实验结果表明,本文算法显著提高了文字区域检测算法的准确性和鲁棒性,对中、英文等多语种的文字区域检测均有较好效果。2、针对图像内嵌文字的提取问题,提出一种基于小波纹理同质空间映射的图像文本提取方法,取得了86%的提取精度。针对图像内嵌文字的提取方法,研究了一种基于小波纹理同质空间映射的图像内嵌文字快速提取算法,内嵌文字的图像作为研究对象,通过图像增强函数来突出图像的边缘和纹理特征;利用小波包提取24维度的纹理特征向量,同时用Sobel算子提取增强图像边缘特征信息;对纹理特征和边缘特征来构造图像的同质性并映射得到特征图像,利用非文本和文本区域同质性之间的差异来进行区分,从而抑制非文本区域信息,突出文本区域特征;再利用同质性空间对文本样本图像进行训练得到文本区域检测器来检测文本区域,大大减少了计算量;最后通过字符分割和字符识别单元完成文本的提取。为了验证算法的有效性和实用性,实验结果文字识别率86%略高于业界水平,该算法为运营商的不良信息监控提供保障。3、针对网上敏感文本信息的压缩、传输与安全问题,提出一种基于Glomb参数局部优化的文本数据压缩算法,获得了优于Winzip的压缩性能。针对政治类等敏感文本数据,数据在存储、传输、应用过程中的安全保障是一个棘手的问题,私有协议的数据编解码算法在兼顾数据压缩效率的同时提供了必要的安全保障。提出了一种基于Glomb参数局部优化的文本数据压缩算法,将扫描产生的偏移量,匹配数据长度等全局优化问题转化为局部优化问题,并从Glomb编码思路出发,推导出一种参数选择算法;对LZ77算法进行修正,提出一种预测编码方法,获得预测参数。对预测参数、偏移量、数据匹配长度、保留文本数据使用MQ(Message Queue)算术编码器进行编码,针对不同类型数据,设计出不同的编码算法和相应的上下文算法。实验结果表明对纯文本数据、Word文档数据、C语言程序代码,图像数据等,本压缩算法都优于Winzip;在纯文本数据、Word文档数据、C语言程序代码压缩方面与WinRar相当或者略好,但在图像压缩方面的性能与WinRar相比略有不足。4、针对网上敏感图像数据的压缩传输及安全问题,提出一种基于JPEG-LS算法的误差优化编码的图像压缩算法,取得了良好的压缩效果。为了保障互联网敏感图像数据在传输和存储过程的安全,需要研究私有压缩算法来保障数据安全,实现对高精度图像进行高效压缩,同时确保重建图像有较好的视觉质量。提出了一种基于JPEG-LS算法的误差优化编码的图像压缩算法,使用JPEG-LS压缩算法对高精度图像数据进行压缩,对游程编码产生误差数据进行量化,对量化值进行数据分解,去除量化值之间的相关性,分解后的数据进行算术编码。根据量化间隔重建反量化值,对重建量化值进行反量化,与JPEG-LS解码数据相加,然后进行滤波。理论分析和实验结果验证,效果良好。5、针对4G通信中的敏感文字信息及不良视频过滤问题,研究开发了基于文字与肤色关键语义的敏感影像检测应用系统研究,并应用于广东移动现网系统。为了满足移动互联网的实际应用要求,研究基于敏感文字和不良图像视频的快速识别应用系统十分必要,主要研究4G通信中的敏感文字信息及不良视频过滤技术,主要包括政治类敏感文字和淫秽图像。视频的关键帧是视频的梗概,对关键帧进行敏感性判别将减少计算量。针对淫秽图像的识别,肤色非常重要的人体特性,人类肤色在彩色空间具有一定的聚类性,因此利用肤检测复杂背景中的人体更符合实际应用需求。结合人脸、人体器官特征等方法来判别多媒体的敏感性,并跟踪敏感的关键帧以判断整个视频的敏感性,将为移动运营商的互联网管道上的内容安全提供安全保障。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种不受天气、光照等条件限制,并且依靠主动发射电磁波实现遥感探测的传感器,它可以通过不同类型的载体得到不同斜视角度和频
<正>任何文化艺术品的创作都离不开对经典文化、艺术、文化艺术作品的传承与感悟。在流淌了几千年的中华文化艺术、手工技艺的长河中,虽说文化艺术品的衍生是随着物质生活的
期刊
论文依托在建的北京地铁8号线三期工程项目,对项目建设过程中的风险管理及风险控制问题进行研究,以期建立完善可行的风险控制体系和风险管理制度,提出行之有效的安全风险管理
近两年来,随着商业银行个人住房贷款业务的快速发展,与信贷密切相关的个人信用体系的建设越来越不能满足信贷发展的需要,并且缺乏行之有效的个人信用风险预测工具。导致拖欠
近年来,越来越多的学者关注外来植物入侵对土壤生态功能的影响效应及其相应反馈机制的探索与研究,然而本地原生土壤生物群落对不同入侵程度下的外来植物种以及本地原生植物种
《今昔物語集》作为和汉混淆文的作品之一,其中有部分词汇受到了作为翻译的汉文训读的影响,在语义和用法上发生了变化,随着时间的推移,这种用法流传了下来。“べし”便是其中之一。前人大多是对“べし”的语义和句法结构进行了讨论和研究,但是对《今昔物語集》这一和汉混淆文中的“可(べし)”“当(まさに)~べし”“須(すべからく)~べし”所进行的研究并不多见。本论文从语义和句法结构两个方面出发,(1)对《今昔物語
近年来,CAD(Computer Aided Design,计算机辅助设计)在测绘领域的应用非常广泛,利用CAD制作各种比例尺的地形图、地籍图、宗地图,以及非常复杂的小比例尺土地利用现状图等既方便又
报纸
特朗普执政以来,中国与美国之间的经济贸易关系越发紧张,两国之间所产生的贸易摩擦也愈发激烈起来。2018年,两国贸易摩擦再度升级,大规模贸易战已全面爆发。在此背景下,本文旨在通过理论和实证研究,深入分析贸易战将给中美两国进出口带来的影响,从而为中国应对贸易战提供决策依据。本文首先梳理了国内外相关文献对中美贸易战的研究,然后通过理论分析分别研究了中美贸易战中关税壁垒和非关税壁垒对两国进出口产生影响的机
调节膦(Fosamine,又名蔓草膦,化学名称为氨基甲基磷酸乙酯铵盐)是一种合成的植物生长抑制剂。调节膦在果树上应用,国内外报导材料甚少。为了提高葡萄浆果含糖量,郑州果树所
基于夹心法免疫层析试条检测原理,结合对流扩散方程和流体动力学方程,建立了夹心法免疫层析试条动态反应过程的数学模型,并通过COMSOL软件对试条动态反应过程进行仿真。分别