论文部分内容阅读
随着网络的迅速发展,互联网在人们日常信息交流中占据越来越重要的地位,网页资源日益丰富,给用户获取信息带来便捷,但同时也带来一些对社会有害的敏感信息。为了给用户提供健康、安全的信息,就有必要对敏感网页进行筛选处理。网页内容安全筛选是通过智能分析网页内容,研究高效分类技术以达到准确筛选网页内容的目的,主流技术包括基于文本内容的网页筛选(TBIF)和基于图像内容的网页筛选(IBIF)。网页通常具有多模态特性,不仅包含图像信息还包含用来描述图像的文本信息,显然,要满足网页筛选的准确性和完整性,在技术设计方案上必须同时考虑两种模态信息的融合处理。融合处理过程中,网页内容特征表示的有效性,多模态数据之间的异构性以及筛选时判定数据所需满足的实时性,都是影响网页内容筛选精度和速度的重要因素。为了提高网页筛选的精度和速度,本文针对网页内容安全筛选中网页表示、异构特征融合、高性能内容筛选等关键问题进行了深入的研究,主要研究内容如下:1)基于文本和图像概念融合的网页筛选框架网页中通常包括文本和图像两种模态信息,利用单一模态信息表示网页,只能筛选部分敏感信息,因此,文本和图像融合处理是改善多模态网页内容筛选准确性的关键技术之一。同时,为了解决文本和图像在融合中所存在的异构性问题,提出基于文本和图像概念融合的网页筛选框架。2)面向文本和图像概念空间的有意义串提取算法特征准确描述是网页内容筛选的基础。有意义串表示网络中频繁使用、具有特定的新词和短语信息,可以用来优化文本描述模型。当前有意义串提取方法一般考虑单个词串的评定,缺乏考虑词串之间的相关性;同时,融合框架中文本和图像之间的异构性,也是在提取有意义串时需要考虑的一个重要因素。本文提出一种面向文本和图像概念空间的有意义串提取算法(Concept-based Meaningful Extraction, CME),采用聚类算法提取网页中文本和图像有意义串集合,可通过设置相同的聚类参数k,形成文本和图像统一描述的网页概念空间。实验表明,利用提取的有意义串集合形成的概念表示网页能大幅度优化向量空间模型,可以获得较高的分类性能。3)基于高斯局部多核权重模型的多特征概念融合算法特征融合是网页内容筛选准确性和完整性的重要保障,传统的特征融合方法没有考虑特征内部潜在的相关性以及特征之间的异构性。在研究一般多核理论基础上,提出了一种基于高斯局部多核权重模型的多特征概念融合算法(Multiple Feature Concept fusion based on Gaussian Local Multiple Kernel, MLMKL),在文本和图像统一概念空间描述上,充分考虑多个特征的局部信息,利用高斯模型模拟数据分布形成局部权重模型,为每个核空间中局部特征分配不同的权重。MLMKL方法有效解决了特征融合异构性问题以及一般多核中缺乏有效局部权重模型描述的问题。MLMKL与已有方法相比能综合提高网页筛选的准确性和测试速度。4)基于最小圆覆盖区域划分的索引筛选算法基于统计的模式分类方法是一种有效的内容筛选方法,该方法在小数据集的处理上具有较好的分类精度,但无法应对海量数据的实时处理。针对这个问题,索引技术被提出,通过数据划分构建索引,提高数据的查询速度。已有方法没有考虑内容安全筛选中实际的数据分布特性,构建的索引结构并不能满足筛选所需的实时性能。考虑到实际网络中正例(正常信息)多,反例(敏感信息)少的非平衡数据分布特性,提出一种基于最小圆覆盖区域划分的索引筛选算法(Minimum Enclosing Circle Index Filtering, MECI),引入图象学中最小圆覆盖理论进行数据区域划分,生成最大否定判定区域,构建适合内容安全筛选的高性能索引结构F-tree。F-tree使得需要判定的正例以最大概率落入否定区域,可以加快内容筛选的数据判定速度。本文的研究工作在深入分析现有网页融合筛选技术不足的基础上,提出了一种基于文本和图像概念融合的网页筛选框架。通过深入研究网页特征表示、多模态信息的特征融合、高性能内容筛选几个关键技术,设计了有效的解决方案,有效提高了网页内容筛选的精度和速度,从而为多模态网页的管控提供了良好的技术基础,具有广阔的应用前景。