基于概念融合的网页筛选技术研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:xiaoxiaochengcfq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,互联网在人们日常信息交流中占据越来越重要的地位,网页资源日益丰富,给用户获取信息带来便捷,但同时也带来一些对社会有害的敏感信息。为了给用户提供健康、安全的信息,就有必要对敏感网页进行筛选处理。网页内容安全筛选是通过智能分析网页内容,研究高效分类技术以达到准确筛选网页内容的目的,主流技术包括基于文本内容的网页筛选(TBIF)和基于图像内容的网页筛选(IBIF)。网页通常具有多模态特性,不仅包含图像信息还包含用来描述图像的文本信息,显然,要满足网页筛选的准确性和完整性,在技术设计方案上必须同时考虑两种模态信息的融合处理。融合处理过程中,网页内容特征表示的有效性,多模态数据之间的异构性以及筛选时判定数据所需满足的实时性,都是影响网页内容筛选精度和速度的重要因素。为了提高网页筛选的精度和速度,本文针对网页内容安全筛选中网页表示、异构特征融合、高性能内容筛选等关键问题进行了深入的研究,主要研究内容如下:1)基于文本和图像概念融合的网页筛选框架网页中通常包括文本和图像两种模态信息,利用单一模态信息表示网页,只能筛选部分敏感信息,因此,文本和图像融合处理是改善多模态网页内容筛选准确性的关键技术之一。同时,为了解决文本和图像在融合中所存在的异构性问题,提出基于文本和图像概念融合的网页筛选框架。2)面向文本和图像概念空间的有意义串提取算法特征准确描述是网页内容筛选的基础。有意义串表示网络中频繁使用、具有特定的新词和短语信息,可以用来优化文本描述模型。当前有意义串提取方法一般考虑单个词串的评定,缺乏考虑词串之间的相关性;同时,融合框架中文本和图像之间的异构性,也是在提取有意义串时需要考虑的一个重要因素。本文提出一种面向文本和图像概念空间的有意义串提取算法(Concept-based Meaningful Extraction, CME),采用聚类算法提取网页中文本和图像有意义串集合,可通过设置相同的聚类参数k,形成文本和图像统一描述的网页概念空间。实验表明,利用提取的有意义串集合形成的概念表示网页能大幅度优化向量空间模型,可以获得较高的分类性能。3)基于高斯局部多核权重模型的多特征概念融合算法特征融合是网页内容筛选准确性和完整性的重要保障,传统的特征融合方法没有考虑特征内部潜在的相关性以及特征之间的异构性。在研究一般多核理论基础上,提出了一种基于高斯局部多核权重模型的多特征概念融合算法(Multiple Feature Concept fusion based on Gaussian Local Multiple Kernel, MLMKL),在文本和图像统一概念空间描述上,充分考虑多个特征的局部信息,利用高斯模型模拟数据分布形成局部权重模型,为每个核空间中局部特征分配不同的权重。MLMKL方法有效解决了特征融合异构性问题以及一般多核中缺乏有效局部权重模型描述的问题。MLMKL与已有方法相比能综合提高网页筛选的准确性和测试速度。4)基于最小圆覆盖区域划分的索引筛选算法基于统计的模式分类方法是一种有效的内容筛选方法,该方法在小数据集的处理上具有较好的分类精度,但无法应对海量数据的实时处理。针对这个问题,索引技术被提出,通过数据划分构建索引,提高数据的查询速度。已有方法没有考虑内容安全筛选中实际的数据分布特性,构建的索引结构并不能满足筛选所需的实时性能。考虑到实际网络中正例(正常信息)多,反例(敏感信息)少的非平衡数据分布特性,提出一种基于最小圆覆盖区域划分的索引筛选算法(Minimum Enclosing Circle Index Filtering, MECI),引入图象学中最小圆覆盖理论进行数据区域划分,生成最大否定判定区域,构建适合内容安全筛选的高性能索引结构F-tree。F-tree使得需要判定的正例以最大概率落入否定区域,可以加快内容筛选的数据判定速度。本文的研究工作在深入分析现有网页融合筛选技术不足的基础上,提出了一种基于文本和图像概念融合的网页筛选框架。通过深入研究网页特征表示、多模态信息的特征融合、高性能内容筛选几个关键技术,设计了有效的解决方案,有效提高了网页内容筛选的精度和速度,从而为多模态网页的管控提供了良好的技术基础,具有广阔的应用前景。
其他文献
一、问题的提出为什么要提出地主制经济体系的问题呢在对战国以后社会经济性质认识的各种理论观点中,"地主经济论"是主流观点,但它受到了"市场经济论"和"权力经济论"的挑战。这种来
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
管道健康监测是管道能源运输的热点问题。针对在役管道健康监测的管道机器人技术,介绍了一种蠕动式间歇前行的移动牵引机构。着重阐述了该机构中柔性丝杆和准直螺母配合提高
目的探讨综合护理在接受中药灌肠疗法的外感发热患儿中的应用效果。方法选取2016年9月至2017年8月登封市中医院儿科收治的120例外感发热患儿为研究对象,采用随机数表法分为对
随着计算机科学与互联网技术的不断进步,以社交、信息分享、购物等为代表的社会化网络蓬勃发展,已经成为社会经济生活中不可或缺的部分。由于其所具备的社会经济价值和网络属
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
心态史研究试图以“深描”的方式将历史人物的内心独白立体展现出来,旨在探讨平静年代或是动荡岁月中历史人物的精神状态与心灵活动,重视各类主观或人为因素对历史人物精神变
近年来,我国各地开始探索企业R&D投入的财政后补助机制,即如何根据企业R&D投入强度进行普惠性事后补助。不同于事前立项资助方式和研发费用加计扣除税收减免的资助方式,财政
<正>一、定时分娩技术约有50%的母兔在夜间分娩,若管理不当,会影响仔兔成活率。采取定时分娩技术,可让母兔定时分娩。即将妊娠30天以上的母兔,用拇指和食指一小撮一小撮地拔下乳