串匹配算法及其在网络内容分析中的应用

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 49次 | 上传用户:yjsngmmsnjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet是全球信息共享的基础设施,是一种开放和面向所有用户的技术。一方面要保证信息方便、快捷的共享,另一方面要防止垃圾的传播。网络内容分析是一种管理信息传播的重要手段。网络内容分析是网络信息安全核心理论与关键技术,对解决国民经济发展和国防建设具有重大意义。研究网络内容分析所涉及的新理论、新体系结构、新方法和新技术将是未来几年研究的重要挑战。一方面是人们生活越来越多地依靠网络,许多政府业务越来越多地使用网络,而另一方面却是Internet上信息的鱼龙混杂,黑客、病毒、网络攻击等日益盛行。保护网络空间的洁净,保护网络空间中的“国土”,已成为未来国家发展的重要问题,也是摆在人们面前的一个巨大挑战。从闪电般流逝的网络数据中查找到我们感兴趣的信息,无疑是一项非常富有挑战性的工作。本文的工作是从研究面向宽带互联网的网络信息安全问题出发,对高速网络内容分析所涉及的科学理论和关键技术进行了有益探索。本文从算法和框架两个层次来讨论快速信息分析技术,有以下几点创新之处:1.1.1串匹配算法IntMatch从面向计算机指令层面来优化匹配算法,设计了一种新的串匹配算法。新设计的IntMatch是一种简洁串匹配算法。它使用的数值计算代替字符比较的思想很容易推广到其它领域,具有一定的理论价值。IntMatch算法可以在高速网络内容分析、大规模模式的入侵检测系统中使用。某些测试表明,IntMatch比Sun-Manber等算法大约快175%。IntMatch算法是一种跳跃型的算法,设计的主要思路是充分利用硬件整数操作的效率,使用数值运算代替字节比较。1.1.2关键词表达式匹配算法经典的关键词表达式(query expression,keywords expression,predicate algorithm for rule )是搜索引擎(web retrieve)和数据库等使用的查询语言。但是在网络内容分析系统中,如果单纯使用关键词作为查询条件,会存在很多误报情况。所以网络内容分析系统一般采用表达式作为查询条件。我们提出了一种新关键词表达式匹配算法。这种算法改进了经典计数算法(predicate counting algorithm)中不适合网络内容分析环境的数据结构,对比计数算法需要平方级的算法复杂度,新算法可以在线性复杂度完成内容扫描阶段的关键词表达式匹配工作。关键词表达式匹配算法还可以广泛地应用于基于调用序列的入侵检测系统中。1.1.3面向网络内容分析的文本表示方法本文一种新的基于n-gram字的文本表示方法同时实现了一个文本分类系统。这个系统自动提取网络内容分析所需要的关键词,进行网络内容的感情色彩判断和内容分类。基于n-gram字的文本分类方法比基于单纯串匹配算法的文本分类方法正确率更高,而且性能基本保持不变。与词、短语等向量空间的文本表示方法相比较,在正确率损失不超过1%的前提下,大幅度地提高文本分类的速度。
其他文献
当前医疗卫生体制的改革,对医院审计工作提出了更高要求的同时,也给医院审计工作带来了新的挑战。医院的审计领域越来越宽泛,审计活动越来越频繁,随之出现的审计风险也越来越
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
通过文献资料分析我国当前电视体育娱乐闯关节目的发展状况。主要结论:闯关类体育节目具有参与人群广泛、内容和形式变化多样、奖品丰厚等特点,集欣赏、健身、娱乐于一体,开创了
党的十九大提出了共建、共治、共享的社会治理模式发展目标,强调推进社区治理体系建设,“三社联动”模式应运而生。然而其被推行十年以来,出现了“三社”联动不畅、服务供需
日前,本刊记者就如何贯彻实施八部委联合下发的《关于加快水泥工业结构调整的若干意见》(以下简称《意见》)以及协会近期推进名牌战略的情况采访了中国建筑材料工业协会副会长陈
供电可靠性是指一个供电企业对其用户持续供电的能力,是衡量供电企业服务品质的国际通用指标。近年来,随着省市公司供电可靠性管理体系与配网业务深度融合,新技术、新设备的
目的观察硫酸镁配合酚妥拉明降低新生儿持续肺动脉高压治疗效果。方法新生儿持续肺动脉高压40例,在积极治疗原发病的同时,给予头罩加压吸氧或简易持续正压通气、保温、补液、抗