论文部分内容阅读
Internet是全球信息共享的基础设施,是一种开放和面向所有用户的技术。一方面要保证信息方便、快捷的共享,另一方面要防止垃圾的传播。网络内容分析是一种管理信息传播的重要手段。网络内容分析是网络信息安全核心理论与关键技术,对解决国民经济发展和国防建设具有重大意义。研究网络内容分析所涉及的新理论、新体系结构、新方法和新技术将是未来几年研究的重要挑战。一方面是人们生活越来越多地依靠网络,许多政府业务越来越多地使用网络,而另一方面却是Internet上信息的鱼龙混杂,黑客、病毒、网络攻击等日益盛行。保护网络空间的洁净,保护网络空间中的“国土”,已成为未来国家发展的重要问题,也是摆在人们面前的一个巨大挑战。从闪电般流逝的网络数据中查找到我们感兴趣的信息,无疑是一项非常富有挑战性的工作。本文的工作是从研究面向宽带互联网的网络信息安全问题出发,对高速网络内容分析所涉及的科学理论和关键技术进行了有益探索。本文从算法和框架两个层次来讨论快速信息分析技术,有以下几点创新之处:1.1.1串匹配算法IntMatch从面向计算机指令层面来优化匹配算法,设计了一种新的串匹配算法。新设计的IntMatch是一种简洁串匹配算法。它使用的数值计算代替字符比较的思想很容易推广到其它领域,具有一定的理论价值。IntMatch算法可以在高速网络内容分析、大规模模式的入侵检测系统中使用。某些测试表明,IntMatch比Sun-Manber等算法大约快175%。IntMatch算法是一种跳跃型的算法,设计的主要思路是充分利用硬件整数操作的效率,使用数值运算代替字节比较。1.1.2关键词表达式匹配算法经典的关键词表达式(query expression,keywords expression,predicate algorithm for rule )是搜索引擎(web retrieve)和数据库等使用的查询语言。但是在网络内容分析系统中,如果单纯使用关键词作为查询条件,会存在很多误报情况。所以网络内容分析系统一般采用表达式作为查询条件。我们提出了一种新关键词表达式匹配算法。这种算法改进了经典计数算法(predicate counting algorithm)中不适合网络内容分析环境的数据结构,对比计数算法需要平方级的算法复杂度,新算法可以在线性复杂度完成内容扫描阶段的关键词表达式匹配工作。关键词表达式匹配算法还可以广泛地应用于基于调用序列的入侵检测系统中。1.1.3面向网络内容分析的文本表示方法本文一种新的基于n-gram字的文本表示方法同时实现了一个文本分类系统。这个系统自动提取网络内容分析所需要的关键词,进行网络内容的感情色彩判断和内容分类。基于n-gram字的文本分类方法比基于单纯串匹配算法的文本分类方法正确率更高,而且性能基本保持不变。与词、短语等向量空间的文本表示方法相比较,在正确率损失不超过1%的前提下,大幅度地提高文本分类的速度。