论文部分内容阅读
进入21世纪以来,互联网和移动通信的普及浪潮已席卷世界每个角落,对人们工作、学习、生活等都产生了非常深刻的影响。然而通信网络带来丰富信息的同时,也带来了新的问题,网络为泄露企业的商业机密、技术机密和传播不良信息提供了方便。论文针对企业内外网信息交互中可能出现的机密信息泄露和不良信息传播,设计了一个适用于大型企业信息网络的内容审计系统,并围绕该内容审计系统中的关键技术进行研究,研究工作主要从以下两方面展开:1)在内容审计速度方面。对网络信息内容审计系统进行设计时,采用分布式集群结构,通过负载均衡技术将数据流量进行分流。本文提出了一种基于会话的动态负载均衡算法,该算法能够将新到来的会话链接分配到集群中负载最小的服务器中,同时又考虑了网络信息内容审计系统需要对应用层中的内容进行审计,将同属于一个会话中的数据包分配给同一台服务器进行处理,既有效地提高了内容审计的处理速度,又兼顾了集群中服务器的负载情况,解决了在大型企业网中信息交互量较大时的系统处理速度的性能瓶颈问题,并且保证了审计内容的完整性。2)在内容审计准确率方面。本文的研究主要针对文本内容展开,着重对文本分类技术进行深入研究。对文本分类中所采用的技术进行较为全面的研究,并通过实验对比KNN算法、朴素Bayes算法和SVM算法在中文文本分类应用中的分类效果和分类时间,分析三种算法的优劣;并提出一种改进的TF-IDF权重计算方法,将训练集的每个类别的主题词与待分类文本的关键词之间的相关性考虑在内。经过实验分析,改进的权重计算方法虽然在中文文本分类的时间效率上有所降低,但其有较好的分类效果,其查准率和查全率均高于TF-IDF权重计算方法。