基于决策树的网页敏感词过滤系统设计

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户：rocket830214

【摘要】

：

传统网页敏感词过滤系统大多是通过对比基于数据库的文本文件实现的,这种方式实时性较差,敏感词语过滤效率低,需要耗费网管人员大量的时间和精力。本文以主动匹配并过滤网页

【作者】

：

李伟

【出处】

：

西北农林科技大学

【发表日期】

：

2004年期

【关键词】

：

网络安全文本处理信息过滤敏感词决策树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统网页敏感词过滤系统大多是通过对比基于数据库的文本文件实现的,这种方式实时性较差,敏感词语过滤效率低,需要耗费网管人员大量的时间和精力。本文以主动匹配并过滤网页中的敏感词语为目标,实现了文本在上传到服务器之前对网页中的敏感词进行主动匹配与过滤处理,采用决策树方法对含有敏感词的网页文本进行了分类。论文的主要内容有:(1)设计实现了一种基于字典树的网页敏感词匹配及过滤方法。采用Python中的Beautiful soup模块将网页解析为DOM(Document Object Model)文档对象模型,进而抽取出网页中的文本内容。研究了文本中敏感词的检索与匹配方法,设计出了一种基于字典树的网页敏感词匹配及过滤方法,提高了网页文本中的敏感词过滤的正确率和召回率。(2)设计了基于决策树的敏感文本分类器。通过文本的预处理构建敏感文本分类的训练集与测试集,利用中文分词系统构建敏感文本向量空间模型,计算文本集向量空间中词向量的TF-IDF值得到训练集与测试集的权重矩阵,采用了决策树C4.5算法构建敏感文本分类器。(3)使用Python语言实现了网页文本内容抽取,文本预处理和敏感文本的分类。针对网页文本中存在干扰项过多的问题,采用正则表达式去除文本中的特殊字符、将繁体中文转化为简体中文的方法,对网页文本进行了预处理。通过在不同类别的文本中添加敏感词的方法提供了敏感文本训练样本,提取其特征值构建决策树,设置剪枝条件,对样本进行了分类。

其他文献

致密砂岩储层评价

川西坳陷上三叠统须家河组是四川盆地最具勘探潜力的层系之一,其形成于晚三叠世四川盆地由海相克拉通盆地向陆相盆地转变的过渡时期,其勘探潜能较大。本文旨在现有研究结论基

学位

致密砂岩储层特征物性下限储层评价有效储层有利相带

南极磷虾粉干燥工艺研究

南极磷虾生物资源丰富,营养价值高。南极磷虾粉是南极磷虾的主要加工产品,干燥工艺是制约虾粉品质和成本的关键因素。目前国内外关于南极磷虾粉加工的研究主要集中在品质评价、贮藏条件等方面,关于干燥工艺流程与参数优化的研究较少,因此开展南极磷虾粉干燥工艺研究对于南极磷虾加工具有实际意义。本研究以冻南极磷虾为实验原料,预处理方法是流水解冻,蒸汽蒸煮3 min,研究干燥前处理—破碎方法,对南极磷虾粉干燥特性和品

学位

南极磷虾粉干燥前处理干燥工艺

石油石化行业经营风险预警模型构建

随着全球经济一体化发展趋势不断深化,企业与企业之间的竞争表现得异常激烈,对于石化企业而言,也是如此。石化施工企业在进行油田地面建设及长输管道等建设中,经常面临竞标、

期刊

石化企业经营安全财务风险预警

句容市滨水区景观规划设计研究

城市滨水绿地是城市绿地系统的重要组成部分,也是城市滨水区开发建设的重点对象。从客观上来讲,滨水绿地景观包含两部分的重要内容:一是滨水,二是绿地景观。城市滨水绿地是城

学位

滨水区绿地景观规划设计生态

基于教育信息化的应用型本科院校创新型人才的培养与实践

教育信息化不仅为应用型本科院校创新型人才培养提供了广阔的教学途径,在打造学习者多元化的知识结构体系、培养学习者创新思维力、工程思维力、发散思维力和理性思维力,激发

期刊

教育信息化应用型本科院校创新型人才

急性氟乙酰胺中毒性脑病（附38例临床报告）

我院1996年1月～1998年5月收治的急性氟乙酰胺中毒性脑病38例报告如下:1 临床资料本组男16例,女22例,年龄1～86岁,平均年龄27.2岁,38例均为消化道摄入,就诊时间最早为服药后10min

期刊

氟乙酰胺中毒性脑病诊断治疗

基于决策树的网页敏感词过滤系统设计

其他学术论文