一种基于C4.5决策树的Web页面分类算法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:angelasun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WEB文本自动分类在很多方面都有着重要的应用,如信息检索,新闻分类等。决策树算法是一种简单并且广泛使用的分类方法,具有很多优点如:分类精度高,分类速度快等。主要研究了运用C4.5决策树构建Web页面分类器的基本方法和过程,并提出了一个基于C4.5决策树的Web页面分类器的框架。在此基础上实现了一个运用于网络爬虫的Web页面分类器,实验结果表明该算法是非常有效的。
其他文献
本文深入讨论了特征码技术在病毒攻与防中的运用策略及其发展趋势。实验中针对不同类型的病毒特征码进行手动定位、分析和验证,并通过修改、加壳和加密等技术手段达到免杀效
Bootloader(引导加载程序)是嵌入式系统开发的重要环节,它使得操作系统和硬件平台联系起来,对嵌入式系统的后继软件开发十分重要。介绍了当前嵌入式开发中功能强大、稳定可靠的
针对Science杂志上提出的仿射传播(Affinity propagation)聚类产生指定类数的聚类结果时效率较低的问题,提出了基于多网格策略的快速算法。该算法采用多网格搜索策略来减少调用
<正>Outsourcing software development to the community developers is a promising model to help reduce software development cost and improve development efficienc
在实现了J2EE规范的web容器所提供的三种认证和授权机制当中,Form—based的认证机制一直是企业级web应用的首选。然而,为了获得可定制的用户界面,Form—based的认证机制对寻求健
即时消息传输是协同工作中的一项重要功能,它方便了企业内部或者企业之间的信息交流。本文提出了基于消息引擎的协同任务管理系统体系结构,构建了系统体系结构的核心引擎。还介
用RFID技术解决了冷链物流管理中的温度实时监控难题;面对随之而来的数据爆炸问题,结合RFID数据挖掘算法和冷链温控实际需求,提出了RFID离群点快速挖掘算法QOD,并采用剪枝策
系统规模的逐步扩大和用户兴趣的发展变化给传统协同过滤推荐系统带来了实时性减弱和准确性降低的问题。基于K—Means用户聚类的协同过滤技术虽然能在一定程度上解决这两个问
本文对现有恶意DLL文件注入技术和PE结构进行了分析,提出了一种检测恶意DLL文件的新方法。通过分析DLL文件的文件属性和PE文件字段值,利用决策树方法中的C4.S算法构造恶意DLL
<正>Since software has infiltrated in many services,designers need to consider service design and software design as a whole.This paper provides a novel service