基于半监督的支持向量机网页分类方法

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:tianlong3311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,为了能够有效地组织和分析海量的网页信息,人们希望能够对网页实现自动分类。因此,网页分类技术便成了快速且有效地组织网络上海量信息的一项重要技术。在众多的网页分类算法中,支持向量机凭借其出色的学习能力,已成为机器学习界的研究热点。而现实生活中大量数据却是无标记的,为数据作标记的工作耗时费力。这推动了机器学习的研究进入到一个新的阶段,结合有标记数据和无标记数据的半监督式学习正成为新热点。讲述了网页分类的过程,分类方法种类划分和评价标准。然后介绍了支持向量机的原理、发展和相关技术,阐述了支持向量机技术在网页分类中的重要作用。之后研究了目前支持向量机常用的训练算法和半监督支持向量机的训练算法;还研究了主动学习的样本选择策略。针对目前半监督支持向量机训练算法存在训练速度慢并且准确率不高等缺点,提出了一种基于主动学习的半监督支持向量机学习算法,它以少量的有标记数据来训练初始学习器,通过主动学习策略来选择最佳训练样本,并通过删除非支持向量来降低学习代价,获得较好的学习效果。最后,将改进的半监督支持向量机训练算法应用到网页分类系统中,并对以上的改进策略进行实验对比和性能分析。实验数据表明,本文算法具有更高的分类效率和准确率。
其他文献
本文研究基于人工鱼的全局优化文化算法及其在物流配送中心选址中的应用,其工程背景是复杂的连续性设施选址问题。配送中心选址问题从数学模型上看,属于多源Weber问题,具有NP
无线传感器网络由大量传感器节点组成,被广泛用于监测周围环境信息。目标跟踪是无线传感器网络中的重要应用,其主要目的是通过节点来监测目标的实时状态。传统的固定传感器网
随着信息技术在日常工作和生活中发挥着越来越重要的作用,网络安全问题也逐渐开始成为社会中极需要关注的问题之一。根据研究发现,系统漏洞对系统安全性具有重要影响。大部分的
随着互联网的快速发展,网络安全问题日益严重,各种攻击层出不穷。拒绝服务攻击、匿名通信等给追踪攻击源、定位真实攻击流、网络监管带来巨大威胁和挑战。而网络流水印作为一
随着内网主机安全事件的频繁发生,如何防止内网资源的误用、滥用和恶用已经成为亟待解决的问题。主机的安全事件主要是由内部人员的不合法操作导致的,具有威胁大、难防御、难
信息技术和网络技术的迅猛发展为企业间制造资源的有效集成和优化配置提供了有力的技术支撑,从而使得制造企业在应对全球化经济竞争时,能够高效地集成优势资源,快速响应市场需求,这对于企业赢得市场竞争具有举足轻重的战略意义。为弥补资源管理方式的不足、实现资源的快速整合和共享,协同制造应运而生。协同制造环境中,业务过程一般都是跨组织的,通过工作流之间的交互实现任务的协同,但资源之间的依赖关系,作为一种约束,其
随着互联网的发展,网络成为人们获取自己需要的信息的重要途径,Web信息抽取是一种可以从Web页面信息中抽取出结构化的信息的技术,为人们从浩瀚如海的internet网上获取信息提
无线自组网(MANET,Mobile Ad hoc Network)是一种无中心的网络,它不依赖于固定的网络设施,可在有限的无线通信带宽环境下,通过移动的主机自由、快速地组网,建立动态变化的网络拓扑结
随着数据集成、电子商务、数据仓库等的兴起,数据模式匹配在上述领域发挥越来越重要的作用。但是由于数据模式的多样化、数据模式异构的复杂性,当前许多数据模式匹配方法都不能
层次交换技术作为一种新型的分组交换技术从根本上解决了Internet的先天缺陷。层次交换网中,将IP地址子域与网络层次结构相关联,IP本身包含了路径信息,交换机将一个IP数据包