基于支持向量机的多类网页分类方法

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:guolsh003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,为了有效地组织和分析这些海量的网络信息,人们希望对网页实现自动分类。因此,网页分类技术成为快速有效地组织网络信息的一项重要技术。而支持向量机(SVM)因其出色的学习能力,已成为机器学习界的研究热点。   本文介绍了网页分类的预处理技术、常用的网页分类方法和网页分类评价标准,阐述了SVM的基本原理、各种训练算法、SVM多类分类方法和发展方向,分析了SVM技术在网页分类中的重要性。针对多类网页分类中样本集不平衡的问题,提出了基于欠取样和反馈学习的不平衡SVM多类分类算法,使用最小距离欠取样的方法和反馈机制,改善了分类超平面的位置,提高了分类准确率。针对多类分类准确率不高的问题,采用距离最大熵的思想构造SVM多类分类中二叉树叶节点的类别顺序,提出了基于最大熵的二叉树SVM多类分类算法,将与其他类别相近性最小的类别先分离出来,降低了根节点以及上层节点的错误积累现象,解决了信息的概率分配问题,提高了SVM多类分类的准确率。将改进后的SVM多类分类算法应用于中文网页分类系统中,并进行对比分析。实验数据表明,本算法提高了网页分类的准确率。
其他文献
计算机网络技术的快速发展,推动了世界信息化进程,互联网上用户数量和网络业务量的增长,使人们对于网络的需求越来越大,对网络服务质量的要求也越来越苛刻。互联网数据流量的急剧
软件是几乎所有的基于计算机的系统中最昂贵的元素,因而,一个复杂的软件项目,可能会因工作量估算的误差而出现软件项目延期、质量不能得到保证、甚至项目失败等严重后果,这对开发
电能,已成为人类社会赖以生存和发展不可或缺的一种重要能源,人类几乎所有的活动都与电有密切的关系。随着科学技术的飞速发展和工业规模的不断扩大,一方面,电力用户对电能质
信息技术的发展为社会带来了革命性的变化。许多的多媒体技术为现在的研究带来了新的挑战和机遇。对数字产品版权保护、保证信息安全已是现代产权,版权保护和信息认证的核心问
目前,各行业普遍存在“信息孤岛”现象,造成系统之间数据难以共享。为打破这种局面,各大油田按照“六个统一”的原则积极构建数字油田,各行各业也在构建自己的数据仓库中心和
在当今社会,信息化手段成为了促进一个产业现代化建设的基础支撑。资源的信息化和信息资源在一个产业相关链条中的畅通传播和深度共享,以及为实现资源共享,该链条中各实体之间的
数字图像已经广泛的应用在人们的日常生活中,而图像处理技术却为图像信息安全提出了挑战。检测图像是否被恶意篡改、保证图像信息的完整与健壮成为人们的需求,而利用可感知的哈
当前信息领域的研究热点——云计算带动了整个商业模式的转变,延伸出了新的商业体系。对于终端用户来说,它宣告了低成本提供超级计算时代的到来,给用户、产业界及各国政府带来深
回归测试是指修改了程序后,需要重新进行测试来确保修改程序没有引入新的错误或导致原有程序产生错误,为确保软件的可靠性,软件在迭代开发的过程中通常需要进行多次回归测试
论文以“塘沽市容管理局电子政务系统”为基础,根据在分析、设计、实现系统过程当中遇到的各种技术问题及解决方案,总结提炼成文。实现这个系统意义重大,系统可以促进市容行业信