【摘 要】
:
在传统的网页分类中,通常采用有监督学习,通过对大量有标记(labeled)的网页训练集进行学习来预测未标记(unlabeled)网页的类别。但是,获取大量有标记的实例需要花费大量的人
论文部分内容阅读
在传统的网页分类中,通常采用有监督学习,通过对大量有标记(labeled)的网页训练集进行学习来预测未标记(unlabeled)网页的类别。但是,获取大量有标记的实例需要花费大量的人力物力,而收集大量的未标记实例已相当容易。半监督学习就是在只有少量有标记数据的情况下,利用大量未标记数据来提高学习效果的。
本文详细介绍了在半监督学>J研究领域开展的两方面的工作:1.依据协同训练的特点及其衍生算法Tri-Training使片j集成学习的优点,在此基础上,进一步研究将集成学习和半监督学习结合的方法,提出了基于袋装的半监督分类算法,并使用了熵来筛选未标记数据,使用强数据以提升了分类的精度;2.进一步研究基于图的方法,图方法理论基础比较健全,很好的描述了数据的特征,但是其计算量很大并且图方法本身是直推式的,不具有归纳性。针对这些问题,重点研究了类别传播算法,最后结合聚类分析,先对未标记数据进行局部聚类,选择可信度高的进行标记,减少未标记数据量以加快计算速度。在归纳方面,则保持图模型结构不改变的情况下,使用聚类的思想,对新来的数据进行分类,减少图运算,提高图的复用性和效率。上述算法,在Weka平台上,使用UCI数据集进行测试,取得比较好的效果。
最后,使用提出的算法在搜狐新闻数据(SougouCS)进行了真实网页数据的测试,实验结果表明,该算法在精度和效率上有明显的改进和提高。
其他文献
近年来,随着Internet技术的迅速发展,J2EE和Ajax两种框架构建模式逐渐走向成熟,国内外对此有较深入的研究。在Web开发中,它们充分发挥了各自的优势,取得良好了效果。与此同时
Web数据挖掘是在Web资源环境中根据用户的浏览行为提取出用户关心的、有价值的信息过程。Web使用挖掘是数据挖掘的重要组成部分,用户是Web使用挖掘的核心。Web使用挖掘通过关
随着互联网的发展,相关网络信息越来越多,相应的电子邮件使用已经很频繁,并且已经深入到所有使用网络的人群中,成为一种方便快捷、经济的通讯手段。但是由于利益的驱动,垃圾邮件也
在当今信息化时代,如何准确鉴定一个人的身份、保护信息安全,已成为一个必须解决的关键社会问题。人脸识别技术是最有发展潜力的生物特征识别技术之一,由于其具有简单直观、
近年来,医学工程有了飞速的发展,大量医学数据通过测量仪器被详细的记录下来,因此导致医学相关数据海量增长。在如此海量的数据库中利用各种数据挖掘方法和技术来发现和总结
ZigBee是一种新兴的短距离、低速率、低成本和低功耗的无线网络技术,非常适合于工业控制、汽车自动化、农业自动控制和医用设备等领域。本课题以基于ZigBee技术的传感器网络
互联网新型应用的不断涌现,使得互联网的拥塞状况日益加剧。为了监测网络是否安全、高效、稳定地运行,确保各单位机构局域网中有足够的带宽,使得对网络流量进行准确的识别变
遗传算法是最早的进化算法之一,它具有良好的稳定性和全局寻优能力,广泛的应用于实际问题中。相比于现今粒子群,差分等进化算法,它的收敛速度相对很慢,在局部寻优上存在不足
近年来,国民经济的快速发展带动电力产业的大规模建设。与此同时,如何能够在电力供给与电力消耗之间达到相互协调,合理利用电能的问题日益凸显。要解决合理利用协调配比电能的问题,用电量预测是这个问题的关键。如何对用电量进行预测以及如何保证预测精度则是近些年的一个热点研究领域。用电量预测是基于数理统计的数学建模研究,是通过对历史用电量数据进行统计分析,找出其中蕴含的规律,获得其影响因素,利用现代仿真和计算机
视频监控系统的广泛运用,为人们在交通管理和安全监督提供了很大的便利,然而这种便利需要耗费巨大的人力物力去干预和监督。随着科学技术的发展,视频监控系统智能化成为解决该问