基于不确定性的主动学习算法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:listsetmap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的普遍使用,使人们可以很容易获得海量数据。然而,在一些实际应用中,获得大量已标注的样例是非常困难、昂贵或耗费时间的,而取得未标注的样例则相对容易。在这种学习背景下,主动学习的框架被提出,选择算法从未标注样例中挑选最有价值的样例交给专家,进行标注后加入训练集,这样可以用尽量少的样例获得尽可能高的分类性能。一种常用的主动学习的方法是基于不确定性的样例选择,策略倾向选择那些当前分类器最无法确定其类别的样例进行标注。本文针对使用近邻规则的不确定性主动学习方法进行了分析和讨论,提出了在使用近邻分类器的基础上,将加权Margin作为不确定性评价标准。基于不确定性的样例挑选可能挑选出孤立点,为了避免这种情况发生,本文在评价样例的不确定性后,考虑未标注样例的密度信息,倾向于挑选不确定性高而且位于高密度区域的样例。最后在人工数据集和UCI数据集上进行了实验,并与已有方法进行比较,结果表明改进方法一定程度上优于已有方法。
其他文献
随着国民经济保持可持续、健康发展和城市化进程的加快,人口经济不断发展,城市用水需求也不断增加,同时城市污水的排放问题日益受到重视。如何有效地解决城市污水的处理问题,已成
经过多年的发展我国教育已进入了大众化的发展阶段,办学模式的多元化,办学层次的增多,使在校生人数成倍地增加,教学情况越来越复杂,教务管理难度越来越大。然而,教学是学校的中心工
随着网络与日常生活结合的日趋紧密,网络流量规模及类型不断增加,用户需求也不断纷繁复杂,如何满足各类应用QoS需求同时尽可能提高网络资源利用率已逐渐成为网络管理的一个重
Ad Hoc网络是由一组带有无线收发装置的移动终端组成的多跳临时性自治系统。网络中,每个移动终端兼备主机和路由器两种功能,并可以通过无线连接构成任意的网络拓扑。在无线Ad
当前,保护软件知识产权,防止软件信息泄漏越来越受到人们的关注。在软件攻击技术中,逆向工程是主流的软件分析技术,它能够通过逆向分析推理出用户输入与程序路径分支之间的对应关
科学可视化可以将科学数据转换为图像,便于显示复杂数据结构之间的关系。医学可视化是科学可视化在生物医学工程上的重要应用,在临床与医学研究中具有重要意义,而体绘制是医
网络游戏是一个生命力和活力都很强的产业。中国的网络游戏产业在日益繁荣的同时,也面临着产品同质化严重、人才短缺等发展瓶颈。一款游戏想要从激烈的竞争中脱颖而出,就要兼备
增强现实是将计算机生成的虚拟信息与真实世界的场景通过显示技术结合起来,为用户提供丰富的视觉服务和交互环境的一门新技术。与传统的虚拟现实不同,增强现实只是实现对现实
组态软件在工业控制领域快速发展,是因为组态软件包含了一些已经开发完成的,具有通用性的控件。使得工程人员在开发具体项目时可以方便的进行各种组态。而嵌入式组态软件的出现
本文根据目前字符验证码的发展现状,对验证码识别技术进行了研究和探索。详细介绍了验证码识别过程中各个步骤所使用算法,总结了它们的优势与不足,对验证码识别的技术难点进行了