基于支持向量机的半监督式分类学习方法

被引量 : 0次 | 上传用户:heatsnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们需要处理的数据数以亿计,比如工业信息,DNA分析,地理环境信息等。然而并非所有的数据都有明确的标签,当存在海量的无标签数据时,如何从海量无标签数据中获取有用的分类信息引起了研究人员的广泛关注。传统的监督学习和非监督学习处理数据时都没有能够充分利用有标签数据和无标签数据,浪费了宝贵的数据资源。半监督机器学习不仅能有效利用有标签数据,而且能通过无标签数据进行指导训练,提高了分类精度,增强了推广能力。本文研究了基于支持向量机的半监督式学习分类方法。本文首先介绍了直推式支持向量机(Transductive Support Vector Machines, TSVM)的半监督学习的基本原理。分析与比较了现有的改进TSVM方法,这些方法多是基于改变和完善TSVM的优化公式的,大多考虑的是优化方程最小化,而忽略了训练样本点之间的关系,所以对优化公式的改进对于半监督学习算法的性能提高作用有限。本文从数据的角度出发,来实现真正的数据驱动,从而实现数据的分类。基于这种思路,本文提出了两种改进的半监督式支持向量机学习分类算法:1)基于相似度标签传递的半监督支持向量机(Similarity Label Propagation Semi-Supervised Support Vector Machines,SLPS3VM);2)基于测地线标签传递的半监督支持向量机(Geodesic Label PropagationSemi-Supervised Support Vector Machines, GLPS3VM)。理论分析与实验结果表明,本文所提的改进型半监督学习的主要优势体现在:1)两种改进型半监督学习分类算法在数据类别比例不平衡时都依然有效。由于实际中无标签样本中类别的比例往往与有标签样本中的类别比例不一致,本文所提方法采用标签传递的方式逐步标注无标签样本中的类别,自动寻找合适的比例,与现有的采用固定类别比例的算法相比更具有实用意义;2)本文提出的SLPS3VM方法,在处理数据聚类比较突出的学习问题时运算效率明显提高。3)在数据呈高维流形结构时,本文提出的GLPS3VM可以获得较普通聚类方式更好的分类结果。
其他文献
目的:通过颈动脉超声检查评价H型高血压患者与单纯型高血压患者颈动脉结构的变化,探讨原发性高血压患者血浆Hcy水平与颈动脉粥样硬化严重程度的相关性。通过建立二分类非条件Lo
本文试图将市场营销观念应用到基金管理公闻营销分公司的运行管理当中,以营销观念为指导、以满足市场需求为核心,对东北地区基金业务宏观、微观环境进行分析,明确分公司的营销目
目的:通过对我院妇科门诊就诊的阴道炎患者及健康体检者,进行阴道分泌物检测和阴道微生态评价,分析阴道微生态平衡的影响因素,调查阴道微生态失调的检出率、各种阴道炎症的构成比
我国的罕见病患者是一个容易被忽略的庞大弱势群体,罕见病虽然发病率不高,但是按照WHO关于罕见病的定义,我国患有罕见病的人群数量也有上千万人之多,而目前只有不到5%的罕见
从1998年3月中国成立了第一家基金公司,到2012年末已开业的73家基金公司,中国基金业已走过了近15个年头,在这短短的15年间,基金行业走过了摸索迷茫的起始阶段,走过了爆发增长的牛
日本人非常重视与他人之间的友好关系。在日常生活中,他们总是小心注意着自己的言行举止会不会损坏与他人之间的友好关系,本文所讲述的缓和表达方式即是日本人为了维持与他人之
中国传媒业在改革开放30多年的探索和发展过程中,形成了“事业单位、企业管理”的特征与格局,也从根本上强调了媒介经营管理的强大效能。新记《大公报》作为20世纪影响中国最大
随着世界经济的不断发展,经济全球化进程将会继续扩大,21世纪无疑是一个全球竞争的时代,是一个经济全面开放的时代,世界各国只有顺应潮流,选择走经济一体化、国际化道路才不
美国证券交易委员会在1996年第一次强调了“透明度”,该组织同时将透明度作为反映会计信息质量的关键指标予以关注,会计信息透明度的提高对改善企业会计信息质量起到至关重要
目的:探索"六步教学法"在外科护理实践教学中的应用效果。方法:将2010级和2009级高职护理专业各随机抽取两个班作为试验组和对照组,试验组应用"六步教学法",对照组采用传统教