基于可信度的部分反馈条件下的在线多级分类器的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sadddddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的一大重要特征就是数据的爆炸式增长,这使得通过一次性的数据载入进单个超级计算机或者工作站从而进行处理和提取有用的变得越来越困难。如今,越来越多的分布式存储和计算架构,如Hive,HBase,Hadoop,Spark等,得到了企业界的青睐并逐步地投入实际生产中且已产生巨大的效益。与此同时,基于数据流的处理方案,在多个方面占据优势,例如仅仅只需在整个数据集上的一次遍历,对本级计算机的低要求以及在处理样本的过程中不断调整自身的学习策略。传统的批量机器学习方法,如朴素贝叶斯,决策树,支持向量机,神经网络等,通常要求数据集的一次性完整获取,在数据集进行多次遍历以及在线学习完成后学习策略的固定,难以迁移到其它场景。这也体现了完成学习过程所需的时间、空间复杂度,以及学习策略的实效性。一般而言,一个数据及上所学到的“知识”是无法使用于不同时空下的另一数据集。在线的机器学习方法,以最开始的感知机为代表的一节在线学习方法,简单地在每个训练实例上验证当前的学习策略,并毫无差别地更新所有特征的权重以调整学习策略,整个学习过程,时间复杂度低但收敛速度慢。随后,同为一阶学习方法的Passive-Aggressive算法提出了基于距离(margin)值的度量方案,一定程度上提高了学习方案的抗噪能力。二阶的在线学习算法,如基于可信度的在线学习方案,在学习的过程中,保留有关于每个特征权重的可信度,而这些可信度可用来在调整学习策略的时候决定每个特征的更新尺度。同样,部分反馈条件下的多级分类器学习更贴近人们现实中的体验。例如,在推荐系统中的实践当中,系统每次会向用户推荐多种商品中的一种,但系统收到的反馈仅仅是喜欢或者不喜欢。这也就提高了学习顾客偏好行为的难度。首先,本论文讨论并研究了如何在大数据处理平台Spark中利用Spark Streaming模块完成在线学习任务,通过加时间窗的方式,在处理流式任务的时候,得到的时延往往是秒级甚至毫秒级的。其次,本文通过研究并结合二阶的在线机器学习方法,提高在线学习的收敛速度,并着重解决部分反馈条件下的在线多级分类器的学习问题。最后,在多个合成的与非合成的数据集上,我们对算法进行了验证,经验数据表明我们提出的基于可信度的部分反馈条件下的在线多级分类器在大多数情况下是优于其他算法的。
其他文献
  铝合金集装箱运输半挂车以其自重轻、强度高、耐腐蚀、寿命长、材料回收利用率高等特点,在我国高速发展的快递物流企业越来越受青睐,本文论述了铝合金集装箱运输半挂车的结
阅读,写作和计算能力被看作是人类应具备的最基本的能力。从小学低年级到基础教育的全过程,都把它视为最基本的能力来培养。其中阅读能力占据首位,这也说明了阅读的重要性,也使阅读教学在朝鲜语文教学中占据了最重要的地位。注意到近年来学生不爱读书的现象,读书研究者将其原因归结为阅读动机。阅读动机被认为是诱发阅读行为的心理因素,以心理学为基础研究一直备受关注。另一方面,由于中学生在发育过程中的阅读动机尚未充分形
随着全球经济不断全球化,市场竞争日益激烈,采购部门的采购战略已成为企业核心竞争力之一,其中供应商管理策略更是受到各企业的高度关注。西方国家已形成了系统的管理方法和工具,但是,绝大多数的理论和工具都适用于大型的、实力雄厚的供应商,在管理中小型制造型供应商时,有些力有未逮。在H公司安全防护产品业务集团,中小型制造型供应商比例已达到50%以上,成为企业的供应商资源中名副其实的主体,其具有批量小、种类多、
刀具是燃气轮机制造的重要资源,直接影响燃机加工的质量和成本。刀具种类繁多,数量巨大,且随着新产品的开发,刀具的品种和用量不断增加,刀具成本在企业成本中的占比也在不断增加。另一方面,由于缺乏刀具的统一、协调管理,也存在刀具库存偏高和使用效率偏低等问题,以致刀具成为加工能力瓶颈,限制了燃气轮机制造企业的核心竞争力。为此,迫切需要在燃机车间应用实施刀具全生命周期管理信息系统。首先,阐述了刀具全生命周期管
本论文旨在透过阅读理解的表象来揭示学习者在阅读理解过程中遇到困难的深层原因及其应对这些困难的潜能。因而本文主要探讨互动式动态评估在大学英语学习者阅读理解过程中的作用机制。其主要目的是研究动态评估对学习者学习潜力开发的影响,并观察调节指导是如何在互动式动态评估中对调节者和学习者的反应产生影响,从而探索出一种动态评估运行模式。本研究以社会文化理论下的动态评估为理论框架,采用混合方法的实验设计且以微变化
随着半导体工艺节点的推进与器件特征尺寸的减小,传统浮栅存储器面临着器件漏电增大、电荷泄露严重和可靠性下降等问题。采用分立式电荷存储结构的纳米晶作为电荷存储层,纳米晶浮栅型存储器具有低工作电压、高擦写速度以及与CMOS工艺兼容等特点,得到了广泛的研究。本论文将结合理论仿真与实验制备两方面对InP纳米晶浮栅存储器进行研究。理论方面,根据纳米晶浮栅型存储器的电荷输运与隧穿机制,结合电子直接隧穿电流与阈值
随着移动互联网的不断发展,用户通过互联网产生了大量的用户评价数据,例如电子商务中用户对商品给出的评价,这些数据体现了用户对商品的满意(即偏好)程度。充分挖掘用户评价数据中包含的有效信息,并为用户提供个性化的产品、服务具有重要意义。用户评价数据包括评分数据和评论数据,评分数据可以从整体上体现用户偏好,评论数据则可以表达用户对产品不同方面的关注和偏好。近年来,已有许多研究工作利用评价数据进行用户偏好建
在当前经济形势紧张,市场竞争惨烈的情况下,如何更快更好地满足客户需求,是每一个企业必须研究的课题。采煤机零件产品不但价值高、生产周期长,而且专用性很强。为提高客户满意度,采煤机企业需要建立庞大的库存,以满足客户的不时之需。然而,单纯依据零件历年的平均使用量建立的库存是盲目的、不科学的,容易出现备库不足或者库存积压等情况。本文依据TD公司生产计划工作需要,对采煤机行走轮需求进行预测并制定订购决策,以
图像风格化技术是计算机图形学的一个分支,早在二十年前,就有不少研究者对风格化绘制进行了探索,图像风格化主要利用算法赋予一张图像特定风格,使其具有某种风格的艺术感。数字点画作为流行的图像风格化技术之一,具有极大的吸引力。目前针对点画的大部分工作都集中在黑白点画上,存在色调单一,视觉合理性不足等问题。而彩色点画是一种多类别采样问题,其计算成本较大。论文解决了现有方法中生成彩色点画耗时的算法,包括以下三
【目的】盘状结构域受体1(DDR1)是酪氨酸激酶(RTKs)家族的跨膜胶原受体,在上皮细胞中被胶原激活。在肝脏发生纤维化的情况下,DDR1可通过机械重组重建胶原排列。同时,在胶原结合的作用激活下,DDR1发生裂解,随后大量胞外端脱落到血液中。纤维化的肝细胞周围细胞外基质中有大量胶原沉积,由此激活脱落的胞外端DDR1作为细胞外脱落的产物是否可以在血清中检测到,并且作为血清标志物来诊断和肝评估纤维化尚