基于人机交互的强化学习理论与应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xiaosanhuah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在对现有智能学习算法进行详细综述的基础上,提出了基于人机交互的强化学习算法,即把人机交互加入到强化学习中,从而促进和提高复杂任务学习的有效性和快速性,来解决不确定环境下,面向任务的智能信息处理、分析和优化问题.具体研究工作包括以下几个方面:(1)在对强化学习理论结构进行详细分析介绍的基础上,提出一种能够结合专家知识的人机交互强化学习理论结构,使系统获得当前状态与目标状态之间的距离度量,利用人对任务的理解和对学习过程的监控,给智能系统的学习过程以恰当的评价,为搜索指明方向,减少搜索范围,降低学习复杂度,解决了标准强化学习计算复杂度依赖状态行为空间大小的缺点.(2)本文提出了基于强化学习的特征学习算法,并与mean shift算法相结合以实现给定的跟踪任务.特征学习过程被描述为与不确定视觉环境进行交互的序列决策过程,使系统在考虑视觉环境分布的情况下,能够不断地在线评价和学习特征集,在线学习自适应的高判别力期望特征集,这也是本文优于目前大多数特征选择方法的地方.同时,为了降低计算复杂度、提高特征学习过程的收敛速度,本文在特征学习的结构中进一步引入人机交互,这种交互式的特征学习结构能够直接获得操作者对特征选择行为评价的反馈信息,使系统获得当前特征集与期望特征集之间的距离度量,有效地结合操作者的先验知识和专业知识,大大简化特征学习过程.(3)本文把基于人机交互的强化学习与相关反馈技术相结合,系统通过与图像数据库进行交互,在线学习选择面向任务的期望特征集策略,建立图像检索任务与期望特征集的对应关系,并构成专家知识库,以解决强化学习性能依赖初始状态的问题.(4)应用强化学习理论构造了一种通用的面向任务的分级视觉学习体系结构,突破以往的人工视觉研究主要集中在低级视觉信息处理上的局限,而在高级视觉学习模型与低级视觉信息处理的互动方面做深入研究.此通用体系结构能够把外部的视觉感知与内部的认知过程和行为决策密切结合,使系统动态地组织图像处理过程及学习最优控制策略,通过"知识"只处理与任务相关的数据,以有效地减少视觉计算量.从而构成一个闭环的学习系统,使系统获得在线的传感信息优化能力、在线的学习能力以及强大的人机交互功能.通过机器人实现选择注意的实验,验证了本文体系结构的有效性.
其他文献
随着全社会对喷印标识技术的要求越来越高,而且图像处理技术在众多领域的应用价值地位不断攀升,因此图像处理技术在喷码机中的重要性也日益体现了出来,这对喷印标识的清晰度和准
倒立摆系统作为典型的快速、多变量、非线性、绝对不稳定系统,一直是控制理论与应用的热点问题,因为它不但是验证现代控制理论方法的典型实验装置,而且其控制方法和思路对处
近年来,随着社会的不断发展,工业用户对电能质量的要求变得越来越高。为了满足工业用户的要求,提高供电质量,提高供电过程的稳定性,降低供电过程的损耗,都需要提供大量的无功补偿装置,因此对无功补偿装置的研究具有了重要的意义和必要性。基于此种现状,设计了一套无功补偿的装置。功率因数的准确计算对补偿装置是至关重要的,由于电网中直流分量和高次谐波普遍存在,采用快速傅里叶算法计算电网的无功功率,基本不受直流分量
非线性级联系统是由两个子系统以级联结构的形式而形成的一类非线性系统,其控制只进入其中一个子系统,另一个子系统状态的改变是通过被看成控制或者外部干扰的二者之间的关联
首先文章对浮选过程控制的国内外发展情况进行了阐述,对浮选过程的工艺流程进行了简要介绍.论述了浮选过程控制系统的总体结构和实现方法.然后在详细研究浮选工艺流程,了解操
多电机同步传动系统被广泛地应用于纺织、造纸等行业,不同的工艺要求导致不同的控制方案,控制参数也有很大的差异,本课题力图开发一类通用型的同步控制系统,只要适当改变控制系统的一些参数设置,无需改变系统的硬件电路,便可满足不同的工艺要求。本论文从电气控制角度,包括上位机(工控机)的监控系统和下位机(单片机)的实时控制系统两个部分,利用上下位机两级控制实现多单元同步系统的全数字控制。 现场下位机部分
本文来源于BASF公司和扬子石化一体化石化项目中的EO/EG装置子项目,并根据环氧乙烷生产工艺和控制的要求,着重研究了DeltaV系统、神经网络辨识技术和单神经元自适应PID控制算法
数字水印技术属于信息安全的范畴。数字图像水印是数字水印技术的一个分支,具有极大的应用前景,是当前研究的一个热点。本文首先分析了数字水印技术与传统加密技术的关系,总
本文首先综述了嵌入式网络视频系统,讨论了该系统的应用场合及其发展历史。第二章主要介绍了嵌入式网络图像监控的相关技术,包括图像压缩技术、嵌入式处理器、嵌入式操作系统和
该文主要研究了两种群体智能算法模型:蚁群算法模型和粒子群算法模型,并将其应用到计算机网络系统可靠性的最优配置与磁流变阻尼器动力学的模型建立中.该文的研究目的:一方面