论文部分内容阅读
近些年来,随着计算机技术的飞速发展,能否设计一个具有人类思考和学习能力的计算机成了现阶段国内外科研学术领域研究的热点课题。目前,学术界对该问题的解决方案主要集中于探讨如何建立一个能够模仿人脑信息传送的机构,进而使计算机的决策行为更接近于人类思维模式和意识形态。具有人类决策能力的计算机,其智能性和自适应性在优化控制、航空航天、数据库信息处理、智能机器人、工业应用等众多领域具有广阔的发展前景,是未来社会和科技发展的一个重要方向。本文一方面以新型自适应动态规划(adaptive dynamic programming,ADP)算法——目标再现启发式动态规划(goal representation heuristic dynamic programming,GrHDP)算法为切入点,研究构建类似人脑信息决策处理机构的算法解决方案。另一方面,将虚拟现实(virtual reality,VR)技术引入到ADP算法的研究领域,创建了基于学习、控制系统研究的虚拟交平台,对GrHDP算法在不同决策、控制问题中的学习能力和决策判断能力进行了验证分析。具体工作如下:对GrHDP算法的理论基础——ADP算法、马尔可夫决策过程(Markov decisionprocess,MDP)、动态规划(dynamic programming,DP)和增强学习(reinforcementlearning,RL)进行了理论分析,并在此基础上深入研究了GrHDP算法的结构、学习过程、神经网络(neural networks,NNs)权值调节过程。分析探讨了基于非线性控制系统、自适应学习系统、优化控制系统等不同学习、控制系统的GrHDP算法最优决策解决方案。深入研究了虚拟现实建模语言(vritual reality modeling language,VRML)的语法结构、建模方式、事件交互方法,并利用VRML开发设计了基于GrHDP算法的学习、控制系统交互式虚拟现实平台——VR-GrHDP算法平台。平台以Matlab的Simulink3D Animation为接口,在Matlab界面实现虚拟环境仿真实验。一方面,通过创建不同的虚拟实验场景,分析不同问题下GrHDP算法的学习、决策性能。另一方面,通过在虚拟场景中设计不同的交互事件,验证不同外部事件作用下,GrHDP算法在学习、控制问题上的可靠性和稳定性。分别以三级倒立摆平衡系统和球杆平衡系统为研究对象,创建了两个基于非线性控制系统的虚拟交互环境,通过交互仿真实验验证了GrHDP算法在非线性系统控制问题上的可靠性和稳定性。仿真结果一方面体现出GrHDP算法在非线性控制问题上,无论在有、无外界干扰的情况下,都具有良好的鲁棒性和稳定性,另一方面体现出VR-GrHDP算法平台为非线性控制系统的算法研究提供了一个较为直观、便捷、可交互的算法验证界面。提出了基于GrHDP算法的移动机器人导航策略设计方案,分别解决了离散路径导航问题、连续路径导航与避障问题、目标追踪导航与避障问题。通过在虚拟导航环境中设计不同的交互事件,验证了GrHDP算法在应对不同环境、不同障碍物信息时的机动性、灵活性和自适应性。仿真结果表明:(1)在离散路径导航问题上,基于GrHDP算法的导航策略,其学习效率和总均方误差较启发式动态规划(heurisitcdynamic programming, HDP)算法和Q学习(Q-learning)算法相比,更具优越性。(2)在连续路径导航问题上,基于GrHDP算法的导航机器人在不同跑道环境中,其导航成功率和碰撞次数较HDP算法相比,更具优势。此外,基于GrHDP算法的导航策略在应对跑道中出现的固定障碍物、移动障碍物时,具有良好的机动性和灵活性。(3)在目标追踪导航问题上,基于GrHDP算法的导航策略在应对不同起始点状态、不同目标状态、移动目标状态时,均具有良好的机动性、自适应性和灵活性。以秦皇岛港口煤炭运输作业系统为研究对象,研究虚拟现实技术与GrHDP算法在工业应用上的可行性。设计了基于港口煤炭运输过程的3D可视化虚拟监控系统,研究了翻车机电机转速优化控制解决方案。一方面通过虚拟现实技术结合网络技术、传感器技术,将单维监控数据信息转变为直观的多维化数据信息,另一方面通过仿真实验对比,验证了GrHDP算法在翻车机电机转速优化控制问题上,较传统PID控制算法和RBFNN-PID控制算法,具有更好地响应速度和拟合程度。