论文部分内容阅读
协同虚拟环境(CVE)是虚拟现实技术与网络技术相结合的产物,将分布在不同地理位置的独立的虚拟现实系统通过网络连接起来,使多个Agent在一个共享的三维环境中进行交互,协作完成任务。目前,CVE系统已经在科学可视化、协同设计、战争模拟等多个领域得到广泛的应用。在虚拟环境中,特别是大范围复杂的虚拟环境中智能体很容易迷路,对智能体来讲,能调整自己的方向实现导航的目标更是不容易。在人工智能领域,长期以来一个重要的目标是如何设计一个Agent使它能够在复杂环境中自主地完成任务,这与协同虚拟环境中智能体的自助导航控制问题极为相似。强化学习理论作为智能学习的一个重要分支,是从控制论、统计学、心理学和认知学等相关学科发展而来的,有着相当长的历史,在智能学习中得到广泛研究。论文对协同虚拟环境及其导航进行了深入研究和探讨,根据CVE协同导航所具有的自身特点,并在单用户导航模型的基础上,建立和完善了协同导航模型的框架。同时作者在分析了智能体导航控制的基础上,根据CVE协同导航模型与强化学习理论模型的相似性,将强化学习应用到协同虚拟环境中智能体导航控制上,并重点研究了基于Q-学习的导航知识获取算法。为了改善该算法在协同导航控制中的应用效果,本文提出一种基于最优路径的Q-学习算法,将虚拟环境中移动的智能体与目标之间的绝对距离量化成强化学习中的状态函数,并通过前后状态的比较,使得每次状态/动作对的选择都能达到靠近目标位置的目的,另外,将多个智能体的学习成果进行共享,加强各个智能体对环境信息的感知,使其能更快学习到正确决策,进行有效的寻路与导航控制,寻找一条到达目的地的最优路径。