论文部分内容阅读
预测推理是机器人模仿人类智能的一项重要能力。近年来计算机视觉领域中的视频预测技术为机器人提供了预测编码的实现手段,使得机器人可以根据少量连续的视频等信息通过图像生成的方式预测得到合理的未来场景,机器便可以像人一样根据环境状态运用自身的预测能力自行规划完成一些操作任务,极大提高了机器人的智能性。目前,实现上述目标存在技术上的挑战性,包括如何构建视频预测模型从而得到准确真实的预测、如何评价预测生成的结果并选择出机器人可以使用的优秀模型、机器人如何根据视频预测模型实现自监督的运动规划。本文主要围绕以上三点开展了如下研究工作:1)开展基于机械臂与物理环境交互场景的视频预测研究。构建融合变分自编码器与生成对抗网络的无监督学习视频预测模型训练结构以及LSTM-CNN的图像预测生成器;搭建基于UR5机械臂的实验平台并完成交互轨迹数据集的制作,训练得到视频预测模型。实验结果表明,通过动态前景像素转换与静态背景合成的方式,模型可以得到较为清晰准确的预测。2)提出基于人眼视觉感知的图像质量评价指标。不同的视频预测模型往往造成不同类型和不同程度的失真,从而降低了机器人面向预测的可操作性。视频预测任务的图像质量评价必须考虑是否符合人的视觉感知来判断其合理性,而不仅仅依靠PSNR或SSIM等浅层信息。本文基于人类视觉感知的双向强迫选择(2AFC)实验,提出了一种基于卷积特征提取的视频预测结果感知评价方法。评价结果符合视频预测质量随时间下降的规律与人眼感知。另外,实验发现VggNet结构作为特征提取网络,对图像质量更为敏感,更容易对相似图像进行区分评价。3)提出并实现基于视频预测的自监督操作规划算法。以视频预测模块为核心,通过预测人为指定的任务像素点分布变化,优化目标距离损失函数选择出最优的采样动作执行规划。实验结果验证了自监督规划算法的有效性,可以完成机械臂对物体的推移旋转交互,同时也证明了视频预测模型的有效性。