价值神经网络在计算机围棋的优化研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:wl349682847
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于人工智能来说,棋类由于其巨大的复杂度一直是最具有挑战的游戏。围棋自从被创造出来,已经有数千年的历史了,在19路围棋中,即棋盘是由19*19个纵横交叉点组成的,每个交叉点都有黑白空三种不同的状态,则博弈树的复杂度在10的300次方左右,其天文数字远远的超过了宇宙中原子的个数。在象棋与国际象棋被计算机用穷举加上搜索的方法战胜了世界上顶级的棋手后,围棋成为了人工智能最想要征服的游戏。但是,传统的计算机围棋程序面对职业围棋棋手时仍然被让3到4子,在2015年国际学术界普遍认为解决围棋问题至少需要10年到20年的时间。但是,2016年3月,DeepMind团队的人工智能程序AlphaGo以4比1的成绩战胜了韩国棋手世界围棋冠军李世乭九段,引起了围棋界以及人工智能界的广泛关注,这对于计算机围棋来说具有跨时代的意义,AlphaGo所使用的深度学习技术也成为人们关注和讨论的热点。AlphaGo围棋程序程序通过决策与评估两个大脑的组合进行围棋的对弈,策略大脑对当前盘面进行下一步棋的选择,评估大脑对当前的盘面进行大局观的评价。本文主要研究AlphaGo的价值神经网络的设计与实现,通过从围棋数据集的制作,到价值神经网络模型的复现,从网络训练过程中的算法优化,到实现一个36层深度残差价值神经网络,最后进行大规模分布式的神经网络的训练,并训练出更为精确的价值神经网络。本文研究的目的在于设计出一个更为精确的价值神经网络,该网络可以准确的预测出当前盘面的黑子与白子的胜率,具有很好的大局观,从而可以提升计算机围棋的水平,同时价值神经网络的工作模式可以应用解决生活中的估值问题。本文相较于AlphaGo的价值神经网络在数据集制作,网络模型的构建和大规模分布式训练方面都有较大的改进,从而提升了估值的准确性。
其他文献
提出了一种改进的蜜蜂进化型遗传算法。在该算法中,通过分析随机种群规模对算法收敛性能的影响,可以发现在算法的搜索过程中,对随机种群规模的需求是随群体状态的演变而动态
在急性胰腺炎(AP)病因分型中,高甘油三酯血症性胰腺炎(HTGP)以往被认为是少见的临床类型,约为4%-7%。近年来高甘油三酯血症(HTG)在急性胰腺炎病因构成比中上升至第3位,约为12.6%,成为继胆源
全站仪属于计量设备,按我国的计量法规定,必须进行周期检定以保证其计量性能正确、量值传递可靠。国标JJG 703-2003光电测距仪检定规程和JJG 100-2003全站型电子速测仪检定规