David Silver 是AlphaGo的操刀者,一直从事Go的AI研究。
.silver/web/Publications.html
从2007年David Silver与S.Gelly 合作写的《Combining Online and Offline Learningin UCT》,ICML2017 时间大浪淘沙奖(10年沉淀之精华)在UCT基础上增加了offline learning,提出了在将在线学习与离线棋谱的学习结合起来,RL里分为决策网络(Policy network,下一步棋子放到哪个点)、价值网络(value network,当前选择到最后是赢的记为1,输为0,反向传到到当前决策所得的值,因为都有一定的概率所有当前的值一般是0-1之间的概率值)。在这篇论文中Offline learning提到“MCTS + RAVE + Simple Value Function + Rollouts with custom play ”,主要创新点是将棋谱引入到离线学习得到下一步&#x
本文发布于:2024-02-01 18:15:54,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170678255538539.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |