alphaGo的前世今生，并不那么玄乎

阅读：评论：0

alphaGo的前世今生，并不那么玄乎

David Silver 是AlphaGo的操刀者，一直从事Go的AI研究。

.silver/web/Publications.html

从2007年David Silver与S.Gelly 合作写的《Combining Online and Oﬄine Learningin UCT》，ICML2017 时间大浪淘沙奖（10年沉淀之精华）在UCT基础上增加了offline learning，提出了在将在线学习与离线棋谱的学习结合起来，RL里分为决策网络（Policy network，下一步棋子放到哪个点）、价值网络(value network，当前选择到最后是赢的记为1，输为0，反向传到到当前决策所得的值，因为都有一定的概率所有当前的值一般是0-1之间的概率值)。在这篇论文中Offline learning提到“MCTS + RAVE + Simple Value Function + Rollouts with custom play ”，主要创新点是将棋谱引入到离线学习得到下一步&#x

本文发布于:2024-02-01 18:15:54，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170678255538539.html

上一篇：苦逼的单身狗（玄乎的尺取大法）

下一篇：前端脚手架，听起来玄乎，实际呢？

标签：玄乎前世今生 alphaGo

留言与评论（共有 0 条评论）