李宏毅机器学习2016 第二十四讲 深度增强学习

阅读: 评论:0

李宏毅机器学习2016 第二十四讲 深度增强学习

李宏毅机器学习2016 第二十四讲 深度增强学习

视频链接:李宏毅机器学习(2016)_演讲•公开课_科技_bilibili_哔哩哔哩

课程资源:Hung-yi Lee

课程相关PPT已经打包命名好了:链接: 密码:77u5


我的第二十三讲笔记:李宏毅机器学习2016 第二十三讲 集成方法


Deep Reinforcement Learning


本章主要介绍了深度增强学习的原理及主要方法。


1.深度增强学习(Deep Reinforcement Learning)

Deep Reinforcement Learning: AI = RL + DL。增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。也就是说增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。


对比增强学习和监督学习:

1. 增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。

2. 延迟回报,增强学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。


应用有很多:


2.Outline



3.Policy-based Approach Learning an Actor

主要有三步:

①训练一个神经网络作为Actor;


②定义衡量函数好坏的标准;



③选择最优函数。


4.Value-based Approach Learning a critic

A critic不会决定行为,给定一个actor,,它评估actor的好坏。A critic是一个它评价的actor的函数,函数是由神经网络表示的。


有三种类别的critics。




5.Actor-Critic



6.总结

这章主要讲解了深度增强学习(Deep Reinforcement Learning)中的Policy-based Approach Learning an Actor、alue-based Approach Learning a critic以及Actor-Critic。


7.写在最后

持续关注了我的朋友们都知道,正如我第一讲所说本人于2017年12月5日开始学习机器学习课程,在12月7日学习完第三讲之后,就开始了紧张的期末考试复习与考试阶段,因此导致自己在一段时间内都没有进行本课程的学习。考完后,在2018年1月15日,又接着开始第四讲的学习,今天是2018年1月21日。前后总共历时十天的时间。所以我的实践表明,你只需要十天的时间就能完整的学习完整个课程,而且我还花了不少时间精力更新自己的学习笔记。

很高兴终于完成了整个课程的学习,2018年的第一个小目标完成了!学习的一路上确实会出现偷懒的心态,但是想着自己最后能够很自豪的说完成整个课程的学习,还是会充满动力的。有时候,带着幻想去做一件事也是很美妙的哦。接下来,我要朝着自己的下一个小目标出发了!

生命不息,奋斗不止。


本文发布于:2024-01-31 04:14:11,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170664565425375.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:第二十四   深度   机器   李宏毅
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23