HSD算法

阅读: 评论:0

HSD算法

HSD算法

HSD

  • 所提方法是什么

相关资料

  1. 论文链接:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Hierarchical
  2. 代码地址:
    算法地址

所提方法是什么

  提出了一种完全合作的分层MARL方法,算法为CTDE框架。智能体学会利用内在和外在奖励结合的潜在技能进行合作。假设所有的智能体都有相同的观测空间和动作空间;每个智能体根据个人的观测采取个人的动作。定义了带有技能发现的分层MARL的目标,并描述为解决优化问题的方法。

假设两层MARL,有 N N N个智能体, z n ∈ Z z^{n} in mathcal{Z} zn∈Z表示隐藏变量,每一个对应一个技能。 Z mathcal{Z} Z用one-hot编码,将 Z mathcal{Z} Z推广为一个学习的连续嵌入空间(不明白), Z mathcal{Z} Z为上级策略 μ n : O ↦ Z , ∀ n ∈ [ N ] mu^{n}: O mapstomathcal{Z}, forall n in[N] μn:O↦Z,∀n∈[N]的动作空间。 μ n mu^{n} μn为智能体局部观测到技能的映射。每次 z n z^{n} zn的选择都持续进行 t s e g t_{mathrm{seg}} tseg​时间步长,令 T = K t s e g T=K t_{mathrm{seg}} T=Ktseg​表示一个episode,一共有K个时间点进行上层技能的选择。以选定的潜在技能为条件,并给予智能体局部观测,然后下层的政策 π n : O × Z ↦ A pi^{n}: O times mathcal{Z} mapsto mathcal{A} πn:O×Z↦A输出一个原始动作。每个 z n ∈ Z z^{n} in mathcal{Z} zn∈Z,和隐藏条件 π n ( ⋅ ; z n ) pi^{n}left(cdot ; z^{n}right) πn(⋅;zn)是一个技能。在上层, μ boldsymbol{mu} μ学会选择技能来优化外部团队奖励函数 R : S × { A } n = 1 N ↦ R R: mathcal{S} times{mathcal{A}}_{n=1}^{N} mapsto mathbb{R} R:S×{A}n=1N​↦R。在下层,通过优化下层奖励 R L R_{L} RL​, { π n } n = 1 N left{pi^{n}right}_{n=1}^{N} {πn}n=1N​学习选择原始动作来产生有用和可解码的动作。结合这两个层次的学习,将分层MARL视为一个双层优化问题:
max ⁡ μ , π E z ∼ μ , P [ E s t , a t ∼ π , P [ ∑ t = 1 T γ t R ( s t , a t ) ] ] π n ∈ argmax ⁡ π E z ∼ μ , P [ ∑ k = 1 K E τ k n ∼ π , P [ R L ( z k n , τ k n ) ] ] , ∀ n ∈ [ N ] begin{array}{l} max _{mu, pi} mathbb{E}_{mathbf{z} sim mu, P}left[mathbb{E}_{s_{t}, a_{t} sim pi, P}left[sum_{t=1}^{T} gamma^{t} Rleft(s_{t}, mathbf{a}_{t}right)right]right] \ pi^{n} in underset{pi}{operatorname{argmax}} mathbb{E}_{mathbf{z} sim mu, P}left[sum_{k=1}^{K} mathbb{E}_{tau_{k}^{n} sim pi, P}left[R_{L}left(z_{k}^{n}, tau_{k}^{n}right)right]right], forall n in[N] end{array} maxμ,π​Ez∼μ,P​[Est​,at​∼π,P​[∑t=1T​γtR(st​,at​)]]πn∈πargmax​Ez∼μ,P​[∑k=1K​Eτkn​∼π,P​[RL​(zkn​,τkn​)]],∀n∈[N]​
其中 R L ( z n , τ n ) : = ∑ ( s t , a t ) ∈ τ n R L ( z n , s t , a t ) R_{L}left(z^{n}, tau^{n}right):=sum_{left(s_{t}, a_{t}right) in tau^{n}} R_{L}left(z^{n}, s_{t}, a_{t}right) RL​(zn,τn):=∑(st​,at​)∈τn​RL​(zn,st​,at​)表示智能体n沿轨迹获得的下层奖励的总和。

本文发布于:2024-02-02 09:04:29,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170683586842755.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:算法   HSD
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23