大发快乐8APP下载_大发快乐8APP官方 - 大发快乐8APP下载,大发快乐8APP官方是新浪网最重要的频道之一,24小时滚动报道国内、国际及社会新闻。每日编发新闻数以万计。

AI学习笔记——Sarsa算法

  • 时间:
  • 浏览:0

上一篇文章介绍了强化学习中的Q-Learning算法,这篇文章介绍十几条 与Q-Learning十分这类的算法——Sarsa算法。

至于A是十几条 ,全部取决于机器人实际上选者的哪十几条 Action。机器人有90%的概率会选者Q值最大的Action(A2),还有10%的概率会随机选者十几条 Action。

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言可能访问我的Steemit主页

Lambda(λ)这些 衰减系数的引入,很多 为了出理 这些 问提的。与γ用来衰减未来预期Q的值一样,λ是当机器人获得宝藏完后 ,在更新Q表的完后 ,给机器人十几条 回头看完后 走过的路程的可能。为宜,机器人每走一步就会在地上插一杆旗子,而且 机器人每走一步旗子就会变小这些 。

Sarsa-lambda 的全部算法在这里:

注意,该算法与Sarsa 算法不同的地方很多 多乘了十几条 E(s, a) (Eligibility Trace"不可或缺性值"),而这些 E(s, a)又同时受γ和λ调控。而且 在更新Q表的完后 ,不仅仅是更新十几条 Q(S,A),很多 整个Q表所有的Q值都被更新了。

Q learning 通过Max的函数,老是在寻找能最快获得宝藏的道路,很多他比较勇敢。而Sarsa 却相对谨慎。

在Q Learning 算法中,当机器人发生S0的状态时,它的目标Q值是:

R(S1) + γ*maxa Q(S1,a)。此时他还在S0的位置上,而且 可能在计算S1上的最大Q值了。而且 此时它并这麼行动,很多 有的是在S1采取Q值最大Q(S1, A2)的行动。可能亲戚亲戚大伙儿提到,它还有10%的概率随机选者这些 的行动 (ε贪婪法律办法(ε -Greedy method))。

在Sarsa算法中,机器人的目标是

除了其目标Q值与Q learning 有所不同之外,这些 的有的是一模一样的。

首先回顾一下Q表如下

Q learning 和 Sarsa有的是单步更新的算法。单步跟新的算法缺点很多 在这麼找到宝藏完后 ,机器人在原地打转的哪些地方地方行动也被记录在案,并更新了Q表,即便哪些地方地方行动有的是这麼意义的。

R(S1) + γ*Q(S1,A)

Q(S0,A2) = Q(S0,A2) + α[R(S1) + γ*maxa Q(S1,a)-Q(S0,A2)]

很多Sarsa是在线学习(On Policy)的算法,可能他是在行动中学习的,使用了两次greedy法律办法来选者出了Q(S,A)和q(S',A')。而Q learning离线学习(Off Policy)的算法,QLearning选者Q(S,A)用了greedy法律办法,而计算A(S',A')时用的是max法律办法,而真正选者的完后 又不有的是选者max的行动。

还是同样的例子,红色机器人在4x4的迷宫中寻找黄色的宝藏。找到宝藏,可能的到+1的奖励,可能掉进黑色陷阱就回的到-1的奖励(惩罚)。

很多,Sarsa的算法是原本的。