AI代理学习如何行驶,如何跨越障碍物
编辑:三石
【新智元导读】近年来,深度学习受到全球关注。成就最为突出的便是深度强化学习,例如Alpha Go等。本文作者Artem Oppermann基于此,对深度强化学习训练AI智能体所需要的数学背景知识——马尔科夫链做了深入浅出的介绍。
近年来,世界各地的研究者和媒体都在关注深度学习。 深度学习最突出的是,如下图所示,从Googlealphago击败世界顶级棋手开始,到DeepMind的AI特工自学行走、奔跑、躲避障碍物为止,深度学习33
图2 ) AI代理学习如何行驶,如何跨越障碍物
图3 ) AI代理学习如何行驶,如何跨越障碍物
也有AI特工打破了2014年以来人类玩家在雅达利游戏中的最高纪录。
图4 ) AI智能体学习雅达利游戏的玩法
而且,所有这些最令人惊讶的是,在这些AI代理中,没有一个是人类明确编程或指导如何执行这些任务的。 他们只靠深度学习和强化学习的力量自学!
作者Artem Oppermann在Medium开设了《自学AI智能体》的“连载”课程。 本文在其第一篇文章中,详细介绍了AI智能体自学完成任务过程背后需要了解的数学知识——马尔可夫链。
在Nutshell上进行深度学习
深度学习可以概括为构建算法或AI代理)并直接从与环境的交互中学习。
图5 :深度强化学习的示意图
环境可以是现实世界、计算机游戏、模拟、甚至围棋、象棋等棋盘游戏。 像人类一样,人工智能主体不是从明确的教导中学习,而是从其行动的结果中学习。
在深度强化学习中,主体用神经网络表示。 神经网络与环境直接相互作用。 观察环境的当前状态,根据当前状态和过去的经验决定采取什么样的行动例如向左移动、向右移动等)。 根据采取的行动,AI代理将获得报酬Reward )。 报酬的数量决定了解决所给问题时采取的行动的质量例如,学习走路的方法)。 代理人的目标是学习在任何特定情况下行动,以使积累的报酬随时间最大化。
马尔可夫决策过程
马尔可夫决策过程MDP )是离散时间随机控制过程。
MDP是迄今为止我们对AI代理复杂环境进行模型化的最佳方法。 智能体需要解答的各个问题可以看作是S1、S2、S3、……Sn 状态也可以是围棋/象棋的棋局配置)的序列。 代理人采取行动,从一个状态移动到另一个状态。
马尔可夫过程
马尔可夫过程是描述可能的状态序列的随机模型,现在的状态只依赖于以前的状态。 这也被称为马尔可夫性〔数1〕。 对于强化学习,这意味着AI主体的下一个状态只依赖于最后一个状态,而不是以前的所有状态。
数学式1 )马尔可夫性
马尔可夫过程是一个随机过程。 这意味着从现在的状态s向下一个状态s ‘的迁移“只以一定的概率发生”公式2 )。 在马尔可夫过程中,被告知向左移动的代理人只有一定概率向左移动。 例如,0.998。 如果概率很小,代理的最终位置由环境决定。
式2 )从状态s向状态s ‘的迁移概率
PSS’可以看作是定义从所有状态s到所有后续状态s’的转移概率的状态转移矩阵p的条目公式3 )。
公式3 )转移概率矩阵
马尔可夫奖励Reward )过程
马尔可夫过程为元组s、p、r。 在这里,r是代理人想在状态s 式4 )中获得的报酬。 这个过程的动机基于AI特工“需要达到一定的目标”的事实,例如,赢了国际象棋比赛,在某种状态游戏配置)下,赢比赛的概率比在其他状态下高。
8VtBpH6K0Vjf?from=pc”>
公式4:在状态s中期望获得奖励
总奖励Gt(公式5),它是智能体在所有状态序列中所获得的预期累积奖励。每个奖励都由所谓的折扣因子γ∈[0,1]加权。
公式5:所有状态的奖励总额
价值函数(Value Function)
另一个重要的概念是价值函数vs)中的一个。价值函数将一个值映射到每个状态s。状态s的值被定义为AI智能体在状态s中开始其进程时将得到的预期总奖励(公式6)。
公式6:价值函数,从状态s开始的期望返回值
价值函数可以分解为两个部分:
处于状态s时,智能体收到的即使奖励(immediate reward)R(t+1);
在状态s之后的下一个状态的折现值(discounted value)v(s(t+1));
公式7:价值函数的分解
ggdjr方程
马尔可夫奖励过程的ggdjr方程
分解后的值函数(公式8)也称为马尔可夫奖励过程的ggdjr方程。
该函数可以在节点图中可视化(图6),从状态s开始,得到值vs)。在状态s中,我们有特定的概率Pss ‘到下一个状态s’中结束。在这种特殊情况下,我们有两个可能的下一个状态为了获得值v(s),我们必须总结由概率Pss’加权的可能的下一个状态的值v(s’),并从状态s中添加直接奖励。 这就产生了公式9,如果我们在等式中执行期望算子E,那么这只不是公式8。
公式8:价值函数分解
图6:从s到s’的随机转变
公式9:执行期望算子E后的ggdjr方程
马尔可夫决策过程——定义
马尔可夫决策过程是一个有决策的马尔可夫奖励过程。
马尔可夫决策过程是马尔可夫奖励过程的决策。 马尔可夫决策过程由一组元组<S,A,P,R>描述,A是智能体可以在状态s中采取的一组有限的可能动作。 因此,现在处于状态s中的直接奖励也取决于智能体在这种状态下所采取的行动(公式10)。
公式10:期望奖励取决于状态s中的行为
策略
在这一点上,我们将讨论智能体如何决定在特定状态下必须采取哪些行动。 这由所谓的策略π(公式11)决定。 从数学角度讲,策略是对给定状态的所有行动的分配。 策略确定从状态s到智能体必须采取的操作a的映射。
公式11:策略作为从s到a的一个映射
该策略导致状态价值函数v(s)的新定义(公式12),我们现在将其定义为从状态s开始的预期返回,然后遵循策略π。
公式12:状态值函数
动作价值函数
除状态值函数之外的另一个重要功能是所谓的动作值函数q(s,a)(公式13)。 动作值函数是我们通过从状态s开始,采取行动a然后遵循策略π获得的预期回报。 请注意,对于状态s,q(s,a)可以采用多个值,因为智能体可以在状态s中执行多个操作。 Q(s,a)的计算是通过神经网络实现的。 给定状态作为输入,网络计算该状态下每个可能动作的质量作为标量(图7)。 更高的质量意味着在给定目标方面采取更好的行动。
图7:动作价值函数说明
公式13:动作价值函数
状态值函数v(s)可以分解为以下形式:
公式14:状态价值函数分解
同样的分解也适用于动作价值函数:
公式15:动作价值函数分解
在这一点上,我们讨论v(s)和q(s,a)如何相互关联。 这些函数之间的关系可以在图中再次可视化:
图8:v(s)和q(s,a)之间关系的可视化
在这个例子中,处于状态s允许我们采取两种可能的行动a,根据定义,在特定状态下采取特定的行动给了我们动作值q(s,a)。价值函数v(s)是概率q(s,a)的和,由在状态s中采取行动a的概率来赋予权重。
公式16:状态值函数是动作值的加权和
现在让我们考虑图9中的相反情况。二叉树的根现在是一个我们选择采取特定动作的状态。 请记住,马尔可夫过程是随机的。 采取行动并不意味着你将以100%的确定性结束你想要的目标。 严格地说,你必须考虑在采取行动后最终进入其他状态的概率。 在采取行动后的这种特殊情况下,你可以最终处于两个不同的下一个状态s’:
图9:vs)与qs,a)关系的可视化
为了获得动作值,你必须用概率加权的折现状态值来最终得到所有可能的状态在本例中仅为2),并加上即时奖励:
公式17:qs,a)和vs)之间的关系
既然我们知道了这些函数之间的关系,我们就可以将公式16中的vs)插入公式17中的qs,a)中。我们得到公式18,可以看出当前的qs,a)和下一个动作值qs,a)之间存在递归关系。
公式18:动作值函数的递归性质
这种递归关系可以再次在二叉树中可视化(图10)。
图10:qs,a)递归行为的可视化
更多的优化策略以及ggdjr优化公式详见原文链接:
https://towardsdatascience.com/self-learning-ai-agents-part-i-markov-decision-processes-baf6b8fc4c5f
新智元AI WORLD 2018
世界人工智能峰会全程回顾
新智元于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,邀请机器学习教父、CMU教授 Tom Mitchell,thdbb,周志华,ssdwdm,brdyx等AI领袖一起关注机器智能与人类命运。
全程回顾新智元 AI World 2018 世界人工智能峰会盛况:
爱奇艺
上午:https://www.iqiyi.com/v_19rr54cusk.html
下午:https://www.iqiyi.com/v_19rr54hels.html
新浪:http://video.sina.com.cn/l/p/1724373.html
极速赛车五码稳赢技巧/p>
图7:动作价值函数说明
公式13:动作价值函数
状态值函数v(s)可以分解为以下形式:
公式14:状态价值函数分解
同样的分解也适用于动作价值函数:
公式15:动作价值函数分解
在这一点上,我们讨论v(s)和q(s,a)如何相互关联。 这些函数之间的关系可以在图中再次可视化:
图8:v(s)和q(s,a)之间关系的可视化
在这个例子中,处于状态s允许我们采取两种可能的行动a,根据定义,在特定状态下采取特定的行动给了我们动作值q(s,a)。价值函数v(s)是概率q(s,a)的和,由在状态s中采取行动a的概率来赋予权重。
公式16:状态值函数是动作值的加权和
现在让我们考虑图9中的相反情况。二叉树的根现在是一个我们选择采取特定动作的状态。 请记住,马尔可夫过程是随机的。 采取行动并不意味着你将以100%的确定性结束你想要的目标。 严格地说,你必须考虑在采取行动后最终进入其他状态的概率。 在采取行动后的这种特殊情况下,你可以最终处于两个不同的下一个状态s’:
图9:vs)与qs,a)关系的可视化
为了获得动作值,你必须用概率加权的折现状态值来最终得到所有可能的状态在本例中仅为2),并加上即时奖励:
公式17:qs,a)和vs)之间的关系
既然我们知道了这些函数之间的关系,我们就可以将公式16中的vs)插入公式17中的qs,a)中。我们得到公式18,可以看出当前的qs,a)和下一个动作值qs,a)之间存在递归关系。
公式18:动作值函数的递归性质
这种递归关系可以再次在二叉树中可视化(图10)。
图10:qs,a)递归行为的可视化
更多的优化策略以及ggdjr优化公式详见原文链接:
https://towardsdatascience.com/self-learning-ai-agents-part-i-markov-decision-processes-baf6b8fc4c5f
新智元AI WORLD 2018
世界人工智能峰会全程回顾
新智元于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,邀请机器学习教父、CMU教授 Tom Mitchell,thdbb,周志华,ssdwdm,brdyx等AI领袖一起关注机器智能与人类命运。
全程回顾新智元 AI World 2018 世界人工智能峰会盛况:
爱奇艺
上午:https://www.iqiyi.com/v_19rr54cusk.html
下午:https://www.iqiyi.com/v_19rr54hels.html
新浪:http://video.sina.com.cn/l/p/1724373.html