Markov Decision Processes

Basics

  • 有的地方写作
  • : state space, : initial state
    • 在代码就是s0 = mdp.reset()
  • : action space, applicable in each state 当前状态 下允许的动作
  • 转移概率(trasition probabilities),对于
    • 也可以写作:
    • 是概率化的(即 probabilistic state model),而非确定性的(deterministic)的
    • 如果是确定性的,那就是一个经典的序列决策问题了
  • : reward function,可以为正(奖励);也可以为负(惩罚)
    • 设计一个 MDP 环境,很大一部分是在设计 reward function
    • : 确定性的情况下
    • : 是在不确定的情况下产生的奖励,就好像抛硬币,不知道下一次出现的是正面还是反面,这时就需要用概率分布来计算了
  • : discount factor
    • 一般又把这种 MDP 称之为 discounted reward MDP
  • MDP 的求解是一个序列决策问题(sequence decision making)

Probabilistic State Model

  • 抛硬币:正面朝上的概率是,反面朝上的概率也是
  • 掷 2 个骰子计算点数和:和为 2 的概率是,和为 2 的概率是,和为 4 的概率是,和为 12 的概率是
  • 机械臂去拿一个东西:成功的概率是,失败的概率是
  • 打开一个网页:404 的概率 1%,200 的概率 99%

Discounted Reward

  • 如果 agent 在与环境交互中得到一些列的 reward ,则有

    • 递归定义,体现子问题的结构(可以使用动态规划)
    • 的价值通过 折到现在
    • 因为要最大化 discounted reward,所以 会隐式地得到一个更短路径
      • 另外一个角度是:aciton 会有 cost

Grid World


Markov Decision Processes
https://silhouettesforyou.github.io/2024/07/30/990e4273260f/
Author
Xiaoming
Posted on
July 30, 2024
Licensed under