ベルマン方程式と価値関数、方策関数の関係

強化学習の理論を理解するためには、いくつかの基本的な概念を押さえておくことが大切です。中でも重要なのが、ベルマン方程式、価値関数、そして方策関数です。これらは、エージェントがどのようにして最適な行動を選択し、報酬を最大化していくのかを数学的に示すものです。本記事では、これらの概念とその関係を具体的な例を交えながら、数式を使ってわかりやすく解説します。

1. 価値関数（V関数）とは？

価値関数 \( V(s) \) は、ある状態 \( s \) において、そこから得られる報酬の期待値を示します。つまり、状態 \( s \) がどれだけ「良い」状態なのかを評価する指標です。

具体例： 迷路ゲームを考えてみましょう。プレイヤー（エージェント）は迷路の中を移動しながら、ゴールに到達することを目指します。各地点（状態）には「価値」があり、ゴールに近いほど価値が高くなります。例えば、ゴールに隣接するマスの価値は高く、壁に囲まれた行き止まりのマスの価値は低いです。

\[
V(s) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t) \mid s_0 = s \right]
\]

\( V(s) \)：状態 \( s \) の価値
\( R(s_t, a_t) \)：時刻 \( t \) における状態 \( s_t \) と行動 \( a_t \) に対する報酬
\( \gamma \)：報酬の割引率（将来の報酬をどれだけ重視するか）

2. 方策関数（π関数）とは？

方策関数 \( \pi(a|s) \) は、状態 \( s \) において行動 \( a \) を選ぶ確率を示します。

具体例： 例えば、ロボット掃除機がリビング（状態）にいるとします。可能な行動は「前進」「右折」「左折」「停止」です。ある掃除機の方策では、「前進」を選ぶ確率が 70%、「右折」が 15%、「左折」が 10%、「停止」が 5% という設定になっているとします。

\[
\pi(\text{前進} | \text{リビング}) = 0.7, \quad \pi(\text{右折} | \text{リビング}) = 0.15
\]

このように、方策関数は、エージェントが特定の状態でどの行動をどの確率で取るかを定義するものです。

3. ベルマン方程式とは？

ベルマン方程式は、最適価値関数を求めるための再帰的な方程式です。

具体例： 迷路ゲームのプレイヤーが最も良いルートを選ぶには、「このマスに来たら、どの方向に進むのが最善か？」を考える必要があります。ゴールに近づく行動をとるほど、将来の報酬が高くなります。ベルマン方程式は、「次の状態の価値」と「現在の報酬」を組み合わせた数式です。

\[
V^*(s) = \max_{a} \left( R(s, a) + \gamma \sum_{s’} P(s’|s, a) V^*(s’) \right)
\]

\( V^*(s) \)：状態 \( s \) の最適価値関数
\( R(s, a) \)：状態 \( s \) で行動 \( a \) を取ったときに得られる報酬

4. 価値関数と方策関数の関係

価値関数と方策関数は密接に関連しています。最適な価値関数 \( V^*(s) \) を求めるためには、最適な行動（方策）を知る必要があります。

\[
\pi^*(a|s) = \arg \max_a \left( R(s, a) + \gamma \sum_{s’} P(s’|s, a) V^*(s’) \right)
\]

5. まとめ

価値関数: 状態から得られる報酬の期待値を示す。
方策関数: 状態に応じて行動を選ぶ指針を示す。
ベルマン方程式: 最適な価値関数を求めるための再帰的な方程式。

参考文献

[1] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
[2] Bellman, R. (1957). Dynamic programming. Princeton university press.
[3] Puterman, M. L. (2014). Markov decision processes. John Wiley & Sons.
[4] Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine learning.

目次