強化学習の価値関数と方策関数をやさしく解説！

強化学習は、エージェントが環境と相互作用しながら、「どうすれば最大限の報酬を得られるか」を学ぶ技術です。その中でも「価値関数」と「方策関数」は、強化学習の重要な要素です。本記事では、これらの概念を具体例を交えながら解説します！

1. 価値関数とは？

価値関数は、ある状態や行動が「どれくらい良いか」を評価するものです。主に次の2種類があります。

状態価値関数 \( V(s) \) は、「ある状態 \( s \) にいるときに、その状態から始まる将来の割引報酬の期待値」を表します。

\[
V(s) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t R_t \mid s_0 = s \right]
\]

行動価値関数 \( Q(s, a) \) は、「ある状態 \( s \) で、特定の行動 \( a \) を取った後に始まる将来の割引報酬の期待値」を表します。

\[
Q(s, a) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t R_t \mid s_0 = s, a_0 = a \right]
\]

方策関数は、エージェントが「次にどの行動を選ぶか」を決めるルールです。これには以下の2種類があります。

確率的方策では、エージェントが行動を選ぶ確率が定義されます。

\[
\pi(a \mid s) =
\begin{cases}
0.7 & \text{（右に行く確率）} \\
0.2 & \text{（上に行く確率）} \\
0.1 & \text{（左に行く確率）}
\end{cases}
\]

決定論的方策では、状態 \( s \) に対して常に特定の行動 \( a \) を選びます。

\[
\pi(s) = a
\]

例えば、ロボットがある状態 \( s \) において必ず「右に移動する」という行動を取る場合、

\[
\pi(s) = \text{右}
\]

割引率 \( \gamma \) は「未来の報酬をどれくらい重要視するか」を調整します。

Q学習：行動価値関数 \( Q(s, a) \) を直接更新するアルゴリズム。
\[
Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R + \gamma \max_a Q(s’, a) – Q(s, a) \right]
\]

[1] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
[2] Silver, D., et al. (2014). “Deterministic Policy Gradient Algorithms.” In ICML.
[3] Mnih, V., et al. (2016). “Asynchronous Methods for Deep Reinforcement Learning.” In International Conference on Machine Learning (ICML).
[4] Lillicrap, T. P., et al. (2016). “Continuous control with deep reinforcement learning.” In International Conference on Learning Representations (ICLR).
[5] Mnih, V., et al. (2015). “Human-level control through deep reinforcement learning.” In Nature.