強化学習は、エージェントが環境と相互作用しながら、「どうすれば最大限の報酬を得られるか」を学ぶ技術です。その中でも「価値関数」と「方策関数」は、強化学習の重要な要素です。本記事では、これらの概念を具体例を交えながら解説します!


目次


1. 価値関数とは?

価値関数は、ある状態や行動が「どれくらい良いか」を評価するものです。主に次の2種類があります。

1.1 状態価値関数 \( V(s) \)

状態価値関数 \( V(s) \) は、「ある状態 \( s \) にいるときに、その状態から始まる将来の割引報酬の期待値」を表します。

\[
V(s) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t R_t \mid s_0 = s \right]
\]

  • \( R_t \):時刻 \( t \) の報酬。
  • \( \gamma \):割引率(将来の報酬をどれくらい重要視するかを表すパラメータ)。

1.2 行動価値関数 \( Q(s, a) \)

行動価値関数 \( Q(s, a) \) は、「ある状態 \( s \) で、特定の行動 \( a \) を取った後に始まる将来の割引報酬の期待値」を表します。

\[
Q(s, a) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t R_t \mid s_0 = s, a_0 = a \right]
\]

1.3 状態価値関数と行動価値関数の違い

  • \( V(s) \) は「その状態そのものの良さ」を評価します。
  • \( Q(s, a) \) は「その状態である行動を選んだ場合の良さ」を評価します。

2. 方策関数とは?

方策関数は、エージェントが「次にどの行動を選ぶか」を決めるルールです。これには以下の2種類があります。

2.1 確率的方策

確率的方策では、エージェントが行動を選ぶ確率が定義されます。

\[
\pi(a \mid s) =
\begin{cases}
0.7 & \text{(右に行く確率)} \\
0.2 & \text{(上に行く確率)} \\
0.1 & \text{(左に行く確率)}
\end{cases}
\]

2.2 決定論的方策

決定論的方策では、状態 \( s \) に対して常に特定の行動 \( a \) を選びます。

\[
\pi(s) = a
\]

例えば、ロボットがある状態 \( s \) において必ず「右に移動する」という行動を取る場合、

\[
\pi(s) = \text{右}
\]


3. 割引率 \( \gamma \) の役割

割引率 \( \gamma \) は「未来の報酬をどれくらい重要視するか」を調整します。

  • \( \gamma \) が 1 に近い:未来の報酬を重視する(長期的な利益を考える)。
  • \( \gamma \) が 0 に近い:現在の報酬を重視する(目先の利益を考える)。

4. 価値関数と方策関数の更新方法

4.1 価値関数に基づく手法

  • Q学習:行動価値関数 \( Q(s, a) \) を直接更新するアルゴリズム。

    \[
    Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R + \gamma \max_a Q(s’, a) – Q(s, a) \right]
    \]


5. 強化学習の応用例

  1. ゲームAI:囲碁(AlphaGo)やチェス、Atariゲームの自動プレイ。
  2. ロボット制御:自律ロボットの歩行やドローンの飛行制御。
  3. 推薦システム:ユーザーの好みに応じた商品やコンテンツを推薦。
  4. 交通最適化:信号機制御や車両のルート最適化。

6. まとめ

  • 価値関数は「状態や行動がどれくらい良いか」を評価するもの。
  • 方策関数は「次にどの行動を選ぶか」を決めるもの。
  • 強化学習では、これらをうまく組み合わせてエージェントを学習させます。

参考文献

  • [1] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
  • [2] Silver, D., et al. (2014). “Deterministic Policy Gradient Algorithms.” In ICML.
  • [3] Mnih, V., et al. (2016). “Asynchronous Methods for Deep Reinforcement Learning.” In International Conference on Machine Learning (ICML).
  • [4] Lillicrap, T. P., et al. (2016). “Continuous control with deep reinforcement learning.” In International Conference on Learning Representations (ICLR).
  • [5] Mnih, V., et al. (2015). “Human-level control through deep reinforcement learning.” In Nature.

投稿者 agentpost