強化学習は、エージェントが環境と相互作用しながら、「どうすれば最大限の報酬を得られるか」を学ぶ技術です。その中でも「価値関数」と「方策関数」は、強化学習の重要な要素です。本記事では、これらの概念を具体例を交えながら解説します!
目次
1. 価値関数とは?
価値関数は、ある状態や行動が「どれくらい良いか」を評価するものです。主に次の2種類があります。
1.1 状態価値関数 \( V(s) \)
状態価値関数 \( V(s) \) は、「ある状態 \( s \) にいるときに、その状態から始まる将来の割引報酬の期待値」を表します。
\[
V(s) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t R_t \mid s_0 = s \right]
\]
- \( R_t \):時刻 \( t \) の報酬。
- \( \gamma \):割引率(将来の報酬をどれくらい重要視するかを表すパラメータ)。
1.2 行動価値関数 \( Q(s, a) \)
行動価値関数 \( Q(s, a) \) は、「ある状態 \( s \) で、特定の行動 \( a \) を取った後に始まる将来の割引報酬の期待値」を表します。
\[
Q(s, a) = \mathbb{E} \left[ \sum_{t=0}^\infty \gamma^t R_t \mid s_0 = s, a_0 = a \right]
\]
1.3 状態価値関数と行動価値関数の違い
- \( V(s) \) は「その状態そのものの良さ」を評価します。
- \( Q(s, a) \) は「その状態である行動を選んだ場合の良さ」を評価します。
2. 方策関数とは?
方策関数は、エージェントが「次にどの行動を選ぶか」を決めるルールです。これには以下の2種類があります。
2.1 確率的方策
確率的方策では、エージェントが行動を選ぶ確率が定義されます。
\[
\pi(a \mid s) =
\begin{cases}
0.7 & \text{(右に行く確率)} \\
0.2 & \text{(上に行く確率)} \\
0.1 & \text{(左に行く確率)}
\end{cases}
\]
2.2 決定論的方策
決定論的方策では、状態 \( s \) に対して常に特定の行動 \( a \) を選びます。
\[
\pi(s) = a
\]
例えば、ロボットがある状態 \( s \) において必ず「右に移動する」という行動を取る場合、
\[
\pi(s) = \text{右}
\]
3. 割引率 \( \gamma \) の役割
割引率 \( \gamma \) は「未来の報酬をどれくらい重要視するか」を調整します。
- \( \gamma \) が 1 に近い:未来の報酬を重視する(長期的な利益を考える)。
- \( \gamma \) が 0 に近い:現在の報酬を重視する(目先の利益を考える)。
4. 価値関数と方策関数の更新方法
4.1 価値関数に基づく手法
- Q学習:行動価値関数 \( Q(s, a) \) を直接更新するアルゴリズム。
\[
Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R + \gamma \max_a Q(s’, a) – Q(s, a) \right]
\]
5. 強化学習の応用例
- ゲームAI:囲碁(AlphaGo)やチェス、Atariゲームの自動プレイ。
- ロボット制御:自律ロボットの歩行やドローンの飛行制御。
- 推薦システム:ユーザーの好みに応じた商品やコンテンツを推薦。
- 交通最適化:信号機制御や車両のルート最適化。
6. まとめ
- 価値関数は「状態や行動がどれくらい良いか」を評価するもの。
- 方策関数は「次にどの行動を選ぶか」を決めるもの。
- 強化学習では、これらをうまく組み合わせてエージェントを学習させます。
参考文献
- [1] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
- [2] Silver, D., et al. (2014). “Deterministic Policy Gradient Algorithms.” In ICML.
- [3] Mnih, V., et al. (2016). “Asynchronous Methods for Deep Reinforcement Learning.” In International Conference on Machine Learning (ICML).
- [4] Lillicrap, T. P., et al. (2016). “Continuous control with deep reinforcement learning.” In International Conference on Learning Representations (ICLR).
- [5] Mnih, V., et al. (2015). “Human-level control through deep reinforcement learning.” In Nature.