【G 検定】強化学習

G 検定シラバス 2021 に基づき,強化学習の基本的な理論を理解する。

強化学習は環境から状態を受け取り,そこからより高い報酬を受け取れるような行動を選択するように学習していくものであった。強化学習では,状態・行動・報酬のやりとりを 1 時刻ごとに進めて考えていく。時刻 O からスタートして,ある程度進めたときの時刻を t とする。時刻 t における状態を st,行動を at,報酬を rt と表すとすると,強化学習の枠組みは以下のようになる。

  1. エージェントは時刻 t において環境から状態 st を受け取る
  2. エージェントは観測した状態 st から行動 at を選択して実行する
  3. 環境が新しい状態 st+1 に遷移する
  4. エージェントは遷移に応じた報酬 rt+1 を獲得
  5. 得られた報酬をもとに,選択した行動の良し悪しを学習する
  6. ステップ 1. へ

このように表すことで,強化学習の目的を「将来にわたって獲得できる累積報酬を最大化する」すなわち,下式を最大化することと考えられるようになる。

Rt = rt+1 + γrt+2 + γ2rt+3 + ・・・

ここで,式中の γ は割引率 (discount rate) と呼ばれるハイパーパラメータである。

ここまでに出てきた表現を用いると,強化学習は「累積報酬 Rt を最大化するような状態 st と行動 at の対応関係を求めること」になる。

バンディットアルゴリズム

強化学習では将来の累積報酬が最大となるような行動を求める必要があるが,一連の行動の組み合わせはそれこそ無限にあるので,どこまで行動の選択肢を考えるべきかが大きな課題となる。

ここで用いられる考えが活用 (exploitation) と探索 (exploration) である。それぞれ,活用とは「現在知っている情報の中から報酬が最大となるような行動を選ぶ」こと,探索とは「現在知っている情報以外の情報を獲得するために行動を選ぶ」ことを表す。

バッディットアルゴリズム (bandit algorithm) はまさしく活用と探索のバランスを取りましょう,というもので,ε-greedy 方策 (epsilon-greedy policy) や UCB 方策 (upper-confidence bound policy) などが具体的な手法である。

マルコフ決定過程モデル

強化学習ではエージェントの行動 at によって,状態が st から st+1 に遷移すると述べた。ここで,環境に対してマルコフ性 (Markov property) と呼ばれる過程を置いている。マルコフ性とは,「現在の状態 st から将来の状態 st+1 に遷移する確率は,現在の状態 st にのみ依存し,それより過去の状態には一切依存しない」という性質のことを指す。

強化学習では環境に対してマルコフ性を仮定することによって,現在の状態 st および行動 at が与えられれば,将来の状態 st+1 に遷移する確率が求まるようなモデル化を可能にしている。時刻 t から t+1 の値を求めているので,逐次的に計算を繰り返すことにより,現在の値には過去の情報が全て織り込まれていることになる。また,一般に状態遷移にマルコフ性を仮定したモデルのことをマルコフ決定過程 (Markov decision process) と言う。

価値関数

最適な方策を直接求める代わりに,状態や行動の「価値」を設定し,その価値が最大となるように学習をするアプローチが考えられる。

具体的には,それぞれの価値を表す関数である状態価値関数 (state-value function) および行動価値関数 (action-value function) を導入する。

これらのうち大事なのが行動価値関数で,単純に「価値関数」と言った場合,行動価値関数を指す。また,式の文字から価値関数のことを Q 値 (Q-value) とも呼び,この Q 値を最適化できれば,適切な行動が選択できるようになる,というわけである。Q 値を最適化する手法には Q 学習 (Q-learning) や SARSA がある。

方策勾配

直接最適な方策を見つけ出そうとするアプローチも存在する。方策勾配法 (policy gradient method) と呼ばれるその手法は,方策をあるパラメータで表される関数とし,(累積報酬の期待値が最大となるように)そのパラメータを学習することで,直接方策を学習していくアプローチである。

方策勾配法は,ロボット制御など,特に行動の選択肢が大量にあるような課題で用いられる。

方策勾配法ベースの具体的な手法のひとつに REINFORCE というものがあり,AlphaGo にも活用されている。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です