強化学習
試行錯誤を通じて、報酬が最大になる行動を学習する機械学習の一分野
機械学習AI
「強化学習」の技術書を見る (48 冊) →強化学習とは
強化学習 (Reinforcement Learning) は、試行錯誤を通じて「どう行動すれば報酬が最大になるか」を学習する機械学習の一分野だ。あらかじめ正解を与えるのではなく、環境の中で行動し、その結果として得られる報酬や罰を手がかりに、よりよい行動方針を自ら獲得していく。動物が経験から学ぶ過程に似ている。
他の機械学習との違い
| 種類 | 学び方 |
|---|---|
| 教師あり学習 | 正解付きデータから学ぶ |
| 教師なし学習 | データの構造を自ら見つける |
| 強化学習 | 行動と報酬の試行錯誤から学ぶ |
教師あり学習が「正解を教わる」のに対し、強化学習は「やってみて、結果から学ぶ」点が本質的に異なる。
何に使われるか
強化学習は、囲碁や将棋などのゲームで人間を超える成果を上げて注目された。ほかにも、ロボットの動作制御、自動運転、レコメンド、資源配分の最適化など、「連続した判断の積み重ねで成果が決まる」問題に応用される。近年は、大規模言語モデルを人間の好みに沿わせる調整にも活用されている。
実用上の難しさ
強化学習は強力だが、実用化には固有の難しさがある。学習には膨大な試行回数が必要で、現実世界でそのまま試すのが危険・高コストな場合 (ロボットや自動運転) はシミュレーションが要る。また、報酬の設計を誤ると、意図しない「報酬の抜け道」を学習してしまう。何を報酬とするかが結果を決定づけるため、設計には慎重さが求められる。適用できる問題と、そうでない問題の見極めが重要になる。
理解を深めるには関連書籍が参考になる。
この記事は役に立ちましたか?