マルコフ決定過程とは
マルコフ決定過程とは、結果が運にも左右される状況で「いま、どの手を打つべきか」という判断の連続を、数学的に扱えるようにした枠組みです。英語の頭文字からMDPと略されます。1950年代に生まれた古典的な道具立てですが、試行錯誤から学ぶ強化学習の土台として、現代のAIを底から支える存在です。
状態・行動・報酬で世界を描き直す
MDPは複雑な現実を「状態」「行動」「遷移確率」「報酬」の4つの部品に切り分けます。いまの状況が状態、選べる手が行動です。手を打ったあと状況がどう変わるかは確率で表され、変化のたびに損得(報酬)が発生します。
すごろくを思い浮かべると分かりやすいかもしれません。サイコロの目は選べなくても、どの分かれ道を進むかは選べる。運の要素を確率として織り込んだうえで、賢い手の選び方を計算で探すのがMDPの発想です。
「未来は現在だけで決まる」という割り切り
名前の由来は、ロシアの数学者アンドレイ・マルコフです。未来の成り行きが過去の経緯ではなく現在の状態だけで決まると仮定する性質を、マルコフ性と呼びます。歴史を無視する乱暴な仮定に見えますが、実際は「先読みに必要な要点を現在の状態に詰め込んでおく」という整理術です。この割り切りのおかげで、複雑な意思決定が計算可能になりました。
70年前の数学が、強化学習を支えている
MDPは1950年代、軍事や業務の数理分析を行うオペレーションズリサーチの分野から生まれ、1957年にベルマンが代表的な解法(価値反復法)を整備しました。ChatGPT登場の約70年前の話です。現在では、AIが試行錯誤を通じて行動を磨く強化学習の標準的な問題設定として使われ、医療や経済学、通信などへの応用も報告されています。一手ごとの良し悪しではなく、状況ごとの「手の決め方」全体を磨く。在庫の補充や設備の保守のように判断を繰り返す業務を考えるうえでも、馴染みやすい発想ではないでしょうか。
Topic解法の名前は、上司の目を欺くために付けられた
MDPの標準的な解法「動的計画法(ダイナミックプログラミング)」の名付けには、有名な逸話があります。考案者ベルマンの自伝(1984年)によると、1950年当時の米国防長官が「研究(research)」という言葉を毛嫌いしていたため、数学研究だと悟られないよう「議員でさえ反対できない名前」を意図して選んだのだとか。後年、この説明の正確さには疑問も呈されていますが、最先端AIの土台となる手法の名前が役所的な事情から生まれたとすれば、なんとも人間くさい話です。
マルコフ決定過程に関するよくある質問
- マルコフ決定過程と強化学習はどう違いますか?
- MDPは問題の「設定図」、強化学習はその設定の中で良い行動の方針を試行錯誤で見つける「学び方」です。多くの強化学習はMDPを前提に組み立てられています。
- 「マルコフ」とは何のことですか?
- ロシアの数学者アンドレイ・マルコフの名前です。未来が現在の状態だけで決まるという仮定(マルコフ性)が彼の研究したマルコフ連鎖に由来するため、この名が付いています。
- 数学の枠組みと聞くと、経営には縁遠く感じます。知る意味はありますか?
- 不確実な結果を受けながら判断を繰り返す場面の「考え方の型」として役立ちます。目先の一手ではなく状況ごとの手の決め方を評価する視点は、AIに限らず応用が利きます。