決定木とは
決定木とは、「はい/いいえ」のような条件分岐を枝分かれの形でたどり、分類や予測を行う機械学習の手法です。健康診断の問診フローや、家電の「故障かな?」チャートのように、質問を順にたどって答えにたどり着きます。途中の判断理由がそのまま目に見えるのが、この手法ならではの強みです。
質問を枝分かれでたどる仕組み
決定木は、データを根(出発点)から順に枝分かれさせていきます。たとえば顧客が解約しそうかを予測するなら、「利用月数は半年未満か」「直近のログインはあるか」といった条件で次々に振り分け、最後の葉にたどり着いたところで「解約しそう/しなさそう」を判定します。代表的な作り方にはID3(1986年)やCART(1984年)があり、いずれも機械学習の古くからの定番です。
木が一本だけだと精度に限りがあるため、実務ではたくさんの決定木を束ねて使うのがふつうです。多数の木の意見をまとめるランダムフォレストや、木を一本ずつ足して誤りを補正していく勾配ブースティングがその代表になります。
表データのビジネス予測では今も主力級
「AIといえばChatGPTのような深層学習」と思われがちですが、決定木を束ねた手法は別系統で、売上や顧客データのような表形式のデータの予測が得意です。とくにXGBoostに代表される勾配ブースティング木は、2010年代半ば以降、データ分析のコンペで多くの優勝チームに選ばれてきました。画像や文章は深層学習、表データは決定木系、というように、両者は競合というより役割分担の関係にあります。
Topic決定木は「白い箱」、ニューラルネットは「黒い箱」
決定木は、しばしば「ホワイトボックス(中身の見える箱)」と呼ばれます。どの条件でどう振り分けて結論に至ったかを、人間がそのままたどって説明できるからです。一方、ニューラルネットワークは高い精度を出せても「なぜそう判断したのか」を追いにくい「ブラックボックス」とされます。融資審査や医療のように説明責任が問われる場面で決定木が今も選ばれるのは、この透明性があるからです。
決定木に関するよくある質問
- 決定木の強みは何ですか?
- 判断の理由がそのまま目に見える点です。「利用月数は半年未満か」「直近のログインはあるか」といった条件で枝分かれをたどり、最後の葉で結論にたどり着くため、どの条件でどう振り分けたかを人間がそのまま説明できます(ホワイトボックス)。融資審査や医療など説明責任が問われる場面で今も選ばれます。
- 決定木は深層学習に取って代わられたのですか?
- いいえ、役割分担の関係です。画像や文章は深層学習が得意ですが、売上や顧客データのような表形式のデータの予測は決定木を束ねた手法が今も主力級で、とくにXGBoostに代表される勾配ブースティング木は2010年代半ば以降データ分析コンペの優勝常連です。
- 決定木は1本だけで使うのですか?
- 木が1本だと精度に限りがあるため、実務では多数の木を束ねて使うのがふつうです。たくさんの木の意見をまとめるランダムフォレストや、木を一本ずつ足して誤りを補正する勾配ブースティングが代表で、作り方にはID3(1986年)やCART(1984年)といった古くからの定番があります。