Mixture of Experts(ミクスチャーオブエキスパーツ)とは

Mixture of Expertsとは、複数の「専門家」役のネットワークを用意し、入力に応じてそのうち一部だけを働かせるAIモデルの仕組みです。MoE、または混合エキスパートとも呼ばれます。巨大なモデルでありながら、毎回すべてを動かすのではなく必要な部分だけを使うことで、大きさと効率を両立させるのが狙いです。

どういう仕組みか

MoEには、それぞれ得意分野を持つ複数の「専門家」ネットワークと、入力ごとにどの専門家に任せるかを振り分ける「ルーター」があります。質問が来ると、ルーターが関係する専門家だけを選んで動かし、残りは休ませる仕組みです。これを「スパース活性化」と呼びます。おかげで、モデル全体は非常に大きくても、1回の処理で実際に働くのは一部だけで済みます。専門家といっても人ではなく、ネットワークの一部分のことです。

なぜ注目されるのか

大規模なAIモデルは、賢くしようとするほど計算コストがふくらみます。MoEはパラメータを増やして賢さを上げつつ、実際に動く部分を絞ってコストを抑えるため、近年の巨大モデルで広く採用されています。DeepSeekやNVIDIAのNemotronなど、最近のオープンモデルの多くがこの方式です。AIニュースで見かける「総550B・実働55B」のような2つの数字は、まさにMoEを表しています。

Topicなぜ数字が2つ並ぶのか

AIモデルの紹介で「総550B・実働55B」のように数字が2つ書かれているのを見たことはないでしょうか。これはMoEだからです。全体の規模は巨大でも、入力ごとに働くのは一部の専門家だけなので、「持っている大きさ」と「毎回使う大きさ」が分かれて表示されます。考え方自体は1991年、ディープラーニングが広まる前にHintonらが提案した古いアイデアで、近年の巨大モデルで主役へと返り咲きました。

Mixture of Expertsに関するよくある質問

「総550B・実働55B」のように数字が2つ並ぶのはなぜですか?
Mixture of Experts(MoE)だからです。モデル全体の規模は巨大でも、入力ごとに実際に働くのは一部の専門家だけなので、「持っている大きさ」と「毎回使う大きさ」が分かれて表示されます。
MoEはなぜ近年の巨大モデルで採用されているのですか?
総パラメータを増やして賢さを上げつつ、実際に動く部分を絞って計算コストを抑えられるためです。考え方自体は1991年にHintonらが提案した古いアイデアですが、DeepSeekやNVIDIAのNemotronなど最近のオープンモデルの多くで主役へと返り咲きました。
MoEの「専門家」とは人のことですか?
いいえ。人ではなく、ネットワークの一部分のことを指します。入力ごとにどの部分へ任せるかは「ルーター」が振り分け、関係する専門家だけを動かして残りは休ませます(スパース活性化)。