「総550B・実働55B」のように数字が2つ並ぶのはなぜですか？

Mixture of Experts（MoE）だからです。モデル全体の規模は巨大でも、入力ごとに実際に働くのは一部の専門家だけなので、「持っている大きさ」と「毎回使う大きさ」が分かれて表示されます。

MoEはなぜ近年の巨大モデルで採用されているのですか？

総パラメータを増やして賢さを上げつつ、実際に動く部分を絞って計算コストを抑えられるためです。考え方自体は1991年にHintonらが提案した古いアイデアですが、DeepSeekやNVIDIAのNemotronなど最近のオープンモデルの多くで主役へと返り咲きました。

MoEの「専門家」とは人のことですか？

いいえ。人ではなく、ネットワークの一部分のことを指します。入力ごとにどの部分へ任せるかは「ルーター」が振り分け、関係する専門家だけを動かして残りは休ませます（スパース活性化）。

Mixture of Expertsとは？意味をわかりやすく解説

Mixture of Expertsとは、複数の「専門家」役のネットワークを用意し、入力に応じてそのうち一部だけを働かせるAIモデルの仕組みです。MoE、または混合エキスパートとも呼ばれます。巨大なモデルでありながら、毎回すべてを動かすのではなく必要な部分だけを使うことで、大きさと効率を両立させるのが狙いです。

どういう仕組みか

MoEには、それぞれ得意分野を持つ複数の「専門家」ネットワークと、入力ごとにどの専門家に任せるかを振り分ける「ルーター」があります。質問が来ると、ルーターが関係する専門家だけを選んで動かし、残りは休ませる仕組みです。これを「スパース活性化」と呼びます。おかげで、モデル全体は非常に大きくても、1回の処理で実際に働くのは一部だけで済みます。専門家といっても人ではなく、ネットワークの一部分のことです。

なぜ注目されるのか

大規模なAIモデルは、賢くしようとするほど計算コストがふくらみます。MoEは総パラメータを増やして賢さを上げつつ、実際に動く部分を絞ってコストを抑えるため、近年の巨大モデルで広く採用されています。DeepSeekやNVIDIAのNemotronなど、最近のオープンモデルの多くがこの方式です。AIニュースで見かける「総550B・実働55B」のような2つの数字は、まさにMoEを表しています。

Topicなぜ数字が2つ並ぶのか

AIモデルの紹介で「総550B・実働55B」のように数字が2つ書かれているのを見たことはないでしょうか。これはMoEだからです。全体の規模は巨大でも、入力ごとに働くのは一部の専門家だけなので、「持っている大きさ」と「毎回使う大きさ」が分かれて表示されます。考え方自体は1991年、ディープラーニングが広まる前にHintonらが提案した古いアイデアで、近年の巨大モデルで主役へと返り咲きました。

Wikipedia: Mixture of experts

Mixture of Expertsに関するよくある質問

「総550B・実働55B」のように数字が2つ並ぶのはなぜですか？: Mixture of Experts（MoE）だからです。モデル全体の規模は巨大でも、入力ごとに実際に働くのは一部の専門家だけなので、「持っている大きさ」と「毎回使う大きさ」が分かれて表示されます。
MoEはなぜ近年の巨大モデルで採用されているのですか？: 総パラメータを増やして賢さを上げつつ、実際に動く部分を絞って計算コストを抑えられるためです。考え方自体は1991年にHintonらが提案した古いアイデアですが、DeepSeekやNVIDIAのNemotronなど最近のオープンモデルの多くで主役へと返り咲きました。
MoEの「専門家」とは人のことですか？: いいえ。人ではなく、ネットワークの一部分のことを指します。入力ごとにどの部分へ任せるかは「ルーター」が振り分け、関係する専門家だけを動かして残りは休ませます（スパース活性化）。

Mixture of Experts(ミクスチャーオブエキスパーツ)とは

どういう仕組みか

なぜ注目されるのか

Topicなぜ数字が2つ並ぶのか

Mixture of Expertsに関するよくある質問

あわせて読みたい記事

生成AIのモデル更新で回答が変わる？切り替え前に試す品質テストの方法

AndroidでGemini以外のAIはいつ使える？EUの同等アクセス要求と日本未定の現状

Kimi K3のAPI料金は入力100万トークン3ドル【高いか安いかを検証】

いま読まれている用語

まだそこまで読まれていない用語