混合エキスパート（MoE）とは、ふつうの大規模モデルと何が違うのですか？

ふつうのモデルは回答のたびに全パラメータを総動員しますが、Mixtralは8人の専門家のうちその場で必要な2人だけを呼び出します。抱える知識の総量は大きいまま、一度に動く部分を小さく保てるので、速度とコストを抑えつつ高い性能を出せます。

Mixtralは今も主力モデルですか？

現在は旧世代の位置づけです。最初のMixtral 8x7Bは2023年12月に誰でも使えるApache 2.0ライセンスで公開され、Mixtral 8x22Bが2024年4月に続きました。当時はオープンウェイトの高性能モデルとして広く使われましたが、Mistral AIの主力はその後のMistral Large系などへ移っています。

Mixtral(ミクストラル)とは？意味をわかりやすく解説

Mixtralとは、フランスのMistral AIが開発した「混合エキスパート（MoE＝Mixture of Experts）」型の言語モデルのことです。モデルの中に複数の専門家を持ち、入力ごとに一部だけを働かせることで、大きなモデル並みの賢さを速く安く出せる点が特徴です。

「必要な専門家だけ呼ぶ」仕組み

ふつうの大規模モデルは、回答のたびに全パラメータを総動員します。Mixtralは8人の専門家のうち、その場で必要な2人だけを呼び出す設計です。社内の問い合わせを、毎回全員ではなく担当者2人にだけ振り分けるイメージに近いです。これにより、抱えている知識の総量は大きいまま、一度に動く部分を小さく保てます。結果として、速度とコストを抑えつつ高い性能を出せます。

2つの版とその後

最初の「Mixtral 8x7B」は2023年12月に公開され、重みを誰でも使えるApache 2.0ライセンスで提供されました。続く「Mixtral 8x22B」は2024年4月に登場し、扱える文章量（コンテキスト）が広がっています。どちらも現在は旧世代と位置づけられ、Mistral AIの主力はその後のMistral Large系などへ移っています。当時はオープンウェイトの高性能モデルとして広く使われました。

Topic「8x7B」は56億ではなく、動くのは約129億だけ

「8x7B」と聞くと、8かける70億で560億パラメータのように思えます。ところが実際の総数は約467億で、しかも1つの単語を処理するとき実際に動くのは約129億だけです。専門家を共有したり、毎回2人しか呼ばなかったりするためで、見かけの大きさと実働の差がMoEの効きどころになっています。

Mixtralに関するよくある質問

混合エキスパート（MoE）とは、ふつうの大規模モデルと何が違うのですか？: ふつうのモデルは回答のたびに全パラメータを総動員しますが、Mixtralは8人の専門家のうちその場で必要な2人だけを呼び出します。抱える知識の総量は大きいまま、一度に動く部分を小さく保てるので、速度とコストを抑えつつ高い性能を出せます。
Mixtralは今も主力モデルですか？: 現在は旧世代の位置づけです。最初のMixtral 8x7Bは2023年12月に誰でも使えるApache 2.0ライセンスで公開され、Mixtral 8x22Bが2024年4月に続きました。当時はオープンウェイトの高性能モデルとして広く使われましたが、Mistral AIの主力はその後のMistral Large系などへ移っています。
「8x7B」は560億パラメータという意味ですか？: いいえ。8かける70億で560億のように思えますが、実際の総数は約467億で、1つの単語を処理するとき実際に動くのは約129億だけです。専門家を共有したり毎回2人しか呼ばなかったりするためで、この見かけと実働の差がMoEの効きどころです。

Mixtral(ミクストラル)とは

「必要な専門家だけ呼ぶ」仕組み

2つの版とその後

Topic「8x7B」は56億ではなく、動くのは約129億だけ

Mixtralに関するよくある質問

あわせて読みたい記事

Muse Image(ミューズイメージ)とは【Metaの画像生成でSNS広告は何が変わるか】

GPT-Liveとは？相づちも割り込みもできる新音声AIで受付・電話対応が変わる

Gemini in Slidesの使用上限はいつから変わるか【8月1日以降の上限と対象プラン】

いま読まれている用語

まだそこまで読まれていない用語