Mixtral(ミクストラル)とは
Mixtralとは、フランスのMistral AIが開発した「混合エキスパート(MoE=Mixture of Experts)」型の言語モデルのことです。モデルの中に複数の専門家を持ち、入力ごとに一部だけを働かせることで、大きなモデル並みの賢さを速く安く出せる点が特徴です。
「必要な専門家だけ呼ぶ」仕組み
ふつうの大規模モデルは、回答のたびに全パラメータを総動員します。Mixtralは8人の専門家のうち、その場で必要な2人だけを呼び出す設計です。社内の問い合わせを、毎回全員ではなく担当者2人にだけ振り分けるイメージに近いです。これにより、抱えている知識の総量は大きいまま、一度に動く部分を小さく保てます。結果として、速度とコストを抑えつつ高い性能を出せます。
2つの版とその後
最初の「Mixtral 8x7B」は2023年12月に公開され、重みを誰でも使えるApache 2.0ライセンスで提供されました。続く「Mixtral 8x22B」は2024年4月に登場し、扱える文章量(コンテキスト)が広がっています。どちらも現在は旧世代と位置づけられ、Mistral AIの主力はその後のMistral Large系などへ移っています。当時はオープンウェイトの高性能モデルとして広く使われました。
Topic「8x7B」は56億ではなく、動くのは約129億だけ
「8x7B」と聞くと、8かける70億で560億パラメータのように思えます。ところが実際の総数は約467億で、しかも1つの単語を処理するとき実際に動くのは約129億だけです。専門家を共有したり、毎回2人しか呼ばなかったりするためで、見かけの大きさと実働の差がMoEの効きどころになっています。
関連用語
Mixtralに関するよくある質問
- 混合エキスパート(MoE)とは、ふつうの大規模モデルと何が違うのですか?
- ふつうのモデルは回答のたびに全パラメータを総動員しますが、Mixtralは8人の専門家のうちその場で必要な2人だけを呼び出します。抱える知識の総量は大きいまま、一度に動く部分を小さく保てるので、速度とコストを抑えつつ高い性能を出せます。
- Mixtralは今も主力モデルですか?
- 現在は旧世代の位置づけです。最初のMixtral 8x7Bは2023年12月に誰でも使えるApache 2.0ライセンスで公開され、Mixtral 8x22Bが2024年4月に続きました。当時はオープンウェイトの高性能モデルとして広く使われましたが、Mistral AIの主力はその後のMistral Large系などへ移っています。
- 「8x7B」は560億パラメータという意味ですか?
- いいえ。8かける70億で560億のように思えますが、実際の総数は約467億で、1つの単語を処理するとき実際に動くのは約129億だけです。専門家を共有したり毎回2人しか呼ばなかったりするためで、この見かけと実働の差がMoEの効きどころです。