DeepSeek-V3(ディープシークブイスリー)とは
DeepSeek-V3とは、中国のDeepSeek社が2024年12月に公開した、混合エキスパート(MoE)型の大規模言語モデルのことです。後に世界を驚かせた推論モデルDeepSeek-R1の土台になったモデルでもあります。
大きいのに、動くのは一部だけ
DeepSeek-V3は、内部に多くの専門家を持つ混合エキスパート型のモデルです。抱えている知識の総量はおよそ6,710億と大きい一方、1つの単語を処理するとき実際に動くのは約370億の部分だけです。必要なところだけを働かせることで、規模の割に計算を軽く抑えています。重みは公開され、誰でも自社で動かせるオープンウェイトとして提供されました。
R1へとつながる土台
V3は単体でも高い性能を示しましたが、その役割は土台にとどまりません。これをもとに推論を鍛えたのが、2025年1月のDeepSeek-R1です。V3系はその後も更新が続き、改良版が重ねられてきました。中国発のオープンウェイトモデルが、世界の最先端と肩を並べる水準に達したことを示した一例として知られています。
Topic桁違いに安く鍛えたと公称した
DeepSeekはV3の学習費を約558万ドル(旧型GPUを約2,000基・およそ55日)と公称しました。当時、最先端モデルの学習には桁違いの費用がかかると見られていただけに、この「安さ」が衝撃を呼びます。これが、2025年1月にエヌビディア株が急落したいわゆるDeepSeekショックの引き金の一つになりました。
関連用語
DeepSeek-V3に関するよくある質問
- DeepSeek-V3とDeepSeek-R1はどう違いますか?
- V3は2024年12月公開の混合エキスパート型モデルで、これをもとに推論を鍛えたのが2025年1月のDeepSeek-R1です。V3が土台、R1がそこから「じっくり考えてから答える」力を強化した発展形、という関係です。重みは公開され、誰でも自社で動かせます。
- 「6,710億」と「370億」の2つの数字は何ですか?
- 混合エキスパート(MoE)型だからです。抱えている知識の総量は約6,710億と大きい一方、1つの単語を処理するとき実際に動くのは約370億の部分だけで、必要なところだけを働かせて規模の割に計算を軽く抑えています。
- DeepSeek-V3はなぜ注目されたのですか?
- 学習費を約558万ドル(旧型GPUを約2,000基・およそ55日)と公称した点です。最先端モデルの学習には桁違いの費用がかかると見られていたため、この安さが2025年1月のエヌビディア株急落(DeepSeekショック)の引き金の一つになりました。