Byte Latent Transformerとは

Byte Latent Transformerとは、文章を語の単位に区切る下ごしらえ(トークン化)をやめ、生のバイト(文字を表す最小の数値単位)を直接あつかうLLMの方式です。Meta(旧Facebook)の研究チームが2024年12月に公開しました。略してBLTとも呼ばれます。

難しい所だけ細かく見る

BLTはバイトを「パッチ(かたまり)」にまとめて処理しますが、まとめ方を一律にはしません。予測が難しい箇所は細かく、簡単な箇所は大きくまとめ、難所に計算を集中させます。人が易しい文を流し読みし、込み入った所で立ち止まるのに似た発想でしょう。論文では推論コストが同じ条件でトークン方式より良い伸びを示し、8Bパラメータ規模まで検証されました。なお2024年12月公開の研究で、広く実用化された標準ではありません。

TopicAIが文字を読む前の「下ごしらえ」をなくした

ふつうのLLMは、文章を扱う前に必ずトークンへ区切る下ごしらえ(トークナイザ)が前段にありました。BLTはこの工程自体をなくし、生のバイトから直接学びます。論文では、まれな表記や誤字を含むデータへの強さが改善したと報告。当たり前に置かれていた部品を外すという、発想の面白い研究でしょう。

Byte Latent Transformerに関するよくある質問

バイトを直接あつかうと、扱える語彙に制限はないのですか?
トークン方式は事前に決めた辞書(トークンの一覧)に縛られますが、BLTはバイトから組み立てるため辞書を持ちません。未知の単語や絵文字なども原理的に表現できます。
BLTは既存のLLMをすぐ置き換えるのですか?
2024年12月公開の研究段階で、広く使われる標準ではありません。トークン化に頼らない新しい方向性を示した成果という位置づけです。

あわせて読みたい記事