トークンとは

トークンとは、AIが文章を処理するときに区切る、文字のかたまり(最小単位)のことです。私たちが文章を単語で区切るように、AIも独自のやり方で文章を細かく分け、それぞれを数字に置き換えて扱います。AIが一度に読める量も、利用料金も、このトークンの数で測られるため、地味ながらAIを使ううえで欠かせない単位です。

単語まるごととは限らない

トークンは、必ずしも1単語が1トークンになるわけではありません。英語の「tokenizer」なら、「token」と「izer」のように小さな断片へ分かれます。AIはまず文章をこうしたトークンの列に変換し、数字として処理していきます。目安としては、英語でおおよそ4文字が1トークン、100トークンで75語ほどと言われますが、これはあくまで概算です。

AIの「記憶」と料金をはかる単位

トークンが大事なのは、AIのコンテキスト長(一度に扱える文章の量)と料金が、どちらもトークン数で決まるからです。長い資料を読ませるほど多くのトークンを消費し、その分コストもかさみます。気をつけたいのは、日本語は英語よりトークンを多く使いがちな点。同じ内容でも、日本語だと割高になりやすく、容量も食いやすい傾向があります。

TopicAIは文字ではなく「かたまり」で読んでいる

私たちは文章を一文字ずつ目で追えますが、AIは文章をトークン(かたまり)の単位で捉えています。そのため、流暢な文章を書ける一方で、単語の中の文字を1つずつ数えたり、逆から綴ったりする細かい作業は意外と苦手なことがあるのです。世界を「文字」ではなく「かたまり」で見ているからこその弱点。人には簡単な文字遊びでつまずくところに、AIの賢さと不器用さが同居しています。

トークンに関するよくある質問

AIは文章を、私たちと同じように一文字ずつ読んでいるのですか?
いいえ。AIは文章を「トークン」というかたまりの単位で捉えており、一文字ずつではありません。そのため流暢な文章を書ける一方、単語の中の文字を1つずつ数えたり逆から綴ったりする細かい作業は意外と苦手なことがあります。世界を「文字」ではなく「かたまり」で見ているのです。
1単語が1トークンですか?
必ずしもそうではありません。たとえば英語の「tokenizer」は「token」と「izer」のように小さな断片へ分かれます。目安は英語でおおよそ4文字が1トークン、100トークンで75語ほどですが、あくまで概算です。
日本語はトークンを多く使いますか?
はい。日本語は英語よりトークンを多く使いがちで、同じ内容でも割高になりやすく、容量も食いやすい傾向があります。AIが一度に読める量も料金も、このトークン数で決まります。