Whisper(ウィスパー)とは

Whisperとは、音声を文字に書き起こす、OpenAIの音声認識AIのことです。2022年9月に公開され、英語をはじめ多くの言語の話し声をテキストにできます。英語以外の音声を英語へ翻訳する使い方も可能です。会議の録音やインタビューの文字起こしなど、実務での出番が多い道具といえます。

膨大な音声で鍛えられた

Whisperは、インターネット上の約68万時間ぶんの音声と書き起こしのペア学習しました。日数にすると約78年ぶんという膨大な量で、これがなまりや雑音、専門用語への強さにつながっています。仕組みには、文章を扱うAIでおなじみのTransformerが使われ、音声を画像のような形に変換してから読み取るのが基本です。公開はChatGPTが話題をさらう少し前で、AIによる文字起こしはそのころから実務に入り始めていました。

得意なことと、苦手なこと

便利な一方で注意点もあります。実際には話されていない言葉を作り出してしまう「ハルシネーションが起きることが報告されており、書き起こしは人の確認が欠かせません。なお2025年3月には、OpenAIがGPT-4oをもとにした、より誤りの少ない文字起こしモデルも公開しています。Whisperは初期の定番として、いまも幅広く使われている存在です。

TopicOpenAIには珍しく「中身を公開」した

OpenAIは、多くのモデルの中身を非公開にしています。ところがWhisperは2022年9月に、誰でも使えるオープンソース(MITライセンス)として公開されました。つまり、手元のパソコンにダウンロードして無料で動かすこともできます。社名は「Open(開かれた)」を掲げつつ実際は閉じている、と言われがちな同社にあって、Whisperは数少ない「名前どおり開かれた」存在なのです。

Whisperに関するよくある質問

Whisperは無料で使えますか?
使えます。多くのモデルを非公開にするOpenAIには珍しく、Whisperは2022年9月にオープンソース(MITライセンス)として公開され、手元のパソコンにダウンロードして無料で動かすこともできます。社名は「Open(開かれた)」を掲げつつ実際は閉じていると言われがちな同社で、数少ない「名前どおり開かれた」存在です。
Whisperはなぜ多言語や雑音に強いのですか?
インターネット上の約68万時間(日数にすると約78年ぶん)の音声と書き起こしのペアで学習したためです。これがなまりや雑音、専門用語への強さにつながっています。仕組みには文章を扱うAIでおなじみのTransformerが使われ、音声を画像のような形に変換してから読み取ります。
Whisperを使うときの注意点はありますか?
実際には話されていない言葉を作り出してしまう「ハルシネーション」が起きることが報告されており、書き起こしは人の確認が欠かせません。なお2025年3月には、OpenAIがGPT-4oをもとにした、より誤りの少ない文字起こしモデルも公開しています。