Whisper(ウィスパー)とは
Whisperとは、音声を文字に書き起こす、OpenAIの音声認識AIのことです。2022年9月に公開され、英語をはじめ多くの言語の話し声をテキストにできます。英語以外の音声を英語へ翻訳する使い方も可能です。会議の録音やインタビューの文字起こしなど、実務での出番が多い道具といえます。
膨大な音声で鍛えられた
Whisperは、インターネット上の約68万時間ぶんの音声と書き起こしのペアで学習しました。日数にすると約78年ぶんという膨大な量で、これがなまりや雑音、専門用語への強さにつながっています。仕組みには、文章を扱うAIでおなじみのTransformerが使われ、音声を画像のような形に変換してから読み取るのが基本です。公開はChatGPTが話題をさらう少し前で、AIによる文字起こしはそのころから実務に入り始めていました。
得意なことと、苦手なこと
便利な一方で注意点もあります。実際には話されていない言葉を作り出してしまう「ハルシネーション」が起きることが報告されており、書き起こしは人の確認が欠かせません。なお2025年3月には、OpenAIがGPT-4oをもとにした、より誤りの少ない文字起こしモデルも公開しています。Whisperは初期の定番として、いまも幅広く使われている存在です。
TopicOpenAIには珍しく「中身を公開」した
OpenAIは、多くのモデルの中身を非公開にしています。ところがWhisperは2022年9月に、誰でも使えるオープンソース(MITライセンス)として公開されました。つまり、手元のパソコンにダウンロードして無料で動かすこともできます。社名は「Open(開かれた)」を掲げつつ実際は閉じている、と言われがちな同社にあって、Whisperは数少ない「名前どおり開かれた」存在なのです。
Whisperに関するよくある質問
- Whisperは無料で使えますか?
- 使えます。多くのモデルを非公開にするOpenAIには珍しく、Whisperは2022年9月にオープンソース(MITライセンス)として公開され、手元のパソコンにダウンロードして無料で動かすこともできます。社名は「Open(開かれた)」を掲げつつ実際は閉じていると言われがちな同社で、数少ない「名前どおり開かれた」存在です。
- Whisperはなぜ多言語や雑音に強いのですか?
- インターネット上の約68万時間(日数にすると約78年ぶん)の音声と書き起こしのペアで学習したためです。これがなまりや雑音、専門用語への強さにつながっています。仕組みには文章を扱うAIでおなじみのTransformerが使われ、音声を画像のような形に変換してから読み取ります。
- Whisperを使うときの注意点はありますか?
- 実際には話されていない言葉を作り出してしまう「ハルシネーション」が起きることが報告されており、書き起こしは人の確認が欠かせません。なお2025年3月には、OpenAIがGPT-4oをもとにした、より誤りの少ない文字起こしモデルも公開しています。