音声合成とは

音声合成とは、文字で書かれた文章を、人間が話すような音声に変換する技術です。英語の頭文字からTTS(Text-To-Speech、テキスト読み上げ)とも呼ばれます。

声を「つなぐ」方式から「学んで作る」方式へ

どうやって声を作っているのでしょうか。流れは大きく2つに分かれます。ひとつは、あらかじめ録音した声の断片をつなぎ合わせる昔ながらの方式。もうひとつが、大量の音声を学習したAIが、声そのものを作り出す方式。後者は深層学習(人間の脳をまねた学習のしくみ)の進歩で一気に自然になりました。いまスマートスピーカーやナレーションで聞く、人間と聞き分けにくい声の多くは、この学習型によるものです。

身の回りにあふれる読み上げの技術

音声合成は、すでに暮らしのあちこちで動いています。カーナビの案内、駅のアナウンス、スマートスピーカーの応答、視覚に障がいのある人向けの読み上げなどが身近な例でしょう。ビジネスでも、研修動画のナレーションや問い合わせ対応の自動音声に使われ、声優やナレーターへの発注を一部置き換える動きも出てきました。ElevenLabsのような専門サービスは、この技術を磨いたものといえます。

Topicコンピューターが初めて歌った曲

今から60年以上前の1961年、ベル研究所がIBMのコンピューターに歌『デイジー・ベル』を歌わせました。コンピューターが歌った、ごく初期の実演でした。これを見た作家が感銘を受け、映画『2001年宇宙の旅』に登場するコンピューターHALの着想につながったと伝えられています。音声合成の歴史は、思いのほか古いのです。

音声合成に関するよくある質問

音声合成とボイスクローンは何が違いますか?
音声合成は文章を話し声に変える技術全般を指します。ボイスクローンはそのうち、特定の人の声をまねて再現する使い方を指す、より狭い言葉です。
AIが作る声と昔の機械的な読み上げは何が違いますか?
昔は録音をつなぐため不自然になりがちでした。深層学習で声を学んで作る方式が広まり、抑揚や息づかいまで再現した、人間と聞き分けにくい声になっています。
音声合成はいつからある技術ですか?
発話する機械の試みは数世紀前にさかのぼり、コンピューターによる合成も1961年には実演されています。AIで自然になったのはここ十数年の進歩です。

音声合成に関連する記事