日本語音声読み上げWebサービスText-to-MP3が結構スゴかった

日本語の音声読み上げサービスとして、Text-to-MP3というWebサービスを試してみたんですが、思いのほか自然でよかったので紹介します。ま、本当にすごいのは、このサービスじゃなくて、そこで使われている中味のAmazon Pollyなんですけどね。

私は普段、テキストを読み上げさせたい時は、Mac標準のスピーチ機能を使っています。例えば、1ページに収まるぐらいのニュースを、コーヒーを淹れている間に読み上げさせたり、目で追うのが少し面倒な英語圏のブログを読ませたり、自分が書いたテキストの音のチェックなどに使っています。

確かに、以前に比べると音声機能の品質は上がっているので、全然、聞けないというほどではありません。ただ、間合いや抑揚、漢字の読みがもうちょっと自然にならないものかな、とは、いつも思っています。

もちろん、例えばコンテンツ用にナレーションが必要な時は、ナレーターさんに頼んで録音したり、サウンド関係のプロに依頼します。ただ、わざわざファイルとして残さなくてもいい時にも、もう少し自然で、しかも簡単に使える音声読み上げサービスがあってもいいんじゃないか、とは感じています。そんなツールを探していたところ、今回紹介するText-to-MP3という海外のサービスを見つけたというわけです。

ちなみに、今回紹介するサービスで使われているAmazon Pollyは、朝日新聞の音声ニュースサービス「アルキキ」など、ニュースコンテンツの自動読み上げなどにも使われています。違和感はあるものの、全然聞けないほどではないというレベルです。

音声読み上げサービスText-to-MP3を使うと幸せになれる人

  • macOS/Windowsに関係なく、OS標準のスピーチ機能や、無料ユーティリティーでは満足できない
  • Webセミナーの音声やオーディオガイド、通話応答サービスなどで、自然なナレーションが必要なビジネスユーザー
  • 本番でナレーターの声を入れる前の、仮のナレーションを当てておきたいコンテンツ制作者
  • わざわざナレーターに依頼するほどではない・納期や費用で依頼できない
  • 音声コンテンツ用にナレーションが必要なものの、ボコーダーやボーカロイドを使いたいわけじゃないクリエーター
  • 音声テクノロジーの可能性や脅威を把握しておきたい、ナレーターやアナウンサー志望者
  • Google Cloud Text-to-SpeechやMicrosoft Bing Speech、IBM Watson Text to Speechなどを使うほどではない、ライトなビジネスユーザーや、AWS非契約者

Text-to-MP3は、こんな音声読み上げサービス

日本語音声読み上げWebサービスText-to-MP3
日本語音声読み上げWebサービスText-to-MP3
  • 日本語音声として、OS標準のスピーチ機能よりも自然で、誤読も少ない
  • ディープラーニングでテキストをリアルな音声に変換する、Amazon Pollyを使ったサービス。声の質や種類もAmazon Pollyに準じていて、日本語は男性のTakumiと女性のMizukiの2種類
  • 375ワードまたは3,000文字/日まで(日本語で1,000文字程度)、無料で使える。
  • Webブラウザーだけで完結し、特別なプラグインやアプリケーションのインストールが必要ない。Webブラウザーの種類も選ばず、スマートフォンでも使える
  • サポートされている言語は、英語(米語/イギリス英語/オーストラリア英語インド)、中国語(標準語)、スペイン語など多数。
  • プレミアムアクセス:24時間 ¥607/日、プレミアムアクセス:1年 ¥12,016/年
    サブスクリプションではなく、自動課金もされない/会話で最大100万字、一回に10万文字までを登録可能/28の言語と62のプレミアム音声/会話の再生停止が可能/広告なし/メールによるサポート

音声読み上げサービスText-to-MP3のココがいい!

  • 無料/有料を問わず、商用利用可能。YouTubeやeラーニング、自動音声応答などに使える。一見さんお断りなんかされない!
  • AWSを直接使わなくても、Amazon Pollyの強力な機能をそのまま使える。スピードやピッチなどのカスタマイズも、Amazon SSML(音声合成マークアップ言語)タグで指定可能。
  • 有料プランはリーズナブルで、品質と価格のバランスを考えると、日本国内で提供されている他のサービス以上。有料プランは最短で24時間なので、すでに原稿が準備できている場合は、コストパフォーマンスがさらに高い。
  • 年間プランでは、アプリやWebサイトで使えるAPIキーが発行される。

音声読み上げサービスText-to-MP3のココは要注意だったり、イマイチ…

  • OS標準のスピーチ機能よりは自然とはいえ、「ちょっと朗読が上手い人」が読み上げるレベル以上ではない。
  • Amazon Pollyを使っているため、ボイスデータの追加やカスタマイズはできない。ディープラーニングによる音声も使えない。また、該当するリージョンでAWSがダウンすると使えないはず。
  • 製品やサービス名などの固有名詞や人名、地名などを辞書として持たせて精度を上げることはできない。
  • テキストを手動でコピー&ペーストする方法でしか使えず、ファイルを指定したアップロードやバッチ処理はできない。
  • オーディオフォーマットはMP3のみ。サンプリングレートなどの詳細は設定不可。
  • Webブラウザーの機能拡張で使いたい。
  • Webサイトがスケーラブルではなく、なぜか無駄なスペースも空いている。

Text-to-MP3を、OS標準の音声読み上げ機能と比較してみた

使い方は説明するまでもなく、ただテキストをコピー&ペーストして[Read]または[Download as MP3]ボタンをクリックするだけ。

これだけだとつまらないので、Google Cloud Text-to-Speechと、macOS、Windowsそれぞれの音声読み上げ機能と比較してみました。また、後で説明するAmazon SSMLのタグのテストも、最後のトラックに入れておきます。

テストに使うテキストは、既存のビジネス文書や適当なダミーを生成してもいいんですが、ここは敢えて、後でプロのアナウンサー(!)と比較するために、我らが青空文庫を使いましょう。芥川龍之介『杜子春』をベースに、現代語で読み上げられるように微調整してみました。文字数は、950文字。

  1. Text-to-MP3 (Amazon Polly) : Mizuki
  2. Google Cloud Text-to-Speech : ja-JP-Wavenet-B
  3. macOS : Kyoko
  4. Windows : Microsoft Nanami Online (Natural)
  5. Text-to-MP3 (Amazon Polly) :Amazon SSMLのタグテスト

いきなりですがタイトルの「杜子春(とししゅん)」を、「もりこはる」と読まずに正しく読めたのは、Amazon Pollyだけですね。これらは、国内の競合サービスでも読めないところが多いです。また、「土耳古(とるこ)」「洛陽(らくよう)」「靡いた(なびいた)」も、それなりにトラップです。「方(ほう/かた)」「行って(いって/おこなって)」「答(こたえ/とう)」辺りも、日本語ならではの揺らぎ。「眇(すがめ)」や「蝙蝠(こうもり)」はダメだったので、テキストをひらがなに変えています。

そしてこっちは、元NHKのフリーアナウンサー福満 景子さんの朗読。再生速度を1.25倍にすると、音声読み上げに近くなります。情感タップリかつ最適な息継ぎや間合いで喋るプロと比較するなんて、そりゃ残酷な話。

でも、前述のText-to-MP3 (Amazon Polly) が、ボロボロで全然ダメということもないですよね?昔の、合成音声技術からすると、素晴らしい進化なのは間違いありません。抑揚や間合いなど、比較した音声読み上げ4種類の中では、一番自然だと感じました。

音声読み上げに便利なAmazon SSMLのタグ

Text-to-MP3のカスタマイズには、Amazon Polly用のAmazon SSMLタグがそのまま使えます。

間隔

あれは、そうですね<break time="1s"/>10年近くも前の出来事だったでしょうか。

強調

あんな素晴らしい出会いは、<emphasis level="strong">もう二度と</emphasis> ないと思うんです。

読み上げ速度

大体、人って、自分を尊大に見せる時には、<prosody rate="slow">敢えてゆっくり、威圧的に話したり、</prosody> 
自分にやましいことがある時には逆に、<prosody rate="fast">無意識のうちに早口になってしまったり</prosody>するものですからね。

音程

誰でも、毎日いろいろあるから、<prosody pitch="high">とても楽しい</prosody>気分の時もあれば、<prosody pitch="-20%">最低な気分に落ち込む</prosody>時だってありますよ。

ささやき

彼女はこういいました。<amazon:effect name="whispered">もし、ちょっとでも音を立てたら、赤ちゃんがまた目を覚ますから。</amazon:effect>

会話

残念ながらこのタグは日本語では機能しないんですが、一応、これも紹介しておきます。以下のように表記すれば、2人の人物の会話になります。んー、素晴らしい機能だけに残念 🙁

[speaker:Brian] Hello Emma
[speaker:Emma] Hey Brian
[speaker:Brian] How are you doing?
[speaker:Emma] I am fine. May I invite you to a cup of tea?

元々、このWebサービスは、日本語を効果的に学習したい外国人向けのサービスらしく、日本語という特殊な言語の特徴が簡単に解説されています。方言や都道府県ごとの差異にまで言及して、『日本語は本当に魅力的であり、技術的な挑戦でもあります』と締めくくられているのも、心強いところです。挑戦してるの、Amazonだけどさw

今回も、文学作品を使うという無茶をしてみましたが、他には、福岡市内にある難読地名を試したところ、「対馬小路(つましょうじ)」はダメでしたが、「雑餉隈(ざっしょのくま)」は読めました!一般的なビジネス文書なら、さらにいい結果が得られるはずなので、ぜひ、自分で試してみてください。

[追記 2021/08/05]似たようなサービスは他にもいくつかありますね。こっちの制限は、6,000文字/週。
Free TTS: Text to Speech Mp3 Free Online
https://freetts.com/

ちなみに、今回とは逆のSpeech-to-Text、つまり喋った内容をテキストに起こすことで、キー入力と併用してテキストを仕上げていくことは時々あります。使い方によっては、これも便利です。詳しくは、またの機会に。

マイクは、安物に手を出さず、これぐらいを用意しておく方がメリット大!