日本語音声読み上げWebサービスText-to-MP3が結構スゴかった

日本語の音声読み上げサービスとして、Text-to-MP3というWebサービスを試してみたんですが、思いのほか自然でよかったので紹介します。ま、本当にすごいのは、このサービスじゃなくて、そこで使われている中味のAmazon Pollyなんですけどね。

私は普段、テキストを読み上げさせたい時は、Mac標準のスピーチ機能を使っています。例えば、1ページに収まるぐらいのニュースを、コーヒーを淹れている間に読み上げさせたり、目で追うのが少し面倒な英語圏のブログを読ませたり、自分が書いたテキストの音のチェックなどに使っています。

確かに、以前に比べると音声機能の品質は上がっているので、全然、聞けないというほどではありません。ただ、間合いや抑揚、漢字の読みがもうちょっと自然にならないものかな、とは、いつも思っています。

もちろん、例えばコンテンツ用にナレーションが必要な時は、ナレーターさんに頼んで録音したり、サウンド関係のプロに依頼します。ただ、わざわざファイルとして残さなくてもいい時にも、もう少し自然で、しかも簡単に使える音声読み上げサービスがあってもいいんじゃないか、とは感じています。そんなツールを探していたところ、今回紹介するText-to-MP3という海外のサービスを見つけたというわけです。

ちなみに、今回紹介するサービスで使われているAmazon Pollyは、朝日新聞の音声ニュースサービス「アルキキ」など、ニュースコンテンツの自動読み上げなどにも使われています。違和感はあるものの、全然聞けないほどではないというレベルです。

音声読み上げサービスText-to-MP3を使うと幸せになれる人

  • macOS/Windowsに関係なく、OS標準のスピーチ機能や、無料ユーティリティーでは満足できない
  • Webセミナーの音声やオーディオガイド、通話応答サービスなどで、自然なナレーションが必要なビジネスユーザー
  • 本番でナレーターの声を入れる前の、仮のナレーションを当てておきたいコンテンツ制作者
  • わざわざナレーターに依頼するほどではない・納期や費用で依頼できない
  • 音声コンテンツ用にナレーションが必要なものの、ボコーダーやボーカロイドを使いたいわけじゃないクリエーター
  • 音声テクノロジーの可能性や脅威を把握しておきたい、ナレーターやアナウンサー志望者
  • Google Cloud Text-to-SpeechやMicrosoft Bing Speech、IBM Watson Text to Speechなどを使うほどではない、ライトなビジネスユーザーや、AWS非契約者

Text-to-MP3は、こんな音声読み上げサービス

日本語音声読み上げWebサービスText-to-MP3
日本語音声読み上げWebサービスText-to-MP3
  • 日本語音声として、OS標準のスピーチ機能よりも自然で、誤読も少ない
  • ディープラーニングでテキストをリアルな音声に変換する、Amazon Pollyを使ったサービス。声の質や種類もAmazon Pollyに準じていて、日本語は男性のTakumiと女性のMizukiの2種類
  • 375ワードまたは3,000文字/日まで(日本語で1,000文字程度)、無料で使える。
  • Webブラウザーだけで完結し、特別なプラグインやアプリケーションのインストールが必要ない。Webブラウザーの種類も選ばず、スマートフォンでも使える
  • サポートされている言語は、英語(米語/イギリス英語/オーストラリア英語インド)、中国語(標準語)、スペイン語など多数。
  • プレミアムアクセス:24時間 ¥607/日、プレミアムアクセス:1年 ¥12,016/年
    サブスクリプションではなく、自動課金もされない/会話で最大100万字、一回に10万文字までを登録可能/28の言語と62のプレミアム音声/会話の再生停止が可能/広告なし/メールによるサポート

音声読み上げサービスText-to-MP3のココがいい!

  • 無料/有料を問わず、商用利用可能。YouTubeやeラーニング、自動音声応答などに使える。一見さんお断りなんかされない!
  • AWSを直接使わなくても、Amazon Pollyの強力な機能をそのまま使える。スピードやピッチなどのカスタマイズも、Amazon SSML(音声合成マークアップ言語)タグで指定可能。
  • 有料プランはリーズナブルで、品質と価格のバランスを考えると、日本国内で提供されている他のサービス以上。有料プランは最短で24時間なので、すでに原稿が準備できている場合は、コストパフォーマンスがさらに高い。
  • 年間プランでは、アプリやWebサイトで使えるAPIキーが発行される。

音声読み上げサービスText-to-MP3のココは要注意だったり、イマイチ…

  • OS標準のスピーチ機能よりは自然とはいえ、「ちょっと朗読が上手い人」が読み上げるレベル以上ではない。
  • Amazon Pollyを使っているため、ボイスデータの追加やカスタマイズはできない。ディープラーニングによる音声も使えない。また、該当するリージョンでAWSがダウンすると使えないはず。
  • 製品やサービス名などの固有名詞や人名、地名などを辞書として持たせて精度を上げることはできない。
  • テキストを手動でコピー&ペーストする方法でしか使えず、ファイルを指定したアップロードやバッチ処理はできない。
  • オーディオフォーマットはMP3のみ。サンプリングレートなどの詳細は設定不可。
  • Webブラウザーの機能拡張で使いたい。
  • Webサイトがスケーラブルではなく、なぜか無駄なスペースも空いている。