
日本語の音声読み上げサービスとして、Text-to-MP3というWebサービスを試してみたんですが、思いのほか自然でよかったので紹介します。ま、本当にすごいのは、このサービスじゃなくて、そこで使われている中味のAmazon Pollyなんですけどね。
私は普段、テキストを読み上げさせたい時は、Mac標準のスピーチ機能を使っています。例えば、1ページに収まるぐらいのニュースを、コーヒーを淹れている間に読み上げさせたり、目で追うのが少し面倒な英語圏のブログを読ませたり、自分が書いたテキストの音のチェックなどに使っています。
確かに、以前に比べると音声機能の品質は上がっているので、全然、聞けないというほどではありません。ただ、間合いや抑揚、漢字の読みがもうちょっと自然にならないものかな、とは、いつも思っています。
もちろん、例えばコンテンツ用にナレーションが必要な時は、ナレーターさんに頼んで録音したり、サウンド関係のプロに依頼します。ただ、わざわざファイルとして残さなくてもいい時にも、もう少し自然で、しかも簡単に使える音声読み上げサービスがあってもいいんじゃないか、とは感じています。そんなツールを探していたところ、今回紹介するText-to-MP3という海外のサービスを見つけたというわけです。
ちなみに、今回紹介するサービスで使われているAmazon Pollyは、朝日新聞の音声ニュースサービス「アルキキ」など、ニュースコンテンツの自動読み上げなどにも使われています。違和感はあるものの、全然聞けないほどではないというレベルです。
音声読み上げサービスText-to-MP3を使うと幸せになれる人
- macOS/Windowsに関係なく、OS標準のスピーチ機能や、無料ユーティリティーでは満足できない人
- Webセミナーの音声やオーディオガイド、通話応答サービスなどで、自然なナレーションが必要なビジネスユーザー
- 本番でナレーターの声を入れる前の、仮のナレーションを当てておきたいコンテンツ制作者
- わざわざナレーターに依頼するほどではない・納期や費用で依頼できない人
- 音声コンテンツ用にナレーションが必要なものの、ボコーダーやボーカロイドを使いたいわけじゃないクリエーター
- 音声テクノロジーの可能性や脅威を把握しておきたい、ナレーターやアナウンサー志望者
- Google Cloud Text-to-SpeechやMicrosoft Bing Speech、IBM Watson Text to Speechなどを使うほどではない、ライトなビジネスユーザーや、AWS非契約者
Text-to-MP3は、こんな音声読み上げサービス

- 日本語音声として、OS標準のスピーチ機能よりも自然で、誤読も少ない。
- ディープラーニングでテキストをリアルな音声に変換する、Amazon Pollyを使ったサービス。声の質や種類もAmazon Pollyに準じていて、日本語は男性のTakumiと女性のMizukiの2種類。
- 375ワードまたは3,000文字/日まで(日本語で1,000文字程度)、無料で使える。
- Webブラウザーだけで完結し、特別なプラグインやアプリケーションのインストールが必要ない。Webブラウザーの種類も選ばず、スマートフォンでも使える。
- サポートされている言語は、英語(米語/イギリス英語/オーストラリア英語インド)、中国語(標準語)、スペイン語など多数。
- プレミアムアクセス:24時間 ¥607/日、プレミアムアクセス:1年 ¥12,016/年
サブスクリプションではなく、自動課金もされない/会話で最大100万字、一回に10万文字までを登録可能/28の言語と62のプレミアム音声/会話の再生停止が可能/広告なし/メールによるサポート
音声読み上げサービスText-to-MP3のココがいい!
- 無料/有料を問わず、商用利用可能。YouTubeやeラーニング、自動音声応答などに使える。一見さんお断りなんかされない!
- AWSを直接使わなくても、Amazon Pollyの強力な機能をそのまま使える。スピードやピッチなどのカスタマイズも、Amazon SSML(音声合成マークアップ言語)タグで指定可能。
- 有料プランはリーズナブルで、品質と価格のバランスを考えると、日本国内で提供されている他のサービス以上。有料プランは最短で24時間なので、すでに原稿が準備できている場合は、コストパフォーマンスがさらに高い。
- 年間プランでは、アプリやWebサイトで使えるAPIキーが発行される。
音声読み上げサービスText-to-MP3のココは要注意だったり、イマイチ…
- OS標準のスピーチ機能よりは自然とはいえ、「ちょっと朗読が上手い人」が読み上げるレベル以上ではない。
- Amazon Pollyを使っているため、ボイスデータの追加やカスタマイズはできない。ディープラーニングによる音声も使えない。また、該当するリージョンでAWSがダウンすると使えないはず。
- 製品やサービス名などの固有名詞や人名、地名などを辞書として持たせて精度を上げることはできない。
- テキストを手動でコピー&ペーストする方法でしか使えず、ファイルを指定したアップロードやバッチ処理はできない。
- オーディオフォーマットはMP3のみ。サンプリングレートなどの詳細は設定不可。
- Webブラウザーの機能拡張で使いたい。
- Webサイトがスケーラブルではなく、なぜか無駄なスペースも空いている。