

ここ最近立て続けに、素晴らしい品質で自然な日本語を読み上げるサービスが登場していたので、勝手に興奮してしばらく試していました。今回はその一つ、Voicepeakを紹介します(なお、特に明記しない限りmacOS版です)。
私の使い方では今のところ、何か音声コンテンツを作るというより、テキストの一時的な読み上げに使うことがほとんどですが、長文のニュースやブログ記事、レポートを聞いたり、書いた文章を耳で校正するのになかなか便利なんですよ、これが!
なお、Amazon PollyのText-to-speechを試したときの話はこちら。
Voicepeakをプロのナレーターと比較してみた
まずはいきなり、今回も無謀にもプロの朗読との比較です。ナレーターは、元NHKのフリーアナウンサー福満 景子さんで、Amazon PollyのText-to-speechの時に使った「杜子春」の冒頭で比較してみます。カスタマイズで寄せてみたつもりですが、いやーやっぱりプロはまだまだ凄いわ。
- 文字数:約920文字(現代語訳および正確に読み上げられる文章に編集)
- 再生時間:約3分43秒(以下、福満さん版に寄せた手抜きカスタマイズ)
- 速さ:60 %
- ピッチ:-80 %
- ポーズ:160 %
- 感情:(カスタマイズなし)
- ファイル:FLAC/44100 Hz/8.9 MB
今回は、Amazon Pollyでは読めていた一部の文字が正しく読めませんでした。この辺りは、文学作品であることが影響しているかもしれません。
- 唐の都(みやこ)→X「と」
- 金(きん)の耳環→X「かね」
- 画(え)→X「が」
ちなみに「杜子春」は、著作権が切れた文学作品を収録した「青空文庫」のテキストを、人間のナレーターが朗読する「青空朗読」にもあったりします。ここに登録しているのは、ハイアマチュアぐらいの皆さんでしょうか。Voicepeakも結構いい線いってる印象です。
そもそも、なぜわざわざサードパーティーのサービスを使うのさ?
OS自体の音声読み上げ機能は、macOSにもWindowsにもあります。それでも、わざわざサードパーティーのサービスを使う理由は、圧倒的に高品質だから!
詳細は後述するとして、背景にもちょっと触れておきましょうか。昔から、テキスト読み上げユーティリティーといえばWindows版は豊富にあったんですが、Mac版でしかも日本語に対応している製品は限定的でした。あっても、個人では気軽に手を出せないぐらい高価でしたし。
今回の主旨とはちょっとズレますが、自分の声をAIで変換するという非常に魅力的なSIREN VOICEというソフトウェアも、今のところ対応はWindowsのみ(しかし、なぜにコレ系は萌えボイスばかりなんだ…)。
現行のMacなら、macOS標準のボイスエージェントSiriに読み上げさせてもよさそうですけど、日本語のようなマイナー系の言語は音声の種類が限られていて、せいぜい成人女性と男性1人か2人ずつです。しかも、私の場合は、OSのメインのUIは日本語で使いつつ、Siriは英語モードで設定しているので、そのままでは用途に合いません。ちなみに、複数言語が混在できないのは、紹介するサービスも同様なんですけどね…
今回のアプリケーションは、高品質なだけでなくMac版があります!
テキストを読み上げさせると幸せになれるかもしれない人
- マルチスクリーンで視神経を酷使しまくっている現代人
- ニュースやブログ記事、レポートを読み上げで聞きたい、忙しすぎるコスモポリタン
- 必ずしも写真や図、出演者の様子を目で追わなくてもいいマルチタスクな仕事人
- 視覚情報がノイズになるのを排除した状態で、音声にだけ集中したいキレ者
- ナレーションの仮データを「アタリ」として作っておき、尺(秒数)を把握しておきたいクリエーター
- 目で追うだけでは気付きにくい、脱字や違和感のある表現の校正担当(実際に、公開済みのメディアの記事でも脱字を発見しました!)
- 発声が難しかったり障害がある人の、意思表示として