驚くほど自然なテキスト読み上げアプリVoicepeakを試してみた

Voicepeakアイコン
Voicepeakアイコン

ここ最近立て続けに、素晴らしい品質で自然な日本語を読み上げるサービスが登場していたので、勝手に興奮してしばらく試していました。今回はその一つ、Voicepeakを紹介します(なお、特に明記しない限りmacOS版です)。

私の使い方では今のところ、何か音声コンテンツを作るというより、テキストの一時的な読み上げに使うことがほとんどですが、長文のニュースやブログ記事、レポートを聞いたり、書いた文章を耳で校正するのになかなか便利なんですよ、これが!

なお、Amazon PollyのText-to-speechを試したときの話はこちら。

Voicepeakをプロのナレーターと比較してみた

まずはいきなり、今回も無謀にもプロの朗読との比較です。ナレーターは、元NHKのフリーアナウンサー福満 景子さんで、Amazon PollyのText-to-speechの時に使った「杜子春」の冒頭で比較してみます。カスタマイズで寄せてみたつもりですが、いやーやっぱりプロはまだまだ凄いわ。

  • 文字数:約920文字(現代語訳および正確に読み上げられる文章に編集)
  • 再生時間:約3分43秒(以下、福満さん版に寄せた手抜きカスタマイズ)
  • 速さ:60 %
  • ピッチ:-80 %
  • ポーズ:160 %
  • 感情:(カスタマイズなし)
  • ファイル:FLAC/44100 Hz/8.9 MB

今回は、Amazon Pollyでは読めていた一部の文字が正しく読めませんでした。この辺りは、文学作品であることが影響しているかもしれません。

  • 唐の都(みやこ)→X「と」
  • 金(きん)の耳環→X「かね」
  • 画(え)→X「が」

ちなみに「杜子春」は、著作権が切れた文学作品を収録した「青空文庫」のテキストを、人間のナレーターが朗読する「青空朗読」にもあったりします。ここに登録しているのは、ハイアマチュアぐらいの皆さんでしょうか。Voicepeakも結構いい線いってる印象です。

そもそも、なぜわざわざサードパーティーのサービスを使うのさ?

OS自体の音声読み上げ機能は、macOSにもWindowsにもあります。それでも、わざわざサードパーティーのサービスを使う理由は、圧倒的に高品質だから!

詳細は後述するとして、背景にもちょっと触れておきましょうか。昔から、テキスト読み上げ‪ユーティリティーといえばWindows版は豊富にあったんですが、Mac版でしかも日本語に対応している製品は限定的でした。あっても、個人では気軽に手を出せないぐらい高価でしたし。

今回の主旨とはちょっとズレますが、自分の声をAIで変換するという非常に魅力的なSIREN VOICEというソフトウェアも、今のところ対応はWindowsのみ(しかし、なぜにコレ系は萌えボイスばかりなんだ…)。

現行のMacなら、macOS標準のボイスエージェントSiriに読み上げさせてもよさそうですけど、日本語のようなマイナー系の言語は音声の種類が限られていて、せいぜい成人女性と男性1人か2人ずつです。しかも、私の場合は、OSのメインのUIは日本語で使いつつ、Siriは英語モードで設定しているので、そのままでは用途に合いません。ちなみに、複数言語が混在できないのは、紹介するサービスも同様なんですけどね…

今回のアプリケーションは、高品質なだけでなくMac版があります!

テキストを読み上げさせると幸せになれるかもしれない人

  • マルチスクリーンで視神経を酷使しまくっている現代人
  • ニュースやブログ記事、レポートを読み上げで聞きたい、忙しすぎるコスモポリタン
  • 必ずしも写真や図、出演者の様子を目で追わなくてもいいマルチタスクな仕事人
  • 視覚情報がノイズになるのを排除した状態で、音声にだけ集中したいキレ者
  • ナレーションの仮データを「アタリ」として作っておき、尺(秒数)を把握しておきたいクリエーター
  • 目で追うだけでは気付きにくい、脱字や違和感のある表現の校正担当(実際に、公開済みのメディアの記事でも脱字を発見しました!)
  • 発声が難しかったり障害がある人の、意思表示として