驚くほど自然なテキスト読み上げアプリVoicepeakを試してみた

Voicepeakアイコン
Voicepeakアイコン

ここ最近立て続けに、素晴らしい品質で自然な日本語を読み上げるサービスが登場していたので、勝手に興奮してしばらく試していました。今回はその一つ、Voicepeakを紹介します(なお、特に明記しない限りmacOS版です)。

私の使い方では今のところ、何か音声コンテンツを作るというより、テキストの一時的な読み上げに使うことがほとんどですが、長文のニュースやブログ記事、レポートを聞いたり、書いた文章を耳で校正するのになかなか便利なんですよ、これが!

なお、Amazon PollyのText-to-speechを試したときの話はこちら。

Voicepeakをプロのナレーターと比較してみた

まずはいきなり、今回も無謀にもプロの朗読との比較です。ナレーターは、元NHKのフリーアナウンサー福満 景子さんで、Amazon PollyのText-to-speechの時に使った「杜子春」の冒頭で比較してみます。カスタマイズで寄せてみたつもりですが、いやーやっぱりプロはまだまだ凄いわ。

  • 文字数:約920文字(現代語訳および正確に読み上げられる文章に編集)
  • 再生時間:約3分43秒(以下、福満さん版に寄せた手抜きカスタマイズ)
  • 速さ:60 %
  • ピッチ:-80 %
  • ポーズ:160 %
  • 感情:(カスタマイズなし)
  • ファイル:FLAC/44100 Hz/8.9 MB

今回は、Amazon Pollyでは読めていた一部の文字が正しく読めませんでした。この辺りは、文学作品であることが影響しているかもしれません。

  • 唐の都(みやこ)→X「と」
  • 金(きん)の耳環→X「かね」
  • 画(え)→X「が」

ちなみに「杜子春」は、著作権が切れた文学作品を収録した「青空文庫」のテキストを、人間のナレーターが朗読する「青空朗読」にもあったりします。ここに登録しているのは、ハイアマチュアぐらいの皆さんでしょうか。Voicepeakも結構いい線いってる印象です。

そもそも、なぜわざわざサードパーティーのサービスを使うのさ?

OS自体の音声読み上げ機能は、macOSにもWindowsにもあります。それでも、わざわざサードパーティーのサービスを使う理由は、圧倒的に高品質だから!

詳細は後述するとして、背景にもちょっと触れておきましょうか。昔から、テキスト読み上げ‪ユーティリティーといえばWindows版は豊富にあったんですが、Mac版でしかも日本語に対応している製品は限定的でした。あっても、個人では気軽に手を出せないぐらい高価でしたし。

今回の主旨とはちょっとズレますが、自分の声をAIで変換するという非常に魅力的なSIREN VOICEというソフトウェアも、今のところ対応はWindowsのみ(しかし、なぜにコレ系は萌えボイスばかりなんだ…)。

現行のMacなら、macOS標準のボイスエージェントSiriに読み上げさせてもよさそうですけど、日本語のようなマイナー系の言語は音声の種類が限られていて、せいぜい成人女性と男性1人か2人ずつです。しかも、私の場合は、OSのメインのUIは日本語で使いつつ、Siriは英語モードで設定しているので、そのままでは用途に合いません。ちなみに、複数言語が混在できないのは、紹介するサービスも同様なんですけどね…

今回のアプリケーションは、高品質なだけでなくMac版があります!

テキストを読み上げさせると幸せになれるかもしれない人

  • マルチスクリーンで視神経を酷使しまくっている現代人
  • ニュースやブログ記事、レポートを読み上げで聞きたい、忙しすぎるコスモポリタン
  • 必ずしも写真や図、出演者の様子を目で追わなくてもいいマルチタスクな仕事人
  • 視覚情報がノイズになるのを排除した状態で、音声にだけ集中したいキレ者
  • ナレーションの仮データを「アタリ」として作っておき、尺(秒数)を把握しておきたいクリエーター
  • 目で追うだけでは気付きにくい、脱字や違和感のある表現の校正担当(実際に、公開済みのメディアの記事でも脱字を発見しました!)
  • 発声が難しかったり障害がある人の、意思表示として

Voicepeakは、こんなテキスト読み上げアプリケーション

Voicepeakのメインウインドウ
Voicepeakのメインウインドウ
  • 人の発声と区別のつかないほど高品質な音声を実現する、Dreamtonics社が開発したAI音声合成エンジン「Syllaflow」を搭載。OS標準の機能とは比較にならない、圧倒的に自然な音声!完全にステージが違う!個人的には、朝日新聞「アルキキ」などでも使われているTTS(テキストトゥスピーチ)の定番サービスであるAmazon Pollyよりも、さらに自然な印象。わざわざナレーターに依頼するほどではないナレーションは、もうこれで十分。
  • 喜怒哀楽など、感情表現も自然で非常に豊か、カスタマイズ可能。読み上げの音質(テンポ/ピッチ/トーン/音量/速度)などを自由に編集できる。
  • 商用利用も可能で、追加ライセンスや手続き不要。6人のナレーターがセットになったパック(男性3名/女性3名/なぜか幼女1名)が23,800円(税込み)という、素晴らしいコストパフォーマンス(私は、リーズナブルな先行発売キャンペーンでゲットしました!)。
  • Windows/macOS/Linux対応。体験版あり。

Voicepeakのココがイイ!

  • 今の設定で再生時間がどれぐらいになるか、最後のテキストを選択すると予測表示される。
  • ファイルフォーマットと拡張子は.vpp。ファイルサイズは非常に小さい
  • 読み上げに失敗したテキストは、辞書登録できる。再生中でもコピーして、外部にペースト可能。
  • アプリケーションはバックグラウンドでも動作する。
  • サブスクリプションではない買い切りライセンス
  • 1つのライセンスで、1つのアクティベーション。つまり、同時に使わなければ、環境を変えられる。Raspberry Piでも動くの、いろいろヤバいかも!

Voicepeakのココはちょっとイマイチだったり要注意…

  • 「全体の速さ」「全体のピッチ」「全体のポーズ長さ」「全体の感情表現」などの設定をカスタマイズしても、設定がナレーターごとに残らない。ナレーターを変えても、読み上げの声が変わるだけ。「ニュース」「ブログ」「エッセイ」などで切り替えできない(保存するファイルには残る)。
  • 「速さ」を設定する時、全体の再生時間で指定できない。
  • ユーザー辞書の書き出し機能が無いのが非常に不安…
  • 例えば「22,000」は「にまんにせん」で辞書登録しても読み上げ時には「にーにー、ぜろぜろぜろ」としか読まない。同様に、「24日」は「にじゅうよっか」で登録しても、「にじゅうよんにち」と読んでしまう。
  • 固有名詞や地名を外部のCSVから一括登録するような機能がない。
  • 辞書は、SDGsの読みを「エスディージーズ」で登録すると、発音は「エスディイジイズ」で表記される。
  • イントネーションや強調を微妙にカスタマイズし辛いことがある。●を上下にドラッグするだけで調整できるが、一点だけを動かそうとしているのに近くの●まで引っ張られてしまう。
  • 読み上げ中に[全体の速さ][全体のピッチ][全体のポーズ長さ][全体の感情表現]を変えると、再生が止まってしまう。
  • ダウンロードから起動までのステップが無駄に多い。購入ページからアーカイブをダウンロード→展開したフォルダにさらにOS別のダウンローダーあり→インストーラーをダウンロード→アクティベーションコードを入力してインストール→アプリケーション起動時にまたアクティベーションコードを入力→やっと起動!
  • テキストは、再生しながら手動で部分的に編集できるが、編集すると停止してしまう(未再生の部分でも)。また、再生済みの段落を削除すると、再生中の場所を示すマーカーがズレてしまう(再生は続行される)。
  • 音声の書き出しフォーマットがwavとflacしかないが、そこまでの音質は求めていない用途のためにmp3があると嬉しい。
  • インタビューなどで、導入によく使われているような記号が元のテキストに入っている場合、イントネーションが微妙に変わる。例えば「――高校」は「高校」と違って特定の高校名の一部のように読まれるので、違和感が生じてしまう。これは、マシンリーダブルなテキストの問題かも。
  • UIが、Apple Human Interface Guidelinesに準拠していない。
  • テキストの文字数は表示されない。
  • 表示言語のカスタマイズはない。日本語のみ?OSに依存?

Voicepeakの使い方

  1. アプリケーションを起動する。Intel Macでもすぐに起動。「環境設定」は、特に設定することなし。
  2. 読み上げさせたいテキストを外部でコピーしておき、Voicepeakに切り替える。ウインドウ中央をクリックし、読み上げさせたいテキストをペーストまたはインポート、入力する。
「杜子春」のテキストを貼り付けたところ
「杜子春」のテキストを貼り付けたところ
  1. テキストの最初に入力カーソルを戻すと、単語がオレンジにハイライトされる。この状態でウインドウ上部の[再生]ボタンをクリックすると、ナレーションが再生される。基本はただコレだけ。
  2. ウインドウのUIはシンプル。上部のバーに並ぶ[全体の速さ][全体のピッチ][全体のポーズ長さ][全体の感情表現][音量]などのボタンは、ウインドウ右側に表示される縦のメニューと同じ。
  3. ウインドウ左下の[アクセント][イントネーション][長さ]ボタンは、選択したテキストフィールドの文章全体をカスタマイズできる。コントロールは●や□をドラッグするだけ。3つのボタンはトグル式になっていて、一度に表示できるのは1つだけ。
「アクセント」設定
「アクセント」設定
「イントネーション」と「長さ」設定
「イントネーション」と「長さ」設定
  1. ナレーターの選択は、テキストフィールド左に表示されるプルダウンメニューから選ぶ(ただし、カスタマイズがナレーターごとに残らないのが辛い)。
  2. enterキーで新しいテキストフィールドが作られる。テキストフィールドは、左端を掴んでドラッグで順番を入れ替え可能。削除するには、右端のゴミ箱ボタンをクリックする。また、タイムスタンプもカスタマイズが可能。
「ナレーター」切り替えや「感情表現」設定
「ナレーター」切り替えや「感情表現」設定
  1. 感情表現は「幸せ」「楽しみ」「怒り」「悲しみ」の4つのパラメーターで調整する。カスタマイズした設定はプリセットで保存し、呼び出せる。
  2. 読み上げ精度を上げるのに重要なのが、辞書機能。メニューバーの[辞書]ボタンをクリックして登録していく。基本は日本語変換のユーザー辞書の登録と同じだが、イントネーションを設定できるのが特徴。ただし前述のように、辞書登録したからといって、必ずしもその通りには読めない。
  3. 読み上げ音声をファイルとして書き出したい場合は、メニューバーから「ファイル」>「出力」で書き出す。
  4. 編集中のファイルは保存が可能。拡張子はvpp。

さて次回は、私がVoicepeakと併用しているVOICEVOXをご紹介します。こっちは、高性能なのに無料!