無料で高性能な音声読み上げアプリVOICEVOXが素晴らしい

ここ最近、音声読み上げ(TTS テキストトゥスピーチ)サービスの進化ぶりが素晴らしいんです!とても自然に読み上げてくれるだけでなく、macOS対応!そして何と、無料のアプリケーションまで登場しました。それが今回の、VOICEVOXです。

以前、紹介したVoicepeakやAmazon Pollyも合わせてご覧ください。

『目は消耗品』だから、耳から情報取得したい!

一日の大半を、常に何かの画面を見て過ごす現代人にとって『目は消耗品』。ここでいう「消耗品」とはもちろん、気軽に使い捨てできるという20世紀的な浪費感覚ではなく、確実に消耗してしまうものだからこそ、できるだけ枯渇しないように持続可能に大切に使っていきたいという、現代的なニュアンスです。

特に、近視と老眼を抱え、眼の手術も経たメガネ族にとっては切実な問題で、体力や気力より視力の限界が一日の限界を意味します。目に起因する偏頭痛も、目薬やストレッチ、目に載せる温感パッドで誤魔化せるレベルではありません。

そんな私が日常的に頼りにしているのが、サードパーティー製のテキスト音声読み上げサービスというわけです。

VOICEVOXは、こんなサービスでココがイイ!

VOICEVOXアイコン
VOICEVOXアイコン
  • 非常に自然で高品質な音声にもかかわらず、無料!素晴らしい!なぜか公式サイトの説明だと「中品質」w
  • サンプルボイスのキャラクターは11人。一部のキャラクターには、「ノーマル」「あまあま」「ツンツン」「セクシー」「囁き声」などのバリエーションあり
  • 特に、囁き声が選べるキャラクター「九州そら」、ヤバいw YouTubeやPodcastのASMR音声は、もうコレで溢れているのでは!?
  • キャラクターごとに「話速(スピード)」「声高(ピッチ)」「抑揚(イントネーション)」「音量」などを調整可能。カスタマイズした設定は「プリセット」として保存して呼び出せる。
  • 複数行のテキストは、行ごとに別々のキャラクターに変えることも可能。もちろん、2人の対話文で会話も。
  • Windows/macOS/Linuxのマルチプラットフォーム対応。
VOICEVOXのメインウインドウ
VOICEVOXのメインウインドウ
キャラクターは11人
キャラクターは11人

VOICEVOXのココはちょっとイマイチだったり要注意…

以下は、Mac版の場合を中心に。

  • アプリケーションサイズが1.47 GBもある(Voicepeakの約6.5倍!)。
  • 起動後、エンジンの初期化処理に1分ほど待たされる(GPUではなく、CPUモードだからかも)。キャラクターの切り替えも、10秒ほど待たされる。読み上げ前も、タイムラグあり。
  • テキストをコピー&ペーストすると、句点「。」ごとに新しい行として登録されるが、画面幅で表示できる分しか表示されない。全角80文字以上の長い文章は、期待した通りには再生されない可能性があるアラートが表示される(今のところ、再生そのものは問題なし)。
80文字以上のテキストはアラートが
80文字以上のテキストはアラートが
  • 複数の行に登録されたキャラクターは、一括して変更できない。
  • 「アクセント」「イントネーション」「長さ」を細かくカスタマイズできるが、編集した部分だけをリアルタイムにプレビューできず、その行全体を再生して確認するしかない。
  • 読み上げ中のテキスト部分はハイライト表示されない(ウインドウ下の「アクセント」や「イントネーション」「長さ」でハイライトされる)。
  • テキストの編集は、取り消しできない。
  • 読み込めるのは、プレーンテキストフォーマットのみ。
  • 辞書登録のテキストはインポート/エクスポートできない。
  • ウインドウ内の表示は、Apple Magic Mouseのスワイプで上下左右にスクロールできるが、「プリセット」のパラメータースライダーの上にマウスポインターがある場合、意図せずにスライダー側が反応してしまう(取り消しは可能)。
  • 音声の書き出しフォーマットがWAVEのみ。
  • Apple Siliconに未対応。
  • UIが、Apple Human Interface Guidelinesに準拠していない。
  • キャラクターのイラストは非表示にできない…
  • 書き出した音声ファイルは、キャラクターごとにライセンスに違いがあるので注意(包括ライセンスではない)。
アクティビティモニタの表示
アクティビティモニタの表示

VOICEVOXの使い方

  1. アプリケーションを起動する。音声エンジンの初期化のため、1分ほど待たされる。「環境設定」で特に設定することはないが、「CPU/GPU」が選べるなら選択。
  2. ボイスキャラクターが表示される。オプションが選べる「四国めたん」「ずんだもん」「九州そら」の3キャラクターは、デフォルトを選択する。
  3. 読み上げさせたいテキストを外部でコピーしておき、VOICEVOXに切り替える。ウインドウ中央をクリックして、テキストフィールドにペーストする。または、ウインドウ右上の[テキスト読み込み]ボタンをクリックして、テキストファイルから読み込む。
  4. ペーストまたは読み込まれたテキストは、句点「。」ごとの行に分割される。選択した行の冒頭には、キャラクターアイコンの左に小さいグレーの▶が表示される。80文字以上のテキストには、正しく再生されない可能性を警告するアラートが表示される。
  5. 音声を再生するには、再生したい行を選択して、ウインドウ左上の[連続再生]ボタンをクリックするか、ウインドウ左下の[▶]ボタンをクリックする。再生開始まで、数秒のタイムラグあり。行単位で削除する時は、行末に表示されるゴミ箱ボタンをクリックする。
  1. テキスト行をクリックして選択するたびに、ウインドウ下の「アクセント」「イントネーション」「長さ」のパラメーターが変化する。カスタマイズしたい場合は、緑の●をドラッグする。
    「アクセント」は●を前後に、「イントネーション」は上下にドラッグする。「長さ」は、例えば「ガ」はスライダー左側の「G」と右側の「A」のように、●を左右に分割して細かく調整が可能。
  2. 「話速(スピード)」「声高(ピッチ)」「抑揚(イントネーション)」「音量」や、開始と終了の無音は、ウインドウ右側のパラメーターでカスタマイズする。設定は、「プリセット」として登録したり、登録済みのプリセットを呼び出せる。
  3. 読み上げキャラクターを変更したい場合は、行頭のアイコンをクリックして、ポップアップメニューで切り替える(切り替えにも数秒時間が掛かる)。
  4. 読めない単語は、「設定」>「読み方&アクセント辞書」で登録する。
  1. 音声ファイルを書き出す場合は、「ファイル」>「音声書き出し」や「一つだけ書き出し」「音声を繋げて書き出し」を選択する。
  2. 編集中のファイルは保存が可能。拡張子はvvproj。

とにかく一度、VOICEVOXを試すのはアリ!

VOICEVOXは、なぜこれが無料なのか意味がわからないほどの機能!まだまだちょっと荒削りなところもある印象ですが、OS標準のテキスト読み上げに満足できない人がいたら、激推しするでしょう。クラウドファンディングもあるらしく、今後のアップデートにも大いに期待しています。

いろいろなテキストの音声読み上げを使って考えた

さて、こうしてテキストの音声読み上げユーティリティーやサービスをいろいろ使ってみて、全般に感じたことがあるので、最後にまとめとしてメモしておきます。

  • 書き言葉と話し言葉との間には揺らぎがある。書き言葉として書かれた文章をそのまま読み上げさせても、意味が分からない・分かり辛いことは多い。
    例)「英紙」:目視でならわかるが、音声で聞くなら「えいし」よりも「イギリスの新聞」/ 「記者」と「貴社」「帰社」:同音異義語は前後の文脈で判断しないと、音声だけでは分かり辛い / 「図のように」:視覚的表現は音声では無意味
  • 主語と述語が離れすぎていることによる分かりにくさや、修飾語の関係が不明瞭、長い一文など、お役所文書や法律関係、学術系レポートなどは、耳で聞いても非常にわかりづらいことが、改めてわかる(元から)。
  • 耳でチェックするのは、セルフ黙読とは違う校正の効果あり!
  • 文章を目で読むのと違い、音声は適度なザッピングができない再生がリニアなので、何倍速かの再生しかできない。
  • Webコンテンツのようなテキストを丸ごと指定すると、例えば写真のクレジットや資料の出典まで、全てをいちいち読み上げてしまう
  • 日本語の文章の途中に出てくる長いアルファベットは自然な単語や文章として読めず、バラバラの文字列として読んでしまうことがある(複数の言語が混在しているとほぼ処理できない)。
  • (私が試しているサービスは今のところすべて)Webブラウザーからテキストを選択して、そのまま転送できる機能がないので、いちいちコピー&ペーストしなければならない(Chromeプラグイン、欲しい!)。
  • デスクトップアプリケーションのみで、モバイルには非対応
  • 同じ空間にいる人に聞かれたくない内容の場合は、イヤフォン/ヘッドフォンを使わなければならず、長時間だと耳が疲れてしまう
  • 音声は、何か他のことをしながら聞くこともできてしまうので、ついTwitterやTumblrを見ていると、折角、読み上げる内容がまったく頭に入ってこない本末転倒!:'(

さて、ここまで高品質な読み上げができると、先に紹介したVoicepeak同様、いちいちテキストをコピー&ペーストしなくても、どこからでも右クリックで呼び出したい!わけです。ライティングとも連動して、日本語文章の校正機能とセットになると嬉しさ最高。もちろん、オーディオコンテンツ化もいろいろ妄想してしまいます。

テキスト読み上げといえば、Amazon Audibleのオーディオブックの話もいずれまた!