
ここ最近、音声読み上げ(TTS テキストトゥスピーチ)サービスの進化ぶりが素晴らしいんです!とても自然に読み上げてくれるだけでなく、macOS対応!そして何と、無料のアプリケーションまで登場しました。それが今回の、VOICEVOXです。
以前、紹介したVoicepeakやAmazon Pollyも合わせてご覧ください。
『目は消耗品』だから、耳から情報取得したい!
一日の大半を、常に何かの画面を見て過ごす現代人にとって『目は消耗品』。ここでいう「消耗品」とはもちろん、気軽に使い捨てできるという20世紀的な浪費感覚ではなく、確実に消耗してしまうものだからこそ、できるだけ枯渇しないように持続可能に大切に使っていきたいという、現代的なニュアンスです。
特に、近視と老眼を抱え、眼の手術も経たメガネ族にとっては切実な問題で、体力や気力より視力の限界が一日の限界を意味します。目に起因する偏頭痛も、目薬やストレッチ、目に載せる温感パッドで誤魔化せるレベルではありません。
そんな私が日常的に頼りにしているのが、サードパーティー製のテキスト音声読み上げサービスというわけです。
VOICEVOXは、こんなサービスでココがイイ!

- 非常に自然で高品質な音声にもかかわらず、無料!素晴らしい!なぜか公式サイトの説明だと「中品質」w
- サンプルボイスのキャラクターは11人。一部のキャラクターには、「ノーマル」「あまあま」「ツンツン」「セクシー」「囁き声」などのバリエーションあり。
- 特に、囁き声が選べるキャラクター「九州そら」、ヤバいw YouTubeやPodcastのASMR音声は、もうコレで溢れているのでは!?
- キャラクターごとに「話速(スピード)」「声高(ピッチ)」「抑揚(イントネーション)」「音量」などを調整可能。カスタマイズした設定は「プリセット」として保存して呼び出せる。
- 複数行のテキストは、行ごとに別々のキャラクターに変えることも可能。もちろん、2人の対話文で会話も。
- Windows/macOS/Linuxのマルチプラットフォーム対応。


VOICEVOXのココはちょっとイマイチだったり要注意…
以下は、Mac版の場合を中心に。
- アプリケーションサイズが1.47 GBもある(Voicepeakの約6.5倍!)。
- 起動後、エンジンの初期化処理に1分ほど待たされる(GPUではなく、CPUモードだからかも)。キャラクターの切り替えも、10秒ほど待たされる。読み上げ前も、タイムラグあり。
- テキストをコピー&ペーストすると、句点「。」ごとに新しい行として登録されるが、画面幅で表示できる分しか表示されない。全角80文字以上の長い文章は、期待した通りには再生されない可能性があるアラートが表示される(今のところ、再生そのものは問題なし)。

- 複数の行に登録されたキャラクターは、一括して変更できない。
- 「アクセント」「イントネーション」「長さ」を細かくカスタマイズできるが、編集した部分だけをリアルタイムにプレビューできず、その行全体を再生して確認するしかない。
- 読み上げ中のテキスト部分はハイライト表示されない(ウインドウ下の「アクセント」や「イントネーション」「長さ」でハイライトされる)。
- テキストの編集は、取り消しできない。
- 読み込めるのは、プレーンテキストフォーマットのみ。
- 辞書登録のテキストはインポート/エクスポートできない。
- ウインドウ内の表示は、Apple Magic Mouseのスワイプで上下左右にスクロールできるが、「プリセット」のパラメータースライダーの上にマウスポインターがある場合、意図せずにスライダー側が反応してしまう(取り消しは可能)。
- 音声の書き出しフォーマットがWAVEのみ。
- Apple Siliconに未対応。
- UIが、Apple Human Interface Guidelinesに準拠していない。
- キャラクターのイラストは非表示にできない…
- 書き出した音声ファイルは、キャラクターごとにライセンスに違いがあるので注意(包括ライセンスではない)。
