Whisperで日本語が書き起こせるMac/iPhone用アプリが楽で高精度だった

Hello Transcribeアイコン
Hello Transcribeアイコン

Hello TranscribeというMac/iPhone用の音声書き起こしユーティリティーがバージョンアップして、精度が高いWhisper Large-V3言語モデルが使えるようになったので、レポートします。先日のOpenAI DevDayで発表され、さらに精度が上がったモデルなので、とても高品質な結果が得られました。

Whisperはコマンドラインで使えるけれど…

Whisper自体は、必要な設定さえすればコマンドを入力することで使えます。ローカルに環境をセットアップして使うことも可能です。私もその環境は作っています。ただね、GUIで簡単に操作したいわけ。どっちが楽かは、人次第。

openai/whisper-large-v3 · Hugging Face

Whisper Large V3 – a Hugging Face Space by choimirai

Hello Transcribeって、どんなユーティリティー?

そこで、Hello Transcribe。これは、MacとiPhone、iPad用の音声文字起こしユーティリティーです。ChatGPTを開発しているOpenAI社のWhisperとWhisper.cppを使っていて、日本語の精度も非常に高いのが特長です。特長や制限の大半が、Hello TranscribeじゃなくWhisperのそれなんですが、一応紹介してみます。

  • 音声メモやPodcast、あらゆる音声ファイル(多くのフォーマットに対応)から書き起こしが可能。
  • 日本語も非常に高い精度。予めビルトインされている言語モデル以外に、プロにアップグレードしてbase/small/medium/largeなど、いろいろなモデルデータをダウンロードして使える。
  • オーディオファイルだけでなく、ビデオファイルもサポートしていて、写真.appのライブラリーを直接指定できる。
  • マイクからのライブ書き起こしにも対応しているので、口述筆記にも対応。
  • タイムスタンプを入れるか、認識できなかった部分を「…」で埋めるかをオプションで選択可能。
  • デバイス上で処理され、プライバシーが守られる。結果はiCloudに暗号化して保存される。
  • 書き起こしたテキストは、VTT(WebVTT:Web Video Text Tracks)またはSRTファイル(Sub Rip Subtitle)を書き出せるので、ビデオに字幕を追加するのも楽。
  • 多言語に対応。英語に翻訳も可能。

Hello Transcribeを使うと幸せになれる人

  • Terminalでコマンドを叩くより、GUIで操作したい合理主義者
  • 会議で議事録を取りたいビジネスユーザー
  • 取材や打ち合わせ、イベントから文章を起こさなければならないライター
  • 多言語の環境があるインターナショナリスト
  • 授業やトレーニングで音声メモを取ってる学び人
  • セキュリティーやデバイスの管理権限があるか、関係者と調整できる人たらし

Hello Transcribeのココがいい!

  • 精度が高いWhisperのLarge言語モデルが使える(有料アップグレード推奨というより必須!)。一部の同音異義語や不明瞭な発音、言い淀み、言い間違いを拾ってしまったり、商品やサービス名を間違える以外は、ほぼ完璧に近い精度。
  • Pro版はサブスクリプションじゃなく、1,000円という超リーズナブルな買い取り(別に、全モデルが使える300円/月のサブスクプランもあるものの、Largeだけ買えば十分)!Mac App Storeで買って、複数のデバイスで使え、iPhoneアプリもそのまま使える。
  • スピードもそれなり。1時間ほどの音声で、約18分掛かった(詳細は後述)。別に速くはないが、待てないほどではない。
  • 迷いようがない、シンプルなUIで使いやすい。書き起こしたいファイルをドラッグ&ドロップするだけ。
  • オーディオのIN/OUTを接続したりしなくていいので、スピーカーがオフでも動作する。

Hello Transcribeのここは要注意

  • 処理の負荷がかなり高いので、他のアプリケーションを使いながらは非推奨。MacならApple silicon前提で、Largeモデルを使うならM2以上(M1 MacはMediumモデルまで)。
  • 使うデフォルトのモデルを設定できない。Large-v3を使う場合は、いちいち選択・確認しなければならない。途中で設定を変えるたびに、最初から認識がリスタートされてしまう。
  • 処理の進み具合が、プログレスバーやパーセンテージなどで表示されないのでわからない。終了しても、チャイムなどで知らせてくれない。
  • ビデオファイルや、マイクからの直接認識は、使い勝手に難あり。音声ファイルを認識させるのがオススメ。
  • テキストは書き出すか削除するかだけ。アプリケーションに保存しておくことはできない。アプリケーションが途中で終了した場合でも、そこまでのログは残らない。
  • 方言や専門用語が多かったり、ノイズ混じりだと精度は落ちる。固有名詞などの辞書学習機能はない(これも恐らく「今はまだ」)。
  • 複数話者の区別はできない。
  • VTTファイルで書き出しても、標準ではQuick Lookできない。できても日本語は文字化けする。

iPhoneで使うのはあまりオススメできない

iPhoneで使うのは、あまりオススメではないかも。かなり警告されます。他のアプリを全部終了するように警告されますし、実際、処理中の本体もかなり熱くなります。Largeモデルを使うのは非推奨(iPhone 15 ProでもMediumモデルまで)。