Microsoft Group Transcribeに無理やり議事録を書き起こしさせてみた

Microsoft Group Transcribeのココがいい!

  • 日本語の認識も、適切な声量や滑舌なら、一般的な音声認識より精度が高い印象。
  • 常にネットワークと通信して、iPhoneやネットワークに負荷が掛かるようなことはなさそう。iPhone本体も熱くなったりしない。
  • 認識中はiPhoneはスリープしないバックグラウンドでも動作する(認識の状況を目視できなくなるので、あまりお勧めできない)。
  • 途中で何らかの障害が起きても、認識された時点までのテキストは正しく保存される
  • ビデオ会議のアーカイブや録音ファイルからの書き起こしは、本来の使い方ではないものの、議事録やセミナー、トークイベントの書き起こしなどにもそれなりに便利に使える(今回、無理矢理やったのはコレ)。

Microsoft Group Transcribeのココは要注意だったりイマイチ…

  • セッションが60分だと嬉しいかも。効率アップにはいいが30分はちょっと短いので、[延長]ボタンが欲しくなる。
  • 音声認識から文字起こしまで、どうしても少し時間が掛かるので、リアルタイムな会話のやり取りにテンポよくアップデートされるわけではない。
  • 認識が怪しかったり、不明な箇所をマーキングするような機能はないので、誤認識もそのまま地の文の一部に埋められる。
  • Microsoft Group Transcribeの中では、テキストを編集できないので、任意のエディターで開いた先で編集する必要あり。
  • 参加者のアイコンは、カラーを変えたり写真を貼ったりカスタマイズできないので、誰の発言か分かりづらい。
  • テキストに入るタイムスタンプは、会議がスタートしてからの経過時間で、実時間とは連動しない。
  • 設定で、ロケールを検索したり、メジャーなロケールをピックアップできない。上下にスワイプする必要あり。

Microsoft Group Transcribeに限らず、音声認識の一般的な弱点

  • 正しく認識できなかった部分をチェックするのに、聞き直す時間が掛かってしまう。時々停止したり、聞きづらい部分を繰り返す必要もあるので、例えば30分の会議も、30分の聞き直しでは済まない。
  • 特定の商品やサービス名、専門用語、業界用語、略語、地名、人名、方言などは誤認識されがち。予め辞書登録しておいて認識率を上げられないと、後の編集が結構手間。
  • 複数の話者が個別に識別されないと、切り分けが難しい。
  • 周辺のノイズ、話者の声量や滑舌、マイクまでの距離、ネットワークなど、いろいろな条件の影響を受ける。入力の音質や音量が低いと、当然、認識率は下がる。
  • どうしても日本語の対応は後回しだったり、限定的。
  • ライン入力などができないと、音が周囲に聞こえてしまうため、セキュリティーは要注意。Webサービスの場合も、データをアップロードするので、セキュリティーリスクはゼロではない。