Microsoft Group Transcribeに無理やり議事録を書き起こしさせてみた

Microsoft Group Transcribeの使い方

  1. 会議の参加者は全員、自分のスマートフォンにMicrosoft Group Transcribeをインストールしておく。
  2. 「設定」で、自分が表示したいロケールを選ぶ(デフォルトは、OSの設定を自動参照)。
  3. 会議を始めるホストは、画面右下の[開始]ボタンをタップして、会議を始める。
  4. アルファベット5文字の「会話コード」が割り振られるので、参加者にBluetooth、QRコード、リンクで共有する。
  5. 参加者は、自分のスマートフォンに表示されるリンクで参加する。
  6. ホストと参加者は全員、自分と相手の発言が正しく認識され、テキストとして書き起こしまたは翻訳されているかを確認しながら発言する。認識中のテキストはグレー表示され、確定すると白に変わる。後はそのまま続行。
  7. 制限時間は30分。ホストは、適度に調整しながら進行する。30分までで1つのテキストファイルが生成されるので、さらに会議を続ける場合は、新たな会議としてリスタートする(新しい「会話コード」が発行される)。
  8. 会議終了後、テキストファイルをパソコンに転送するなりして編集。

Microsoft Group Transcribeを使ってみた

3つのソースで簡単にテストしてみました。

日本語話者同士の会議例

1つ目は、普通にMicrosoft Group Transcribeの規定通りの使い方です。参加者は取りあえず2人だけ。同じ机を挟んで少し離れた場所に座り、それぞれの目の前の卓上にiPhoneを置いてしばしトーク。

Microsoft Group Transcribeは同じ会議室で使うことが想定されていますが、リモートのビデオ(またはオーディオ)会議でも有効でしょう。リビングで子どもが見ているアンパンマンの音がどうしても漏れてくるとか、周囲がちょっとうるさいときは、iPhoneは口元近くに持っていった方が認識率は上がりそう。

早口でもしっかり認識しますが、相手に被った発言だとか、業界用語・専門用語、方言はやはり避けた方が無難。特に、リモートだとネットワークの影響で、相手と発言が被ることもしばしば。この辺りはビデオ会議と同様に、ホストがモデレーター役を兼ねて上手くリードした方がいいでしょう。

月刊対談「古谷経衡と堀潤の○○!」presented by #8bitNews​​ #1 保守とリベラル

2つ目は、YouTubeのビデオを借りてテストしてみました。ジャーナリストで8bit News​​の堀 潤さんと、作家の古谷 経衡さんの対談。穏やかに話す堀さんに、古谷さんが時に喰い気味に返すのは、一般の会議でもありがちですねw 確かに、話者が認識されない分、べた書きになって段落分けされず、どこがどっちの発言か分かりません。誤認識もちらほらあるとはいえ、通しで読めば、何が語られているかは十分に把握できます。

マイケル・サンデル教授インタビュー完全版「エリートは謙虚になるべき」「分断は能力主義によって起きている」【報ステ×未来を人から 完全版】【未来をここから】【Michael Sandel】

3つ目もYouTubeのビデオで、ハーバード大学のマイケル・サンデル教授のインタビューです。ちょうど、サンデル教授が英語、徳永アナウンサーが日本語だったので、ダメ元で実験してみました…が、コレは案の定ダメでした。iPhoneを2台、それぞれMicrosoft Group Transcribeを英語と日本語モードにして、離れた場所に置いて認識させようとしたんですが、そう都合よくはいきませんよね。サンデル教授のインタビュー自体がリモートだったことも影響していたかもしれません。

ただ、日本語と英語それぞれの認識精度は、高い結果が得られました。


Microsoft Group Transcribeは、とても便利で素晴らしいサービスなんですが、参加者全員にインストールして起動してもらうのは、リテラシーよりもセキュリティー的な面で厳しいと思います。ということで、本来の使い方ではない、アーカイブからの書き起こしに無理矢理使う例はありそうです。参加者が4人までぐらいで、しっかり声が拾われてさえいれば、アーカイブで使うのも悪くないオプションだと感じました。

また、もしかすると取材のときも、バックグラウンドでレコーダーアプリで録音しながら、同時に書き起こしまでできてしまうのでは!?とも妄想しました。もし相手が一人なら、その人用のiPhoneを近くに置かせてもらえば、発言者の区別はできるはず!そうすると、後処理が無茶苦茶楽になります。魅力的過ぎる <3

他に、音声認識文字起こしサービスとしては、人気のUDトークやAIが優秀らしいNottaも気になります。先にこっちを知っていましたが、こちらはほとんど使ったことがなかったので、今度は、こっちもレポートしてみます。

#Notta
104言語に対応するAI音声認識文字起こしアプリNottaを、ライティングツールとして試してみる
https://transcribe-saas-api.langogo.net/share?langogoInvite=pQ4eydW2