Microsoft Group Transcribeにムリに議事録を書き起こさせてみた

投稿日 2021-08-05
更新日 2025-03-16
著者 kotobato
カテゴリーテクノロジー

会議の議事録作成って、どうしてますか？ポイントだけ拾いながらリアルタイムにまとめていく高いスキルは必須ですし、キーボードのカタカタ音が参加者には耳障りだったりしますよね。

また、メンバーに外国語ネイティブな人と、日本語以外ダメな人とが参加している時はどうしましょう？通訳係も必要ですし、それもそれで大変。オフショアで何か開発・製造するとか、外資系・越境ビジネスとかでなくても、優秀な外国人メンバーと仕事をする機会は、今後さらに増えるでしょう。

そんな悩みをまとめて解決してくれる優れたアプリが、Microsoft Group Transcribeです。今年の3月にアナウンスされてすぐダウンロードし、ずっと気になってはいたものの、本格的に使う機会がなかったiPhoneアプリです。Microsoft Group Transcribeは、対面のライブの会議で使うことが前提ですが、本来の使い方ではない、録音ファイルからの日本語の書き起こしだけでも十分使えたので、それを紹介します。

1:01からのリアルタイム翻訳も素晴らしい！！

Microsoft Group Transcribeって、どんなサービス？

会議音声のリアルタイムテキスト化と、自動翻訳を同時に実現する無料アプリ。今のところ、iOS版のみ。
同じ部屋にいる複数のユーザーが、それぞれ自分のスマートフォンを使って参加して使う。ユーザーが各自のスマートフォンを使って参加することで、発言者の識別、書き起こしと翻訳の高い精度を実現している。
アカウントの登録やパスワード、認証などが不要。会議を始めるホストも、ビデオ会議のような管理者権限は特にない。
ランダムなアルファベット大文字5文字の「会話コード」が割り振られ、それを入力することで同じ会話に参加できる。会議に参加するには、Bluetooth、QRコード、リンクから。
会議に参加する人数に制限はないが、最大4人が最適。Bluetoothで参加できるのは4人まで。
80以上のロケール（言語や国・地域設定）をサポート。
会話は録音されず、端末にもサーバーにも転送されないのでセキュア。
1回の音声認識は「セッション」と呼ばれ、30分。制限時間2分前にリマインドされる。
会話はプレーンテキストとして保存され、パソコンに転送可能。各参加者の発言の冒頭には、自動的にタイムスタンプが記録される。
「設定」＞「スピーチ寄付の管理」をオンにすることで、認識率向上に貢献。音声とテキストがセキュアな状態で解析される。
Microsoft Garageという実験的プロジェクトの成果。妄想ながら、将来はMicrosoft Teamsのアドオンになるか、組み込まれるんだろうなという印象。

Microsoft Group Transcribeを使うと幸せになれる人

会議の議事録役をよくやる・やらされるビジネスマン
自分用の記録として、テキストで手元に残しておきたい社会人
海外メンバーとのビデオ会議に毎回緊張感を覚えるじゃぱにーず
支援ツールを探している、聴覚障害のある方やその周囲の皆さん
取材の後、文字の書き起こしをしなければならないライター

Microsoft Group Transcribeのココがいい！

日本語の認識も、適切な声量や滑舌なら、一般的な音声認識より精度が高い印象。
常にネットワークと通信して、iPhoneやネットワークに負荷が掛かるようなことはなさそう。iPhone本体も熱くなったりしない。
認識中はiPhoneはスリープしない。バックグラウンドでも動作する（認識の状況を目視できなくなるので、あまりお勧めできない）。
途中で何らかの障害が起きても、認識された時点までのテキストは正しく保存される。
ビデオ会議のアーカイブや録音ファイルからの書き起こしは、本来の使い方ではないものの、議事録やセミナー、トークイベントの書き起こしなどにもそれなりに便利に使える（今回、無理矢理やったのはコレ）。

Microsoft Group Transcribeのココは要注意だったりイマイチ…

セッションが60分だと嬉しいかも。効率アップにはいいが30分はちょっと短いので、［延長］ボタンが欲しくなる。
音声認識から文字起こしまで、どうしても少し時間が掛かるので、リアルタイムな会話のやり取りにテンポよくアップデートされるわけではない。
認識が怪しかったり、不明な箇所をマーキングするような機能はないので、誤認識もそのまま地の文の一部に埋められる。
Microsoft Group Transcribeの中では、テキストを編集できないので、任意のエディターで開いた先で編集する必要あり。
参加者のアイコンは、カラーを変えたり写真を貼ったりカスタマイズできないので、誰の発言か分かりづらい。
テキストに入るタイムスタンプは、会議がスタートしてからの経過時間で、実時間とは連動しない。
設定で、ロケールを検索したり、メジャーなロケールをピックアップできない。上下にスワイプする必要あり。

Microsoft Group Transcribeに限らず、音声認識の一般的な弱点

正しく認識できなかった部分をチェックするのに、聞き直す時間が掛かってしまう。時々停止したり、聞きづらい部分を繰り返す必要もあるので、例えば30分の会議も、30分の聞き直しでは済まない。
特定の商品やサービス名、専門用語、業界用語、略語、地名、人名、方言などは誤認識されがち。予め辞書登録しておいて認識率を上げられないと、後の編集が結構手間。
複数の話者が個別に識別されないと、切り分けが難しい。
周辺のノイズ、話者の声量や滑舌、マイクまでの距離、ネットワークなど、いろいろな条件の影響を受ける。入力の音質や音量が低いと、当然、認識率は下がる。
どうしても日本語の対応は後回しだったり、限定的。
ライン入力などができないと、音が周囲に聞こえてしまうため、セキュリティーは要注意。Webサービスの場合も、データをアップロードするので、セキュリティーリスクはゼロではない。

Microsoft Group Transcribeの使い方

会議の参加者は全員、自分のスマートフォンにMicrosoft Group Transcribeをインストールしておく。
「設定」で、自分が表示したいロケールを選ぶ（デフォルトは、OSの設定を自動参照）。
会議を始めるホストは、画面右下の［開始］ボタンをタップして、会議を始める。
アルファベット5文字の「会話コード」が割り振られるので、参加者にBluetooth、QRコード、リンクで共有する。
参加者は、自分のスマートフォンに表示されるリンクで参加する。
ホストと参加者は全員、自分と相手の発言が正しく認識され、テキストとして書き起こしまたは翻訳されているかを確認しながら発言する。認識中のテキストはグレー表示され、確定すると白に変わる。後はそのまま続行。
制限時間は30分。ホストは、適度に調整しながら進行する。30分までで1つのテキストファイルが生成されるので、さらに会議を続ける場合は、新たな会議としてリスタートする（新しい「会話コード」が発行される）。
会議終了後、テキストファイルをパソコンに転送するなりして編集。

Microsoft Group Transcribeを使ってみた

3つのソースで簡単にテストしてみました。

日本語話者同士の会議例

1つ目は、普通にMicrosoft Group Transcribeの規定通りの使い方です。参加者は取りあえず2人だけ。同じ机を挟んで少し離れた場所に座り、それぞれの目の前の卓上にiPhoneを置いてしばしトーク。

Microsoft Group Transcribeは同じ会議室で使うことが想定されていますが、リモートのビデオ（またはオーディオ）会議でも有効でしょう。リビングで子どもが見ているアンパンマンの音がどうしても漏れてくるとか、周囲がちょっとうるさいときは、iPhoneは口元近くに持っていった方が認識率は上がりそう。

早口でもしっかり認識しますが、相手に被った発言だとか、業界用語・専門用語、方言はやはり避けた方が無難。特に、リモートだとネットワークの影響で、相手と発言が被ることもしばしば。この辺りはビデオ会議と同様に、ホストがモデレーター役を兼ねて上手くリードした方がいいでしょう。

参加者側の画面にもホストと同じ内容が表示 — 会話するとテキストが自動認識される

月刊対談「古谷経衡と堀潤の○○！」presented by #8bitNews #１　保守とリベラル

2つ目は、YouTubeのビデオを借りてテストしてみました。ジャーナリストで8bit Newsの堀潤さんと、作家の古谷経衡さんの対談。穏やかに話す堀さんに、古谷さんが時に喰い気味に返すのは、一般の会議でもありがちですねw 確かに、話者が認識されない分、べた書きになって段落分けされず、どこがどっちの発言か分かりません。誤認識もちらほらあるとはいえ、通しで読めば、何が語られているかは十分に把握できます。

マイケル・サンデル教授インタビュー完全版「エリートは謙虚になるべき」「分断は能力主義によって起きている」【報ステ×未来を人から完全版】【未来をここから】【Michael Sandel】

3つ目もYouTubeのビデオで、ハーバード大学のマイケル・サンデル教授のインタビューです。ちょうど、サンデル教授が英語、徳永アナウンサーが日本語だったので、ダメ元で実験してみました…が、コレは案の定ダメでした。iPhoneを2台、それぞれMicrosoft Group Transcribeを英語と日本語モードにして、離れた場所に置いて認識させようとしたんですが、そう都合よくはいきませんよね。サンデル教授のインタビュー自体がリモートだったことも影響していたかもしれません。

ただ、日本語と英語それぞれの認識精度は、高い結果が得られました。

Microsoft Group Transcribeは、とても便利で素晴らしいサービスなんですが、参加者全員にインストールして起動してもらうのは、リテラシーよりもセキュリティー的な面で厳しいと思います。ということで、本来の使い方ではない、アーカイブからの書き起こしに無理矢理使う例はありそうです。参加者が4人までぐらいで、しっかり声が拾われてさえいれば、アーカイブで使うのも悪くないオプションだと感じました。

また、もしかすると取材のときも、バックグラウンドでレコーダーアプリで録音しながら、同時に書き起こしまでできてしまうのでは！？とも妄想しました。もし相手が一人なら、その人用のiPhoneを近くに置かせてもらえば、発言者の区別はできるはず！そうすると、後処理が無茶苦茶楽になります。魅力的過ぎる <3

他に、音声認識文字起こしサービスとしては、人気のUDトークやAIが優秀らしいNottaも気になります。先にこっちを知っていましたが、こちらはほとんど使ったことがなかったので、今度は、こっちもレポートしてみます。

#Notta
104言語に対応するAI音声認識文字起こしアプリNottaを、ライティングツールとして試してみる
https://transcribe-saas-api.langogo.net/share?langogoInvite=pQ4eydW2

Nintendo DSで手書き入力した日本語の文字認識がスゴかった

日本語音声読み上げWebサービスText-to-MP3が結構スゴかった

鼻歌フフフンで音楽検索できるアプリShazam

AIに夏休みの読書感想文を書いてもらうのは、まだ無理っぽいけど…

Tinderでフェイクアカウントを見破る写真とプロフィールのヒント

Tinderと『ブレードランナー』と生成AIは「対話」の夢を見るか？

時間管理がダメ過ぎる私がやっとToggl Trackなら続けられてる理由