[google]音声認識で議事録を作成[スマホ・windowsPCから音声入力]

出来上がってきた議事録が、恐ろしいことに、主観的。。だった。。。

通常の企業ではありえない。だが「主婦」に昨日の会議では議事録をお願いしたのだが、出来上がった内容がもう「トンデモ」だった。

一般企業に就業したことのない「主婦」が議事録を書く。。。悲しいね。

自分(の夫)にプラスじゃない事は、かかないw 敵対している人なら、悪い所を強調するw これでは人間に品性を求めるなんて、できっこない。

会議はドイツ語。ドイツ語はB1レベルの彼女に、英語で議事録を書くことをススメたが、日本語で書いていた。女性に多い『主観者』だった。

人だからどうしようもない、メンバーも限られている。悩むね。。

もう『グーグル』の力が必要だ!

Googleドキュメントで音声入力しか方法がないだろう。
MSのOneNoteで録音+テキスト化したこともある。が、時間がかかる。
Youtubeの字幕機能も良さげだが、手間も結構かかる。

だからGoogleなのだ。デバイスはスマホかPCか。悩ましい。
方法は同じ。「Googleドライブ」に入って、Googleドキュメントを新規作成。

それだけで音声認識が始められる。

後述するが、精度は上々だ。

Googleナビも音声認識は、非常に有能に思う。実績がある。

PCで使ってみる

PC版の使用でハマる所があった。自分のPCはマイクが使えない?
下記の設定を弄ったが、結論から言うとPCの問題ではない。
・コントロールパネル>プライバシー>マイク
・右下スピーカを右クリック>サウンド>マイクを右クリック>音声認識

PCではなく、ブラウザの問題だった

クロームならイケる。

FirefoxもEdgeも何故かダメ。

このマイクのマークを押せば、ブラウザが反応するようになる。

スマホでテスト

ドイツ語がしっかり認識された。

ドイツ人と話しながらテストしたが、普通に認識する。

小声には対策が必要だ。

気になったのは、自分のスマホに登録している名前や「登録された言葉?(仲間を消す)」とかが出てきた。これヤバい。

ドイツ人と持ち主の私でドイツ語をしゃべったが、認識精度は完全じゃないものの、悪くはない。

だが議事録というよりも、会話録となってしまうのが、痛いなぁ。

聞き(書き)取りテスト

Youtubeのインタビュー(対話)を再生しながら、書き取りテストさせた。

つまりわかったのは、速すぎる会話はついていけない1点
誤記については深刻には考えていない。議事録だったら明らかに誤記だと判れば、変えればいいだけ。

では会議中に誰がこれを整えるか

まず言いたいのは、全部の発言を知りたいわけじゃない、ということ。

つまり、会議でだれがどう発言し、それに概ね、誰が賛同したりという状況が分かれば良いし、議事録なんて、そうそう見るもんじゃない。

上司に提出したり、エヴィデンスを残すためだけなのだ。あとは無駄。

つまり・・・誰が何を発言したか、ざっくりわかればいいだけ。

それを整えるだけだ。日本人だけの会議と違い、ハッキリ意見を述べる文化だから、議事録の内容も濃い。複数の言語が飛び出したりして、対応にも困るだろうが、、、、「主婦」にこれができるのかw

会議を進める場合、できるだけ低脳な人物に議事録を回したいものだ。
正直なところ、議論に参加できない馬鹿を教育するため、議事録をすすめる面もある。つまり有能で、有識で、まともな意見を述べる、ごくごく普通の人は、議論に参加してもらわないといけない。リソースは限られているので、できるだけ馬鹿な人物か、余裕(キャパ)のある人じゃないと頼めない。そもそも主婦でも賢い人もいるし、馬鹿が議事録をつけるべきというのも正しいとは思わない。人が足りない。仕事を減らしたい。

<後日報告>実際に使ってみた

できるだけゆっくり喋るように注意してもらった。
ドイツ語と日本語翻訳が入るという特殊環境だ。。

・PCで試したが、マイクは普通に会話を拾う。それはOK。
・PCとスマホで同時にやると、ダメなのが分かった。同期して使えない。
・日本語翻訳が入る分、ドイツ語聞き落としでも有利な点があった。
・しかし、、ベースの音声認識エンジンのスピードが足りない。
運悪く、ネットの繋がりが不安定。そのせいもある。
・ドイツ語の方が認識精度が悪かった。時間がかかっている。さらにドイツ語が下手な人が喋ると、ほとんど認識しない。総じて使えない。
・日本語だけ、ドイツ語だけのほうが認識精度が高い気がした。
・複数が同時に喋ると、もう駄目。議論を要するテーマには向かない。

今回の会議は恵まれた環境だったが、それでも発言が簡潔でないと、音声認識がまともに動かない。何回か試してみる必要はありそう。

惜しいところまで技術は来ている、そんな印象を受けた。

番外:より高度にCloud Speech APIを使う

この4月に出たばかりのGoogleの機能で、ラズパイの付録になり、世界欠品となった。買おうと思っていたが、もう入手は無理だろう。しかし今回のことで、また興味が出たw 日本ではあまり話題にならないw

要するにGoogle の Cloud Speech API を使っとけってことかもね。
APIは、phrasesの設定ができるので、GoogleDocumentよりも精度が良いのかな?憶測にすぎない。初期の頃よりも3倍も速くなったらしいので、今後もう2倍は速くなるだろうし、今のうちに慣れるのも良いかも。

詳しくは以下参照かも:

ついにGAになった機械学習による音声認識サービス Cloud Speech APIを試してみよう!

無料ですが、クレジットカード登録あり。

『無料トライアル期間が終了しても、自動的に請求されることはありません』

とありますが、AmazonPrimeもやってくれたもの、不信が募りますw

とりあえず集音をどうするかですね。

QR Code