Googleの人工知能「DeepMind」、唇を見て何を喋っているのかすべてお見通し!人工知能のリップリーディングは驚異的な正確さ

日本語では「読話」や「読唇」と言われる、リップリーディング。窓際とか遠くにいる人が何を話しているのか、唇の動きを見て会話の内容を把握するというものですが、今回囲碁の勝負でプロ棋士に勝った事で一躍話題になったGoogleの人工知能「AlphaGo」やオックスフォード大学が開発した「LipNet」が人間のリップリーディングに挑戦。結果、プロ専門家の結果を大幅に上回る成果を残しました!

機械学習のリップリーディング性能、非常に正確でプロ顔負け!

今回行った実験ですが、英オックスフォード大学が実施したもので、BBC放送からランダムな動画200本を選び、プロのリップリーディング専門家が行った結果と比較するというものです。事前にAlphaGoに対して、トレーニング用のデータとして延べ5,000時間にも及ぶ動画を再生し、文章の数は118,000個をインプットさせたようです。

結果ですが、プロの専門家は各々の文章やセンテンスの1/4程度しか読話できなかったことに対して、DeepMindは複雑な文章もしっかりと解読していたとのことです。加えて、AlphaGoが解読した約46%の単語がエラーなしに対して、プロの専門家はたった12%だったとのこと。さらにAlphaGoのエラー内容は、プロの専門家と比較して非常に小さく、例えば単語の最後の”s”が抜けていたといった内容だったようです。


その2週間前には、オックスフォード大学にて別の機械学習・マシーンラーニングを利用したプロジェクト「LipNet」が始動し、LipNetは前述のAlphaGoより優秀な成果を挙げています。トレーニング用に使用したデータは、前述のBBCの動画とは異なり、人間がカメラに向かって時間にして約3秒分の単語やフレーズを読み上げるというもの。計29,000もの動画が使用された後の成果として、プロの専門家の平均エラー率は47.7%だったのに対して、LipNetは何と6.6%に止まったという驚異的な結果となりました。

思い出すのは、かの有名な映画「2001年宇宙の旅」の有名なワンシーン、コンピューターのHALが窓越しに写っている宇宙飛行士の会話を解読して、先にアクションを起こすというもの。そんな世界がもう間近に来ていると思うと、ちょっとびっくりですね。

今後はSiriなどに統合されることで、例えばiPhoneの前面カメラで自分の唇の動きを読み取って、今までのキーボードや音声入力の代わりとして役立ったり、ろうあ者とビデオ通話を通じて手話以外の手段として会話できるような利用シーンが想定できますね。

発信元:Techspot

関連お勧めアイテム

関連お勧め記事

電子ペーパーもいよいよフルカラーの時代へ突入か?!デジタルサイネージが近々電子ペーパー化へ!... 皆さんは電子ブックリーダーをお持ちですか?Amazon Kindleや楽天 koboなどがメジャーですが、画面は白黒と言うのが当たり前でした。今回、電子ペーパーを手がける台湾E Ink社がフルカラーの再現を可能とする電子ペーパー「ACeP」を発表し、驚きの省電力に加えて、各ピクセル単位で色を再現する...
Facebookは機械学習や人工知能を使って次レベルな人口統計マップを作成中?... ユーザー15.9億人にも及ぶFacebookですが、現在膨大なコンピューターリソースを使い、次なる人口統計マップを作成中とのことです!...
【発表会レポート】KickStarterで人気を集めた、あの知性ロボット「Romo(ロモ)」が遂に日... 日本市場にて米国アイロボット社ルンバやスウェーデンの高性能空気清浄機「ブルーエア」等を扱う、セールス・オンデマンド社が、本日Romotive(ロモティブ)社の製品である「Romo(ロモ)」を日本市場向けに提供することを発表しました。...

この記事が気に入ったら
いいね ! しよう

Twitter で