Googleの人工知能「DeepMind」、唇を見て何を喋っているのかすべてお見通し!人工知能のリップリーディングは驚異的な正確さ

日本語では「読話」や「読唇」と言われる、リップリーディング。窓際とか遠くにいる人が何を話しているのか、唇の動きを見て会話の内容を把握するというものですが、今回囲碁の勝負でプロ棋士に勝った事で一躍話題になったGoogleの人工知能「AlphaGo」やオックスフォード大学が開発した「LipNet」が人間のリップリーディングに挑戦。結果、プロ専門家の結果を大幅に上回る成果を残しました!

機械学習のリップリーディング性能、非常に正確でプロ顔負け!

今回行った実験ですが、英オックスフォード大学が実施したもので、BBC放送からランダムな動画200本を選び、プロのリップリーディング専門家が行った結果と比較するというものです。事前にAlphaGoに対して、トレーニング用のデータとして延べ5,000時間にも及ぶ動画を再生し、文章の数は118,000個をインプットさせたようです。

結果ですが、プロの専門家は各々の文章やセンテンスの1/4程度しか読話できなかったことに対して、DeepMindは複雑な文章もしっかりと解読していたとのことです。加えて、AlphaGoが解読した約46%の単語がエラーなしに対して、プロの専門家はたった12%だったとのこと。さらにAlphaGoのエラー内容は、プロの専門家と比較して非常に小さく、例えば単語の最後の”s”が抜けていたといった内容だったようです。


その2週間前には、オックスフォード大学にて別の機械学習・マシーンラーニングを利用したプロジェクト「LipNet」が始動し、LipNetは前述のAlphaGoより優秀な成果を挙げています。トレーニング用に使用したデータは、前述のBBCの動画とは異なり、人間がカメラに向かって時間にして約3秒分の単語やフレーズを読み上げるというもの。計29,000もの動画が使用された後の成果として、プロの専門家の平均エラー率は47.7%だったのに対して、LipNetは何と6.6%に止まったという驚異的な結果となりました。

思い出すのは、かの有名な映画「2001年宇宙の旅」の有名なワンシーン、コンピューターのHALが窓越しに写っている宇宙飛行士の会話を解読して、先にアクションを起こすというもの。そんな世界がもう間近に来ていると思うと、ちょっとびっくりですね。

今後はSiriなどに統合されることで、例えばiPhoneの前面カメラで自分の唇の動きを読み取って、今までのキーボードや音声入力の代わりとして役立ったり、ろうあ者とビデオ通話を通じて手話以外の手段として会話できるような利用シーンが想定できますね。

発信元:Techspot

関連お勧めアイテム

[amazonjs asin=”B016PL9XAU” locale=”JP” title=”2001年宇宙の旅(初回限定生産) Blu-ray”]

[amazonjs asin=”B01LTHLEGQ” locale=”JP” title=”インターステラー/ゼロ・グラビティ/2001年宇宙の旅 ワーナー・スペシャル・パック(初回仕様/3枚組) DVD”]

[amazonjs asin=”4798046876″ locale=”JP” title=”図解入門 最新人工知能がよ~くわかる本 (How-nual図解入門Visual Guide Book)”]

[amazonjs asin=”B01M3OH87R” locale=”JP” title=”よくわかる人工知能 最先端の人だけが知っているディープラーニングのひみつ”]

この記事が気に入ったら
いいね ! しよう

Twitter で