【ディープラーニング】WEBカメラだけで実現する高精度AI骨格検出システム「VisionPose(ビジョンポーズ)」がすごい!

こんにちは。ITブロガーのマサタカです。骨格トラッキングもここまできたか!

NEXT-SYSTEMからWEBカメラだけで実現する、高精度AI骨格検出システム「VisionPose®(ビジョンポーズ)」︎製品版を11月19日より法人向けに販売開始

こちらのシステムが超すごいのでご紹介します。まずはこちらの動画を見ていただけるとわかりやすいです。

WEBカメラだけで実現

今までは、骨格トラッキングをするには「深度センサ」付きのカメラが主流でした。これは、赤外線でカメラとモノの距離を測定する仕組みです。2次元の情報より3次元での処理の方が精度を上げやすのはご想像いただけると思います。

その主流となっていたのがMicrosoft「Kinect」です。Kinectには骨格トラッキングのソフトもついていて当時はかなりの精度でした。僕も実際に取り扱って検証しています。しかし、赤外線には大きな問題があり、日光に弱いため屋外や屋内でも窓際などでは使えません。つまり、環境依存が大きいのです。

そこで今回のVisionPoseでは、この深度センサを使わずに2次元画像(普通のカラー画像)だけで骨格トラッキングを実現しています。つまり、深度センサを使わずに深度情報を検出しています。

これを可能にしているのが、お気づきの通り「ディープラーニング(深層学習)」です。様々な環境や条件の画像を大量に投入してモデルを作って実現しています。しかもモデルの超軽量化を図っているそうで、将来的にはスマートフォン上の身で動作することも可能だそうです。(今までの骨格トラッキングはハイスペックPCが必要でした)

HPにさらっと書いてあったけど、下記情報がすごく嬉しい!

提供予定について

  • まずは法人向けに販売だけど後にエンドユーザー向けにも!クラウドサービスでの提供を検討!
  • C#のSDKとして提供される!
  • Unityからの利用も近日提供予定!
僕、歓喜(笑)



VisionPoseのすごいところ

トラッキング箇所はなんと30箇所!

体の各部位の関節(25箇所)と顔パーツ(5箇所)の合計30箇所を検出できます。Kinect V2では25箇所でしたので、さらに細かい測定が可能です。

追加学習で精度調整させることも可能!

ある特定の動作が骨格トラッキングできない、、ということは今までは多々ありました。その際はプログラム側でかなりゴリゴリ頑張らないといけませんでした。(本当に大変!)

しかし、VisionPoseではAI(ディープラーニング)で測定モデルを作っているため、こちらに追加学習をさせてあげれば調整が可能になります。

さらにすごいのが、追加学習させるのにも、大量の教師データ(AIに教えてあげるデータ)となる画像データが必要になります。なんと、そのデータを作成してくれるアノテーションツール」というツールもオプション機能らしいのですが用意されているそうです!これは開発者からすると嬉しすぎです。

既存の深度センサ付きカメラとの比較

それでも既存の深度センサ付きカメラより精度が落ちていたら、正直微妙ですよね?そこで、比較動画がこちらです。

超難しいはずのクロスや重なりにも強すぎ!すごい。

深度(カメラからの距離)を検出

ディープラーニングがすごいのはわかるけど、本当に2次元画像だけで距離を測れるの??

これカメラを扱ってきた技術者の方ならそう思って当然です。僕も思いました。そこで、こちらの動画。

複数人でそれっぽい数字になってる!しかもミリ単位でほぼリアルタイムです。

スポーツ活用もできる

骨格トラッキングはスポーツの分野でも結構前から注目されていました。VisionPoseはもちろんここでも活躍しそうです。

バットやラケットの代わりに持っている棒をちゃんと人の一部として捉えていないのがすごい。これ相当難しいはずなので、モデル調整はしているはず。これなら実用的なので、本当に競技者の技術向上に使えるサービスになり得るかも。

車椅子に座った状態でも検知できる

既存製品のデメリットの1つとして「座っている状態に弱い」というものがありました。一応Kinectでは座っていてもOKと謳われていましたが、正直微妙な精度でした。そこでこちらの動画です。

驚愕な精度!これもとんでもなく難しいはずなのですが。

これから、老人ホームなどの高齢者見守りを目的としたシステムが社会的に求められてくるはずです。こちらの技術はとても活用されそう。

バーチャルYouTuberにも!

もし個人提供された場合の、最もアツい使われ方と思われるVtuberでも活躍しそうですよ。※Vtuberを作るソフトは自前だと思います。

ここまで全身を再現できれば、本当に仮の自分がいるかのよう。PCに付属しているWEBカメラでできてしまうので、もしかしたらこれが一番使われることになるかも!



まとめ

久しぶりにびっくりサービスを見つけました。

僕も結構この辺りの技術は使い込んでいたので、こちらの精度がどのくらいすごのか理解できます。

個人向けが提供されたら、まずは色々いじってみたいです。楽しみ!

【AI VS. 教科書が読めない子供達】 AI社会で生き残るために必要な知識を短い時間で習得する 解説まとめ

2018.09.10