カメラ不要!? Wi-Fiの"電波"を使った3D姿勢推定モデル「WiPose」

5125 ワード

PoseEstimation DeepLearning WiFi WiFi テキストリンク

はじめに

遂に、テクノロジーがここまで来ました。

＊＊カメラなしで、姿勢推定できる時代が来ます＊＊

Wi-Fiの電波を使って、障害物の向こうにいる人の姿勢や動きを高精度で推定する技術『WiPose』がニューヨーク州立大学の研究チームから発表されたので、ご紹介します！

この技術で驚くべき点の１つは、市販のWi-Fi電波送信機1台と、受信アンテナ数台だけで、3次元の姿勢推定ができる点です。

また、RGBカメラでは推定が難しかった「暗闇での姿勢推定」ができるのも驚きです。

どんな仕組み？

この技術でベースとなっている原理は「ドップラー効果」です。
救急車が目の前を通り過ぎるときに、サイレンの音の高さが変わるあの現象ですね。
一般に、波が発生している空間内で物体が動くと、波長が長くなったり短くなったりします。

今回の場合、Wi-Fiシグナルが発生している空間内を人が動くことで、波長が"わずかに"変化します。このわずかな変化を複数ヶ所で収集し、ディープラーニングモデルに流し込むことで姿勢を推定する、というのがWiPoseの推論の仕組みになります。

システム全体図

システム全体図は、下図の通り、①データ収集→②データ処理→③骨格構築の３ステップになっています。

①データ収集
　一台のWi-Fi電波発信機と、6〜9台の受信機を使って、データを収集。
②データ処理
　 Wi-Fiシグナルから、CSI(チャネル状態情報)を抽出。
③骨格構築
　 CSIをインプットに、ディープラーニングモデルを使って、骨格を推定。

【WiPoseのここがすごい】

WiPoseの平均誤差はわずか2.83cmです。2019年のSOTAモデルより、1.5cm(約35%)も精度が改善されています。
高精度を達成できた理由を２つ紹介します。

①骨格モデルの導入

1つ目は、人体骨格モデルを導入した点です。Wi-Fiシグナルは空間分解能が低く、シグナル情報が誤りがちなので関節点を独立に推定すると、最終的に不自然なポーズができあがることがあります。
彼らはこの課題を解決するために、「身体の各部位の長さは一定である」という特徴をモデルに組み込み、それぞれのボーンが親ノードを中心に何度回転しているかを考えることにしました。その結果、腕や足の長さは常に一定になり、自然な見た目を実現し、推論を安定させることができました。

②時系列情報の利用

2つ目は、時系列データを利用した点です。通常、身体の動きは複数のタイムフレームにまたがるため、連続するデータサンプル間には強い時間依存性があります。彼らはこの連続するデータサンプル間の関係を学習するために、RNN(再帰型ニューラルネットワーク)を使う手法を考案しました。

損失関数

損失関数についても少し触れておきます。

損失関数は、位置に関する損失 $L_p$、動きの滑らかさに関する損失 $L_s$、回転に関する損失 $L_r$の3種類を組み合わせて定義しています。

J = L_p + \beta L_s + \gamma L_r

（a）位置に関する損失
　　正解座標と推定座標との距離を計算します。（$p$は位置座標。）→正確な位置に近づけるための定義です。

\left|\left| \, p_{ground \, truth}^{t} - p_{predicted}^{t} \right|\right|_2

（b)動きの滑らかさに関する損失
　　ground truthと同じ方向に動いているかを計算します。（$||\cdot||_H$は、Huber損失。）→不自然な動きを抑制し、より人間らしい動きに近づけるための定義です。

\left|\left| \, v_{ground \, truth}^{t} - v_{predicted}^{t}\right|\right|_H

（c）回転に関する損失
　　推定されたボーンの向きが、ground truthの向きと同じかを計算します。($u:=p_{(child)}-p_{(parent)}$ 親ノードから見た子ノードの相対位置ベクトル)→手足の振れ幅や曲がり具合をより正確にするための定義です。

\left|\left| \, u_{ground \, truth}^{t} - u_{predicted}^{t}\right|\right|_H

WiPoseの応用先

WiPoseは、市販の機器の組み合わせで安価に作ることができ、また物隠れにも強いため、以下のように幅広い応用事例が論文にて紹介されています。

ヘルスケア：プライバシーを侵害せずに、高齢者や患者をモニタリングし、アラートを出す。（RGBカメラで24時間モニタリングされるのは嫌ですよね）
VR/ゲーム：障害物などにより手足が物に隠れてしまうような環境でも、人を正確に認識し、バーチャル空間に投影する。(十分に広い部屋でなくても、バーチャル空間に自分を投影し、ゲームを楽しめるようになります）
盗難検知：カメラだと検知が難しい、服やカバンで手を覆って行う万引きを検知する。（犯罪の抑制が期待できます）

まとめ

今回は、Wi-Fiを使った姿勢推定モデルについて、解説しました。
Wi-Fiの普及率は70%と言われており、今後、様々なシーンでの応用が期待できる技術です。

もっと詳しく知りたい！という方は、ぜひ論文を読んでみてください ↓↓

WiPose: https://cse.buffalo.edu/~lusu/papers/MobiCom2020.pdf

Author And Source

この問題について(カメラ不要!? Wi-Fiの"電波"を使った3D姿勢推定モデル「WiPose」), 我々は、より多くの情報をここで見つけました https://qiita.com/KYoshiyama/items/8e2c837ef25101f04b0d

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .