(作成中)[整理調査論文]deep learning三次元再構築:a調査
5445 ワード
3D reconstruction using deep learning : a survey
3 Dリビルド分野に関心があるため、この分野を理解するために、2020年にInformation and Systemsで発表された調査論文を読み、整理します.
論文の概要は以下の通りである. Introduction Overview Single Image reconstruction Multiple image reconstruction Sketch reconstruction Conclusion
3 Dリビルドとは,与えられた入力の3 D形状を表す.これは、リモートセンシング、ナビゲーション、3 Dアニメーション、医療支援など、幅広いアプリケーションで解決する必要がある問題です.
従来,単一画像の三次元再構成の主流の方法は,光照射と反射率の特定の仮定に基づいているので,入力された反射率,光照射,テクスチャに非常に敏感である.
深さ学習技術の発展に伴い,三次元再構成の性能と効率が大幅に向上した.初期の深さ学習に基づく方法では,3 D地上‐リアリティを監督として用いた.しかし、3 Dground-真理は労働密集型であり、入手が困難である.そこで,3 Dモニタリングの代わりに,3 D情報を2 D空間に投影して弱いモニタリングを行うことを提案する.
さらに,再構成結果の2 d投影とInput画像との差を最小化する自己監視法を提案した.さらに,GAN(Generative Advancial Networks)に基づいて,無監視法を用いて三次元形状再構成を実現するいくつかの研究がある.マルチビュー3 D構造については、入力画像を異なるビューから位置合わせするために、フォトニック立体とSFM(shape from motion)技術がよく用いられる.しかし,この方法はfreeviewにおいてオブジェクトを効率的かつ正確に再構築するのに一定の制限がある.
Neural Networksは、最初は整列を支援するために使用されましたが、入力画像から直接完全な形状を再構築するために使用されました.
また,非剛性オブジェクト(非構造化オブジェクト)の再構成を扱うために,SFM,NRSFT(非剛性形状from template)および従来のモデルをフレームワークに用いた.
概して,三次元再構成技術は長い間研究されてきたが,その性能と汎用性はまだ満足できる程度ではない.
3 D再構築研究の分類法にはいくつかの重要な変化がある:入力形式、形状表現、ネットワーク構造.
デフォルトでは、inputはRGBイメージとsketchの2つに分けられます.
Depthは他の文献でも入力形式の一つとされている.しかし、深さベースの方法は、追加の入力、中間ofネットワーク、または分割または欠落部分などの他のタスクに深さを集中させる.そこで,本論文ではRGB画像とsketchベースの方法のみを論じる.
RGB画像の現実生活における高可用性のため,RGB画像入力はコミュニティにおいて深く研究されている.RGB入力に基づく方法では、単一画像を入力とする方法がいくつかあり、他のいくつかはビデオフレーム形式の画像シーケンスと各種視点の画像をネットワークの入力とする.この間,スケッチベースの方法ではエッジマップや標準化されたline−drawingが一般的に用いられ,end−to−endフレームワークの発展により,非専門家が操作しやすい手描きスケッチが最近研究されている.スケッチ入力の情報損失を扱うために辞書知識とGANを用いた.
入力だけでなく,3 Dshapeの表現は再構築タスクにも重要である.ネットワーク構造の設計とパフォーマンスに影響を与えることを示します.ボリューム法は、3 Dメッシュからボクセルとして3 Dシェイプを表します.2 D画像の画素と同様に,ボリュームネットワークは2 Dボリュームから容易に拡張できる.しかし、容量メソッドのメモリ消費量は大きい.
Points Cloudはメモリを節約する3 D形状表示方法です.Point cloudベースの方法では、3 D座標の頂点を使用して形状を表します.Point cloudを使用してマッピングを行い、点を面に分割し、点群をmeshに変換できます.Meshベースの方法はトポロジーと計算ホットスポットであるが,マッピングにより入力からmeshを直接一般化する.また、プレースホルダメッシュ、oc-tree、parameters、signed distance field(SDF)も、三次元形状を再構築するために選択されたネットワーク表現である.
ネットワーク構造に関しては,多層Perceptron(MLP)が通常ニューラルネットワークベースの初期方法として用いられる.CNN(Convolutional Neural Networks)は、2次元情報を処理するのに適しているため、再構築作業に広く用いられている.RNN(Recent Neural Networks)は入力の順序特性を決定するために使用され、GAN(Generative Advancial NetworkKrs)は損失した情報を予測し、ネットワークの汎用性を向上させるのに役立つ.さらに,最近の研究では,非Euclidean構造データの処理の妥当性のために,いくつかの特定の問題(e.g.face再構成)にGCN(Graph Convolutional Networks)を用いた.
本稿では,深さ学習を用いた三次元再構成について概説する.ネットワークの入力形式に基づいて,再構成方法を調査し,各部分を内部論理の下に組織した.
https://shapenet.org/
ShapeNetは、55クラスからなる50000以上のCADモデルを含むShape Repositoryです.意味カテゴリとプロパティのコメントを提供します.
2. Pascal 3D+
https://cvgl.stanford.edu/projects/pascal3d.html
Pascal 3 D+は12クラスの3 D構造化オブジェクトを含み、各クラスは3000以上のオブジェクトを含む.主に3 Dターゲット検出と姿勢推定に用いられる.また、コミュニティでベースラインとしてよく使用されます.
3. ObjectNet3D
https://cvgl.stanford.edu/projects/objectnet3d/
ObjectNet 3 Dは100種類のカテゴリと90127種類の画像からなる.画像内の各2 Dオブジェクトについて、3 Dposeおよびshape注釈が提供される.主に提案生成,2次元ターゲット検出,3次元姿勢推定に用いられる.
4. KITTI
http://www.cvlibs.net/datasets/kitti/
KITTIは、田舎地域と高速道路の2つのカメラと1つのレーザースキャナーから取得した元のデータを含む.ステレオ,光ストリーム,ビジュアルマイルメータ,3 Dターゲット検出,3 Dトラッキングビデオでは,現実世界のコンピュータビジュアル基準として用いられる.
5.それ以外
BU-3 DFE、Bosphorus、MICC、AFLW 2000-3 Dは顔タスク、HumanEvea、Human 3に使用されます.6 Mは人体任務に用いられる.
1. MSE (Mean Square Error)
2. Voxel IoU
3. Average Euclidean Distance
4. Champer Distance
5. EMD (Earth Mover's Distance)
6. F-score
3 Dリビルド分野に関心があるため、この分野を理解するために、2020年にInformation and Systemsで発表された調査論文を読み、整理します.
(요약 형식으로 정리하여 생략한 부분도 있음을 미리 언급합니다.)
本論文ではdeep learningに基づく三次元再構成分野のすべての古典的および最新の作業を紹介し,入力形式に基づいてすべての調査方法を以下の3つに分類した. 1. single RGB image based
2. multiple RGB images based
3. sketch based
また,output 3 Dshapeの表示と具体的なターゲットも併せて処理する.さらに,現在の作業で主に使用されているデータセットと評価指標も紹介し,最後に将来の研究の潜在的な方向性を議論した.論文の概要は以下の通りである.
1. Introduction
3 Dリビルドとは,与えられた入力の3 D形状を表す.これは、リモートセンシング、ナビゲーション、3 Dアニメーション、医療支援など、幅広いアプリケーションで解決する必要がある問題です.
従来,単一画像の三次元再構成の主流の方法は,光照射と反射率の特定の仮定に基づいているので,入力された反射率,光照射,テクスチャに非常に敏感である.
深さ学習技術の発展に伴い,三次元再構成の性能と効率が大幅に向上した.初期の深さ学習に基づく方法では,3 D地上‐リアリティを監督として用いた.しかし、3 Dground-真理は労働密集型であり、入手が困難である.そこで,3 Dモニタリングの代わりに,3 D情報を2 D空間に投影して弱いモニタリングを行うことを提案する.
さらに,再構成結果の2 d投影とInput画像との差を最小化する自己監視法を提案した.さらに,GAN(Generative Advancial Networks)に基づいて,無監視法を用いて三次元形状再構成を実現するいくつかの研究がある.マルチビュー3 D構造については、入力画像を異なるビューから位置合わせするために、フォトニック立体とSFM(shape from motion)技術がよく用いられる.しかし,この方法はfreeviewにおいてオブジェクトを効率的かつ正確に再構築するのに一定の制限がある.
Neural Networksは、最初は整列を支援するために使用されましたが、入力画像から直接完全な形状を再構築するために使用されました.
また,非剛性オブジェクト(非構造化オブジェクト)の再構成を扱うために,SFM,NRSFT(非剛性形状from template)および従来のモデルをフレームワークに用いた.
概して,三次元再構成技術は長い間研究されてきたが,その性能と汎用性はまだ満足できる程度ではない.
3 D再構築研究の分類法にはいくつかの重要な変化がある:入力形式、形状表現、ネットワーク構造.
デフォルトでは、inputはRGBイメージとsketchの2つに分けられます.
Depthは他の文献でも入力形式の一つとされている.しかし、深さベースの方法は、追加の入力、中間ofネットワーク、または分割または欠落部分などの他のタスクに深さを集中させる.そこで,本論文ではRGB画像とsketchベースの方法のみを論じる.
RGB画像の現実生活における高可用性のため,RGB画像入力はコミュニティにおいて深く研究されている.RGB入力に基づく方法では、単一画像を入力とする方法がいくつかあり、他のいくつかはビデオフレーム形式の画像シーケンスと各種視点の画像をネットワークの入力とする.この間,スケッチベースの方法ではエッジマップや標準化されたline−drawingが一般的に用いられ,end−to−endフレームワークの発展により,非専門家が操作しやすい手描きスケッチが最近研究されている.スケッチ入力の情報損失を扱うために辞書知識とGANを用いた.
入力だけでなく,3 Dshapeの表現は再構築タスクにも重要である.ネットワーク構造の設計とパフォーマンスに影響を与えることを示します.ボリューム法は、3 Dメッシュからボクセルとして3 Dシェイプを表します.2 D画像の画素と同様に,ボリュームネットワークは2 Dボリュームから容易に拡張できる.しかし、容量メソッドのメモリ消費量は大きい.
Points Cloudはメモリを節約する3 D形状表示方法です.Point cloudベースの方法では、3 D座標の頂点を使用して形状を表します.Point cloudを使用してマッピングを行い、点を面に分割し、点群をmeshに変換できます.Meshベースの方法はトポロジーと計算ホットスポットであるが,マッピングにより入力からmeshを直接一般化する.また、プレースホルダメッシュ、oc-tree、parameters、signed distance field(SDF)も、三次元形状を再構築するために選択されたネットワーク表現である.
ネットワーク構造に関しては,多層Perceptron(MLP)が通常ニューラルネットワークベースの初期方法として用いられる.CNN(Convolutional Neural Networks)は、2次元情報を処理するのに適しているため、再構築作業に広く用いられている.RNN(Recent Neural Networks)は入力の順序特性を決定するために使用され、GAN(Generative Advancial NetworkKrs)は損失した情報を予測し、ネットワークの汎用性を向上させるのに役立つ.さらに,最近の研究では,非Euclidean構造データの処理の妥当性のために,いくつかの特定の問題(e.g.face再構成)にGCN(Graph Convolutional Networks)を用いた.
本稿では,深さ学習を用いた三次元再構成について概説する.ネットワークの入力形式に基づいて,再構成方法を調査し,各部分を内部論理の下に組織した.
2. Overview
2.1 Common datasets
당시 논문에 기재된 대로 정리한 것이며, 현재는 업데이트 되었을 수 있습니다.
1. ShapeNethttps://shapenet.org/
ShapeNetは、55クラスからなる50000以上のCADモデルを含むShape Repositoryです.意味カテゴリとプロパティのコメントを提供します.
2. Pascal 3D+
https://cvgl.stanford.edu/projects/pascal3d.html
Pascal 3 D+は12クラスの3 D構造化オブジェクトを含み、各クラスは3000以上のオブジェクトを含む.主に3 Dターゲット検出と姿勢推定に用いられる.また、コミュニティでベースラインとしてよく使用されます.
3. ObjectNet3D
https://cvgl.stanford.edu/projects/objectnet3d/
ObjectNet 3 Dは100種類のカテゴリと90127種類の画像からなる.画像内の各2 Dオブジェクトについて、3 Dposeおよびshape注釈が提供される.主に提案生成,2次元ターゲット検出,3次元姿勢推定に用いられる.
4. KITTI
http://www.cvlibs.net/datasets/kitti/
KITTIは、田舎地域と高速道路の2つのカメラと1つのレーザースキャナーから取得した元のデータを含む.ステレオ,光ストリーム,ビジュアルマイルメータ,3 Dターゲット検出,3 Dトラッキングビデオでは,現実世界のコンピュータビジュアル基準として用いられる.
5.それ以外
BU-3 DFE、Bosphorus、MICC、AFLW 2000-3 Dは顔タスク、HumanEvea、Human 3に使用されます.6 Mは人体任務に用いられる.
2.2 Metrics
1. MSE (Mean Square Error)
2. Voxel IoU
3. Average Euclidean Distance
4. Champer Distance
5. EMD (Earth Mover's Distance)
6. F-score
3. Single image reconstruction
3.1 Voxel representation
3.2 Point cloud representation
3.3 Mesh representation
3.4 Other representation
4. Multiple image reconstruction
4.1 Rigid reconstruction
4.2 Non-rigid reconstruction
5. Sketch reconstruction
6. Conclusion
Jin, Yiwei, Diqiong Jiang, and Ming Cai. "3d reconstruction using deep learning: a survey." Communications in Information and Systems 20.4 (2020): 389-413.
Reference
この問題について((作成中)[整理調査論文]deep learning三次元再構築:a調査), 我々は、より多くの情報をここで見つけました https://velog.io/@leehyuna/작성중survey-논문-리뷰-3D-reconstruction-using-deep-learning-a-surveyテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol