人物画像1枚から3Dモデルを生成することができる技術の論文が発表、デモも利用可能

ニュース

毎年行われるのコンピュータービジョンイベントCVPRで発表された論文「PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization」の紹介です。

南カリフォルニア大学、Facebook Reality Labs、Facebook AI Researchに所属している Shunsuke Saito氏Tomas Simon氏Jason Saragih氏Hanbyul Joo氏 が共同で発表したものです。

衣服を着た人間の3次元形状を、これまでにない高い1k画像解像度でピクセルアラインメントされた方法で推定するマルチレベルフレームワーク

画像ベースの3D人体形状推定における最近の進歩は、ディープニューラルネットワークによる表現力の大幅な向上によってもたらされました。

現在のアプローチは実世界での可能性を実証していますが、入力画像に存在するような詳細なレベルの再構成を生成することはできません。これまでのアプローチでは、現在のハードウェアではメモリの制限があるため、大きな空間コンテキストをカバーするために低解像度の画像を入力として使用する傾向があり、その結果、精度の低い(または低解像度の)3D推定値が生成されてしまうことが原因だと彼らは考えています。

この制限に対してエンドツーエンドで学習可能なマルチレベルアーキテクチャを策定することで対処、粗いレベルでは画像全体を低解像度で観察して、全体的な推論に焦点を当てます。これは、より高解像度の画像を観察することで、高度に詳細な形状を推定するファインレベルにコンテキストを提供し、1k解像度の入力画像をフルに活用することで、単一画像の人間の形状再構成において、既存の最先端技術を大幅に上回ることを実証しているということです

デモの利用方法

プログラミングの知識がなくても、チュートリアルを見れば意外と簡単に使用できると思います。以下のチュートリアルではデモを利用して3Dモデルを生成し、Blender に取り込んでいます。

英語でも問題ないと思いますが、以下は日本語の字幕説明ありの動画がありましたので紹介しておきます。

私も、拾い画像で試してみました。

【インプットのコツ】

トレーニングデータのバリエーションが限られているため、たまに結果が壊れてしまうことがあるということで、インプットのヒントが紹介されています。

  • 高解像度の画像を使用してください。 モデルは1024×1024の画像を使って学習します。最低でも512×512の細かい画像を使用してください。低解像度の画像やJPEGのアーチファクトは、満足のいく結果が得られない可能性があります。
  • 1人の人物が写っている画像を使用してください.画像に複数の人物が含まれている場合、再構成の品質が低下する可能性があります。
  • 立ったまま正面を向いている画像が最適です(または、ファッションポーズをとっている画像)。
  • 全身を画像内でカバーしています。(注:現在欠落している足は部分的にサポートされています)
  • 入力画像が十分に照らされていることを確認してください。外側が暗い場合や明るい場合、影が強い場合には、アーチファクトが発生することがよくあります。
  • カメラの角度は地面とほぼ平行にすることをお勧めします。カメラの高さが高いと、足が歪んだり、ヒールが高くなったりすることがあります。
  • 背景がごちゃごちゃしている場合は、あまり複雑でない背景を使用するか、https://www.remove.bg/ を使用して処理前に削除してみてください。
  • 人間のみでトレーニングしています。アニメのキャラクターはうまくいかないかもしれません(実際に多くの人が試してみましたが、驚きました!)。
  • twitterで「#pifuhd」タグで検索すると、何が成功して何が失敗するのかがよくわかります。

twitterで「#pifuhd」タグで検索するデモページへPIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

コメント

Translate »
タイトルとURLをコピーしました