イスラエルのテルアビブ大学の学生らは、テキストから表現力豊かなモーションを作成する MDM: Human Motion Diffusion Model の研究論文を発表しました。
概要(訳)
自然で表現力豊かなヒューマンモーションの生成は、コンピュータ・アニメーションにおける永遠の課題です。しかし、動きには多様性があり、それに対する人間の知覚は敏感で、正確に表すことは困難であるため、難しい課題です。そのため、現在の生成ソリューションは、低品質であるか、表現力に限界があります。
他の領域で既に顕著な生成能力を示しているDiffusionモデルは、その多対多の性質から人間の動きに対する有望な候補であるが、リソースを消費し、制御が困難な傾向がある。本論文では、分類器を用いない拡散ベースの生成モデルを人体運動領域用に慎重に適合させたMotion Diffusion Model (MDM)を紹介する。
MDMは変換ベースで、モーション生成の文献からの洞察を組み合わせています。注目すべき点は、それぞれの diffusion ステップにおいて、ノイズではなく、サンプルの予測を行うことです。これにより、足の接触損失など、運動の位置と速度に関する確立された幾何学的損失の利用が容易になります。
我々が示すように、MDMは汎用的なアプローチであり、異なる条件付けのモードや、異なる生成タスクが可能です。我々は、このモデルが軽量なリソースで学習可能でありながら、テキストからモーション、アクションからモーションの主要なベンチマークにおいて最先端の結果を達成することを示します。
MDMフレームワーク
MDMフレームワークは、様々な条件付けを可能にする汎用的な設計になっており、この発表では、text-to-motion、action-to-motion、unconditioned generationの3つのタスクについて紹介されています。
MDMは、多様性と忠実性のトレードオフを可能にする分類器不要の方法でモデルを学習し、同じモデルから条件付きと無条件の両方をサンプリングすることが可能です。テキストからモーションへの変換では、ユーザ調査の結果、人間の評価者は42%の確率で、実モーションよりも生成したモーションを好むことがわかっています。
Text-to-Motion
Text-to-Motionは、入力されたテキストプロンプトから動きを生成するタスクです。出力される動作は、テキストの記述を実装していることと、データ分布からの有効なサンプルであること(すなわち、一般的な人間の能力と物理法則を遵守していること)の両方が予想されます。また、各テキストプロンプトに対して、単一の結果だけでなく、それにマッチするモーションの分配も想定されています。
Action-to-Motion
Action-to-Motionは、スカラーで表される入力アクションクラスが与えられたときに、モーションを生成するタスクです。出力されるモーションは、入力されたアクションを忠実にアニメートすると同時に、モデルが学習されたデータセットの分布を反映した自然なものであることが求められます。
Motion Editing
diffusion image-inpaintingを応用し、モーションのプリフィックスとサフィックスを設定し、モデルによる補完を行うことができます。テキスト条件下でこれを行うことで、MDMが元の入力のセマンティクスを維持したまま特定のモーションでギャップを埋めるように誘導します。また、時間的ではなく、関節的な空間でインペイントを行うことで、身体の特定の部分を変更することなく、他の部分を意味的に編集することを実証しています。
コメント