Qu'est-ce que DreamActor-M1 ?
DreamActor-M1 est un outil qui crée des animations humaines réalistes. Il utilise une méthode spéciale pour contrôler les animations en douceur et les adapter à différentes tailles, des portraits en gros plan aux mouvements du corps entier. En utilisant une image de référence, il peut imiter les actions des vidéos, garantissant que les animations restent cohérentes et fidèles à la personne d'origine.

Aperçu de DreamActor-M1
Fonctionnalité | Description |
---|---|
Outil IA | DreamActor-M1 AI |
Catégorie | Framework d'Animation Humaine |
Fonction | Animation Humaine Réaliste |
Vitesse de Génération | Traitement en Temps Réel |
Article de Recherche | arxiv.org/pdf/2504.01724 |
Site Officiel | grisoon.github.io/DreamActor-M1/ |
Aperçu de la Méthode : Vue d'ensemble de DreamActor-M1
Pendant la phase d'entraînement, nous extrayons d'abord les squelettes corporels et les sphères de tête des images d'animation, puis nous les encodons dans le latent de pose en utilisant l'encodeur de pose. Le latent de pose résultant est combiné avec le latent vidéo bruité le long de la dimension du canal. Le latent vidéo est obtenu en encodant un clip de la vidéo d'entrée complète en utilisant la VAE 3D. L'expression faciale est encodée en plus par l'encodeur de mouvement facial, pour générer des représentations faciales implicites.
Notez que l'image de référence peut être une ou plusieurs images échantillonnées de la vidéo d'entrée pour fournir des détails d'apparence supplémentaires pendant l'entraînement, et la branche de token de référence partage les poids de notre modèle DiT avec la branche de token de bruit. Enfin, le latent vidéo débruité est supervisé par le latent vidéo encodé.

Dans chaque bloc DiT, le token de mouvement facial est intégré dans la branche de token de bruit via l'attention croisée (Face Attn), tandis que l'information d'apparence du token de référence est injectée dans le token de bruit via l'auto-attention concaténée (Self Attn) et l'attention croisée subséquente (Ref Attn).
Caractéristiques Principales de DreamActor-M1
Diversité
Notre méthode est robuste pour différents styles de personnages et de mouvements.
Contrôlabilité et Robustesse
Notre méthode peut s'étendre à l'animation faciale pilotée par l'audio, produisant des résultats de synchronisation labiale dans plusieurs langues. Notre guidage visuel complémentaire assure une meilleure cohérence temporelle, en particulier pour les poses humaines non observées dans la référence. Notre méthode prend en charge le transfert partiel du mouvement, comme les expressions faciales et les mouvements de tête.
Guidage du Mouvement
Utilise un système de contrôle sophistiqué qui intègre des indices faciaux implicites, des modèles de tête 3D et des cadres corporels 3D pour produire des animations faciales et corporelles dynamiques et expressives.
Adaptabilité d'Échelle
Emploie une approche d'entraînement progressive qui exploite des ensembles de données multi-résolution pour gérer efficacement une gamme de poses corporelles et d'échelles d'image, des portraits en gros plan aux plans en pied.
Guidage de l'Apparence
Exploite les séquences de mouvement et les références visuelles pour assurer un flux temporel cohérent, en particulier dans les zones non rencontrées précédemment lors de mouvements complexes.
Exemples de DreamActor-M1 en Action
Divers styles de personnages et de mouvements.
Comment DreamActor-M1 se compare-t-il aux méthodes de pointe (SOTA) ?
- Contrôle fin du mouvement (mouvements faciaux et corporels expressifs).
- Préservation de l'identité (maintien de l'apparence du sujet).
- Cohérence temporelle (transitions fluides sur de longues séquences).
- Robustesse (gestion des poses inédites et des mouvements complexes).
Avantages et Inconvénients
Avantages
- Contrôlabilité fine pour des animations expressives
- Adaptabilité multi-échelle du portrait au corps entier
- Cohérence temporelle à long terme dans les animations
- Prend en charge le transfert de mouvement sélectif
- Animations de synchronisation labiale pilotées par l'audio dans plusieurs langues
- Avantages
Inconvénients
- Nécessite des images de référence de haute qualité pour les meilleurs résultats
- Calcul intensif pour les sorties haute résolution
- Inconvénients