Wan 2.2 local face au cloud : test réel sur un bumper TekBrut
L’arbitrage du test
Wan 2.2 peut tourner en local. Wan 2.6 et Wan 2.7 sont disponibles en cloud. Sur le papier, la comparaison semble simple : local contre cloud, temps machine contre crédits, contrôle contre confort.
En pratique, c’est plus tordu.
Pour ce test, je suis parti d’un vrai cas TekBrut : un bumper vidéo produit avec Wan 2.6 sur Pollo AI, puis monté en version finale. Ensuite, j’ai repris les mêmes intentions de plans avec Wan 2.2 en local sur RTX 4090, et j’ai aussi comparé avec Wan 2.7 côté cloud.
Le but n’est pas de sacrer un modèle. Le but est plus utile : comprendre quels plans peuvent raisonnablement être produits en local, quels plans justifient encore le cloud, et pourquoi le flux de travail hybride reste probablement le choix le plus propre aujourd’hui.
Dans ce test
- Le résultat final en cloud
- Verdict rapide
- Méthode courte
- Le vrai saut : 1280×720
- Plan 1 : le signal dans le tube
- Plan 2 : la limite temporelle
- Plan 3 : le meilleur résultat local
- Wan 2.6 vs Wan 2.7 vs Wan 2.2
- Réglages techniques
- Recommandation finale
- Ce que ce test ne dit pas
- FAQ
Le résultat final en cloud
Bumper TekBrut final
Vidéo finale montée avec audio
Lien direct : ouvrir le fichier vidéo.
Ce bumper n’est pas une génération unique sortie telle quelle. Il a été construit en plusieurs plans courts, sélectionné, monté, resserré, puis sonorisé.
C’est important : en vidéo IA, le modèle produit des plans. Le montage transforme ces plans en asset publiable.
Verdict rapide
Wan 2.2 local est crédible, mais pas magique. Il peut sortir des plans exploitables en 1280×720 sur une RTX 4090, surtout quand la scène repose sur une ambiance, une texture, un objet central ou un mouvement simple.
Wan 2.6 cloud reste la référence de ce bumper précis. Ce n’est pas forcément le modèle le plus récent, mais c’est celui dont les plans ont donné le meilleur matériau pour le montage final.
Wan 2.7 cloud n’écrase pas automatiquement Wan 2.6. Il peut sembler plus fluide ou plus propre sur certains détails, mais le rendu le plus récent n’est pas toujours le plus exploitable dans un montage.
Le vrai verdict est hybride. Le local sert très bien à tester, apprendre, itérer et produire certains plans. Le cloud garde l’avantage pour les plans critiques, les plans signature, ou les scènes qui demandent une chorégraphie temporelle plus précise.
Méthode courte
Test réalisé en mai, avec les versions et tarifs cloud observés à ce moment-là.
La base de comparaison est le bumper TekBrut final, produit en plusieurs plans avec Wan 2.6 sur Pollo AI, puis monté et sonorisé. Les plans Wan 2.2 locaux présentés ici reprennent les prompts originaux du bumper, sans réécriture finale pour favoriser le local.
Côté machine, le test local a été réalisé dans ComfyUI avec Wan 2.2 T2V-A14B GGUF Q5_K_M, variantes High Noise et Low Noise, LightX2V 4 steps, en 1280×720 sur 81 frames à 16 fps.
Ce n’est donc pas un benchmark abstrait. C’est un test de production : est-ce que le plan obtenu peut vraiment servir dans un montage, ou est-ce qu’il est seulement joli en capture isolée ?
Le vrai saut : 1280×720
Le premier piège avec Wan 2.2 local, c’est de juger trop vite sur une petite résolution.
Les essais en 832×480 montraient déjà que le modèle pouvait produire une ambiance correcte sur RTX 4090. Mais à cette taille, beaucoup d’éléments restaient mous : textures du PCB, contours du tube, micro-détails, reflets, lisibilité du texte. On pouvait voir l’idée du plan, pas encore vraiment son potentiel.
Le passage en 1280×720 change la lecture. Les scènes gagnent en densité, les matières deviennent plus crédibles, les lignes roses sont mieux tenues, et le rendu général se rapproche davantage d’un plan utilisable dans un montage.
Ce saut ne corrige pas tout. Il améliore la qualité perçue, pas forcément la précision de l’action. C’est particulièrement visible sur le Plan 2 : le PCB devient plus propre, mais le signal reste trop continu et l’effet domino demandé reste faible.
C’est l’un des enseignements principaux du test : en local, la résolution peut transformer un rendu “prometteur” en rendu exploitable. Mais elle ne remplace pas la compréhension temporelle du modèle.
Plan 1 : le signal dans le tube
Plan 1 — le signal dans le tube
Vidéo brute sans audio
Lien direct : ouvrir le fichier vidéo.
Ce premier plan est celui qui valide le plus vite l’intérêt de Wan 2.2 local. L’ambiance sombre fonctionne, le tube reste lisible, le signal rose attire l’œil, et la scène conserve une cohérence suffisante sur toute la durée du plan.
Le rendu n’a pas exactement la nervosité du bumper cloud final. Le mouvement reste plus sage, plus contemplatif, et le signal manque d’un vrai pic dramatique. Mais comme plan d’ouverture brut, c’est exploitable.
C’est le genre de résultat qui justifie de garder une partie du flux en local : on peut tester une intention visuelle, produire une matière correcte, puis décider ensuite si le plan mérite d’être refait en cloud ou monté tel quel.
Plan 2 : la limite temporelle
Plan 2 — le signal dans le PCB
Vidéo brute sans audio
Lien direct : ouvrir le fichier vidéo.
Ce plan est le plus important du test, justement parce qu’il n’est pas le plus réussi.
Visuellement, Wan 2.2 local tient bien la matière : le PCB est plus dense qu’en basse résolution, les pistes sont lisibles, le rose reste dans l’identité du bumper, et l’ambiance électronique est crédible. En capture isolée, le plan fonctionne.
En vidéo, la limite apparaît. Le prompt demandait une progression plus fine : un signal qui traverse le circuit, active des éléments, crée une impression de séquence ou de domino. Wan 2.2 produit plutôt une ligne lumineuse continue. Le décor est propre, mais l’action ne se déroule pas vraiment.
C’est une limite utile. Elle montre que le local peut produire une belle matière visuelle, mais qu’il reste plus fragile quand le plan dépend d’une chorégraphie temporelle précise. Plus de résolution améliore l’image. Ça ne force pas le modèle à mieux comprendre la causalité.
Plan 3 : le meilleur résultat local
Plan 3 — le CPU TekBrut
Vidéo brute sans audio
Lien direct : ouvrir le fichier vidéo.
C’est le meilleur plan local du test. La puce est propre, le PCB reste lisible, l’ambiance sombre fonctionne, et le texte TekBrut tient mieux que prévu sur toute la séquence.
Le résultat est intéressant parce qu’il ne repose pas sur une action complexe. Le plan demande surtout une composition stable, une montée visuelle, une matière crédible et un objet central lisible. Sur ce terrain, Wan 2.2 local se défend très bien.
La limite reste le climax. Le plan aurait gagné à finir avec une activation lumineuse plus nette, une montée d’énergie plus marquée, ou un basculement plus lisible vers le logo. Mais même sans ça, c’est le plan local le plus proche d’un asset publiable.
Pris avec le Plan 2, il donne le vrai verdict : Wan 2.2 local est solide quand le plan repose sur la matière et la composition. Il devient plus incertain quand le plan repose sur une action séquentielle précise.
Wan 2.6 vs Wan 2.7 vs Wan 2.2
À ce stade, le classement simple ne suffit pas. Wan 2.7 peut produire une image très propre, Wan 2.6 reste plus cohérent pour ce bumper précis, et Wan 2.2 local devient réellement intéressant dès qu’on accepte ses limites.
Le bon critère n’est donc pas “quel modèle est le plus récent ?”. Le bon critère est plus concret : quel outil donne le meilleur plan exploitable pour ce besoin précis ?
| Critère | Wan 2.2 local | Wan 2.6 cloud | Wan 2.7 cloud |
|---|---|---|---|
| Rôle dans ce test | Reproduction locale | Référence du bumper final | Comparaison cloud récente |
| Plateforme | ComfyUI local | Pollo AI | Pollo AI |
| Matériel côté lecteur | RTX 4090 testée | Aucun | Aucun |
| Coût | Électricité + temps machine | Crédits cloud | Crédits cloud |
| Friction | Élevée | Faible | Faible |
| Contrôle local | Fort | Faible | Faible |
| Qualité visuelle | Très bonne sur certains plans | Préférée pour le bumper | Très forte en image isolée |
| Contrôle temporel | Limité sur le Plan 2 | Meilleur équilibre ici | Plus fluide, mais pas toujours plus lisible |
| Verdict | Très pertinent pour tester et produire certains plans | Meilleur choix pour ce bumper | À juger plan par plan |
Rôle dans ce test
- Wan 2.2 local
- Reproduction locale
- Wan 2.6 cloud
- Référence du bumper final
- Wan 2.7 cloud
- Comparaison cloud récente
Plateforme
- Wan 2.2 local
- ComfyUI local
- Wan 2.6 cloud
- Pollo AI
- Wan 2.7 cloud
- Pollo AI
Matériel côté lecteur
- Wan 2.2 local
- RTX 4090 testée
- Wan 2.6 cloud
- Aucun
- Wan 2.7 cloud
- Aucun
Coût
- Wan 2.2 local
- Électricité + temps machine
- Wan 2.6 cloud
- Crédits cloud
- Wan 2.7 cloud
- Crédits cloud
Friction
- Wan 2.2 local
- Élevée
- Wan 2.6 cloud
- Faible
- Wan 2.7 cloud
- Faible
Contrôle local
- Wan 2.2 local
- Fort
- Wan 2.6 cloud
- Faible
- Wan 2.7 cloud
- Faible
Qualité visuelle
- Wan 2.2 local
- Très bonne sur certains plans
- Wan 2.6 cloud
- Préférée pour le bumper
- Wan 2.7 cloud
- Très forte en image isolée
Contrôle temporel
- Wan 2.2 local
- Limité sur le Plan 2
- Wan 2.6 cloud
- Meilleur équilibre ici
- Wan 2.7 cloud
- Plus fluide, mais pas toujours plus lisible
Verdict
- Wan 2.2 local
- Très pertinent pour tester et produire certains plans
- Wan 2.6 cloud
- Meilleur choix pour ce bumper
- Wan 2.7 cloud
- À juger plan par plan
Ce tableau résume le vrai arbitrage. Wan 2.2 local gagne sur le contrôle, l’apprentissage et le coût marginal. Wan 2.6 cloud gagne ici sur l’efficacité du résultat final. Wan 2.7 reste intéressant, mais il doit être jugé plan par plan, pas traité comme une mise à niveau automatique.
Réglages techniques
Les détails ci-dessous ne transforment pas cet article en tuto ComfyUI complet. Ils servent surtout à cadrer le test : machine utilisée, durée de génération, mémoire observée et paramètres qui ont permis de sortir les vidéos locales publiées ici.
Réglages Wan 2.2 local
- Modèle : Wan 2.2 T2V-A14B GGUF Q5_K_M
- Variantes : High Noise + Low Noise
- Workflow : LightX2V 4 steps
- Résolution : 1280×720
- Durée : 81 frames · 16 fps
- VAEDecodeTiled : tile_size 512, overlap 64, temporal_size 32, temporal_overlap 8
- Offload observé : environ 8,4 Go chargés en VRAM, 2 Go déchargés sur RAM, 150 Mo de buffer
Temps de génération et VRAM
- Plan 1 : 203 s · pic VRAM observé 19 650 MiB
- Plan 2 : 218 s · pic VRAM observé 18 900 MiB
- Plan 3 : 215,85 s · pic VRAM observé 19 550 MiB
Ces chiffres viennent de ce setup précis. Ils donnent un ordre de grandeur utile, pas une garantie universelle pour toutes les machines ni tous les flux de travail.
Coût cloud Pollo AI
Au moment du test, Wan 2.6 était affiché à 25 crédits par génération et Wan 2.7 à 40 crédits par génération sur Pollo AI.
Ce chiffre doit être lu prudemment : le coût réel dépend du prix d’achat des crédits, des crédits offerts, du pays de facturation et des éventuelles promotions.
Pour ce type d’usage, le coût ne se juge pas seulement à la génération réussie. Il faut aussi compter les essais rejetés, les variantes, les plans à refaire et le temps passé à choisir ce qui mérite d’être monté.
Recommandation finale
Le choix le plus cohérent n’est pas de tout faire en local, ni de tout faire avec le modèle cloud le plus récent.
Pour produire régulièrement, le flux de travail hybride est le plus propre :
- Wan 2.2 local pour apprendre, tester, explorer des directions et sortir certains plans simples ;
- Wan 2.6 cloud quand le rendu obtenu colle déjà bien à l’intention visuelle ;
- Wan 2.7 cloud seulement quand son gain réel sur un plan justifie le coût supplémentaire ;
- montage final pour sélectionner, couper, sonoriser et unifier les plans.
Le local devient crédible dès que le plan repose sur une composition stable, une ambiance, un objet central ou une texture technique. Il devient plus fragile quand le plan demande une action séquentielle précise, comme un signal qui traverse plusieurs composants avec une causalité nette.
Donc la vraie recommandation est simple : ne choisis pas un modèle, choisis un outil par plan. C’est moins spectaculaire comme verdict, mais beaucoup plus proche d’un vrai flux de production.
Ce que ce test ne dit pas
Ce test ne mesure pas tout ce que peut faire un modèle vidéo IA.
Il ne couvre pas les scènes réalistes complexes avec personnages, gestes, objets manipulés, contacts physiques, regards, foule, pluie ou décor vivant. Ces scènes ne posent pas les mêmes problèmes qu’un bumper tech : elles testent les mains, les expressions, la continuité des objets, la causalité entre personnages et la stabilité d’un environnement plus organique.
Ce n’est pas un oubli. C’est un autre banc d’essai. Ici, le sujet est volontairement borné : un bumper TekBrut, donc un cas orienté signal, PCB, CPU, texte/logo, ambiance sombre et cohérence visuelle tech.
Ce test ne dit pas non plus que Wan 2.2 local remplace le cloud. Il montre plutôt où le local commence à devenir utile, où il reste limité, et pourquoi le choix le plus cohérent dépend du plan à produire.
FAQ
Wan 2.2 local remplace-t-il le cloud ?
Non. Il peut produire des plans exploitables, mais il ne remplace pas le cloud partout.
Sur ce test, Wan 2.2 local devient crédible pour certains plans tech : ambiance, objet central, matière, composition stable. Il reste plus fragile dès que le plan demande une action temporelle précise.
Est-ce que Wan 2.7 est automatiquement meilleur que Wan 2.6 ?
Non. Sur ce bumper précis, Wan 2.6 reste préféré pour le rendu global et la cohérence du montage.
Wan 2.7 peut avoir des qualités intéressantes, notamment sur la fluidité ou certains détails visuels. Mais une version plus récente ne donne pas automatiquement le meilleur plan exploitable.
Est-ce qu’un seul prompt suffit pour produire une vidéo finale ?
Non. Le bumper final vient d’un flux de production avec plusieurs générations, sélection, montage et sonorisation.
C’est un point important : en vidéo IA, le modèle ne produit pas toujours directement une séquence finale. Il produit de la matière. Le montage décide ce qui devient publiable.
Pourquoi ne pas publier toutes les vidéos Wan 2.7 ?
Parce que Wan 2.7 n’est pas le sujet principal de cet article.
Il sert ici de comparaison cloud récente, pas de démonstration complète. Pour garder l’article lisible, Wan 2.7 doit rester un point d’appui, pas un deuxième article à l’intérieur du premier.
Faut-il une RTX 4090 pour Wan 2.2 local ?
Pour ce test précis, les mesures viennent d’une RTX 4090 24 Go. Une autre carte peut donner une expérience différente.
La vraie question n’est pas seulement “est-ce que ça lance ?”. Il faut aussi regarder le temps de génération, la VRAM disponible, l’offload, la résolution visée et la tolérance à l’itération lente.
Quel est le vrai intérêt du local ?
Le local sert surtout à reprendre du contrôle : tester sans transformer chaque essai en dépense cloud, comprendre le modèle, expérimenter des variantes, produire certains plans, et réserver le cloud aux plans où il apporte vraiment quelque chose.
Ce n’est pas un remplacement total du cloud. C’est un outil de plus dans le flux de production.