Wan 2.2 local face au cloud : test réel sur un bumper TekBrut

L’arbitrage du test

Wan 2.2 peut tourner en local. Wan 2.6 et Wan 2.7 sont disponibles en cloud. Sur le papier, la comparaison semble simple : local contre cloud, temps machine contre crédits, contrôle contre confort.

En pratique, c’est plus tordu.

Pour ce test, je suis parti d’un vrai cas TekBrut : un bumper vidéo produit avec Wan 2.6 sur Pollo AI, puis monté en version finale. Ensuite, j’ai repris les mêmes intentions de plans avec Wan 2.2 en local sur RTX 4090, et j’ai aussi comparé avec Wan 2.7 côté cloud.

Le but n’est pas de sacrer un modèle. Le but est plus utile : comprendre quels plans peuvent raisonnablement être produits en local, quels plans justifient encore le cloud, et pourquoi le flux de travail hybride reste probablement le choix le plus propre aujourd’hui.

Dans ce test

  1. Le résultat final en cloud
  2. Verdict rapide
  3. Méthode courte
  4. Le vrai saut : 1280×720
  5. Plan 1 : le signal dans le tube
  6. Plan 2 : la limite temporelle
  7. Plan 3 : le meilleur résultat local
  8. Wan 2.6 vs Wan 2.7 vs Wan 2.2
  9. Réglages techniques
  10. Recommandation finale
  11. Ce que ce test ne dit pas
  12. FAQ

Le résultat final en cloud

Bumper TekBrut final

Wan 2.6 cloud Montage final

Pollo AI · 1280×720 · 10,54 s · audio intégré

Vidéo finale montée avec audio

Lien direct : ouvrir le fichier vidéo.

Ce bumper n’est pas une génération unique sortie telle quelle. Il a été construit en plusieurs plans courts, sélectionné, monté, resserré, puis sonorisé.

C’est important : en vidéo IA, le modèle produit des plans. Le montage transforme ces plans en asset publiable.

Verdict rapide

Wan 2.2 local est crédible, mais pas magique. Il peut sortir des plans exploitables en 1280×720 sur une RTX 4090, surtout quand la scène repose sur une ambiance, une texture, un objet central ou un mouvement simple.

Wan 2.6 cloud reste la référence de ce bumper précis. Ce n’est pas forcément le modèle le plus récent, mais c’est celui dont les plans ont donné le meilleur matériau pour le montage final.

Wan 2.7 cloud n’écrase pas automatiquement Wan 2.6. Il peut sembler plus fluide ou plus propre sur certains détails, mais le rendu le plus récent n’est pas toujours le plus exploitable dans un montage.

Le vrai verdict est hybride. Le local sert très bien à tester, apprendre, itérer et produire certains plans. Le cloud garde l’avantage pour les plans critiques, les plans signature, ou les scènes qui demandent une chorégraphie temporelle plus précise.

Méthode courte

Test réalisé en mai, avec les versions et tarifs cloud observés à ce moment-là.

La base de comparaison est le bumper TekBrut final, produit en plusieurs plans avec Wan 2.6 sur Pollo AI, puis monté et sonorisé. Les plans Wan 2.2 locaux présentés ici reprennent les prompts originaux du bumper, sans réécriture finale pour favoriser le local.

Côté machine, le test local a été réalisé dans ComfyUI avec Wan 2.2 T2V-A14B GGUF Q5_K_M, variantes High Noise et Low Noise, LightX2V 4 steps, en 1280×720 sur 81 frames à 16 fps.

Ce n’est donc pas un benchmark abstrait. C’est un test de production : est-ce que le plan obtenu peut vraiment servir dans un montage, ou est-ce qu’il est seulement joli en capture isolée ?

Le vrai saut : 1280×720

Le premier piège avec Wan 2.2 local, c’est de juger trop vite sur une petite résolution.

Les essais en 832×480 montraient déjà que le modèle pouvait produire une ambiance correcte sur RTX 4090. Mais à cette taille, beaucoup d’éléments restaient mous : textures du PCB, contours du tube, micro-détails, reflets, lisibilité du texte. On pouvait voir l’idée du plan, pas encore vraiment son potentiel.

Le passage en 1280×720 change la lecture. Les scènes gagnent en densité, les matières deviennent plus crédibles, les lignes roses sont mieux tenues, et le rendu général se rapproche davantage d’un plan utilisable dans un montage.

Ce saut ne corrige pas tout. Il améliore la qualité perçue, pas forcément la précision de l’action. C’est particulièrement visible sur le Plan 2 : le PCB devient plus propre, mais le signal reste trop continu et l’effet domino demandé reste faible.

C’est l’un des enseignements principaux du test : en local, la résolution peut transformer un rendu “prometteur” en rendu exploitable. Mais elle ne remplace pas la compréhension temporelle du modèle.

Plan 1 : le signal dans le tube

Plan 1 — le signal dans le tube

Wan 2.2 local Plan d’ouverture

Wan 2.2 Q5_K_M · RTX 4090 · 1280×720 · 81 frames · 16 fps

Vidéo brute sans audio

Lien direct : ouvrir le fichier vidéo.

Ce premier plan est celui qui valide le plus vite l’intérêt de Wan 2.2 local. L’ambiance sombre fonctionne, le tube reste lisible, le signal rose attire l’œil, et la scène conserve une cohérence suffisante sur toute la durée du plan.

Le rendu n’a pas exactement la nervosité du bumper cloud final. Le mouvement reste plus sage, plus contemplatif, et le signal manque d’un vrai pic dramatique. Mais comme plan d’ouverture brut, c’est exploitable.

C’est le genre de résultat qui justifie de garder une partie du flux en local : on peut tester une intention visuelle, produire une matière correcte, puis décider ensuite si le plan mérite d’être refait en cloud ou monté tel quel.

Plan 2 : la limite temporelle

Plan 2 — le signal dans le PCB

Wan 2.2 local Limite temporelle

Wan 2.2 Q5_K_M · RTX 4090 · 1280×720 · 81 frames · 16 fps

Vidéo brute sans audio

Lien direct : ouvrir le fichier vidéo.

Ce plan est le plus important du test, justement parce qu’il n’est pas le plus réussi.

Visuellement, Wan 2.2 local tient bien la matière : le PCB est plus dense qu’en basse résolution, les pistes sont lisibles, le rose reste dans l’identité du bumper, et l’ambiance électronique est crédible. En capture isolée, le plan fonctionne.

En vidéo, la limite apparaît. Le prompt demandait une progression plus fine : un signal qui traverse le circuit, active des éléments, crée une impression de séquence ou de domino. Wan 2.2 produit plutôt une ligne lumineuse continue. Le décor est propre, mais l’action ne se déroule pas vraiment.

C’est une limite utile. Elle montre que le local peut produire une belle matière visuelle, mais qu’il reste plus fragile quand le plan dépend d’une chorégraphie temporelle précise. Plus de résolution améliore l’image. Ça ne force pas le modèle à mieux comprendre la causalité.

Plan 3 : le meilleur résultat local

Plan 3 — le CPU TekBrut

Wan 2.2 local Meilleur résultat local

Wan 2.2 Q5_K_M · RTX 4090 · 1280×720 · 81 frames · 16 fps

Vidéo brute sans audio

Lien direct : ouvrir le fichier vidéo.

C’est le meilleur plan local du test. La puce est propre, le PCB reste lisible, l’ambiance sombre fonctionne, et le texte TekBrut tient mieux que prévu sur toute la séquence.

Le résultat est intéressant parce qu’il ne repose pas sur une action complexe. Le plan demande surtout une composition stable, une montée visuelle, une matière crédible et un objet central lisible. Sur ce terrain, Wan 2.2 local se défend très bien.

La limite reste le climax. Le plan aurait gagné à finir avec une activation lumineuse plus nette, une montée d’énergie plus marquée, ou un basculement plus lisible vers le logo. Mais même sans ça, c’est le plan local le plus proche d’un asset publiable.

Pris avec le Plan 2, il donne le vrai verdict : Wan 2.2 local est solide quand le plan repose sur la matière et la composition. Il devient plus incertain quand le plan repose sur une action séquentielle précise.

Wan 2.6 vs Wan 2.7 vs Wan 2.2

À ce stade, le classement simple ne suffit pas. Wan 2.7 peut produire une image très propre, Wan 2.6 reste plus cohérent pour ce bumper précis, et Wan 2.2 local devient réellement intéressant dès qu’on accepte ses limites.

Le bon critère n’est donc pas “quel modèle est le plus récent ?”. Le bon critère est plus concret : quel outil donne le meilleur plan exploitable pour ce besoin précis ?

CritèreWan 2.2 localWan 2.6 cloudWan 2.7 cloud
Rôle dans ce testReproduction localeRéférence du bumper finalComparaison cloud récente
PlateformeComfyUI localPollo AIPollo AI
Matériel côté lecteurRTX 4090 testéeAucunAucun
CoûtÉlectricité + temps machineCrédits cloudCrédits cloud
FrictionÉlevéeFaibleFaible
Contrôle localFortFaibleFaible
Qualité visuelleTrès bonne sur certains plansPréférée pour le bumperTrès forte en image isolée
Contrôle temporelLimité sur le Plan 2Meilleur équilibre iciPlus fluide, mais pas toujours plus lisible
VerdictTrès pertinent pour tester et produire certains plansMeilleur choix pour ce bumperÀ juger plan par plan

Rôle dans ce test

Wan 2.2 local
Reproduction locale
Wan 2.6 cloud
Référence du bumper final
Wan 2.7 cloud
Comparaison cloud récente

Plateforme

Wan 2.2 local
ComfyUI local
Wan 2.6 cloud
Pollo AI
Wan 2.7 cloud
Pollo AI

Matériel côté lecteur

Wan 2.2 local
RTX 4090 testée
Wan 2.6 cloud
Aucun
Wan 2.7 cloud
Aucun

Coût

Wan 2.2 local
Électricité + temps machine
Wan 2.6 cloud
Crédits cloud
Wan 2.7 cloud
Crédits cloud

Friction

Wan 2.2 local
Élevée
Wan 2.6 cloud
Faible
Wan 2.7 cloud
Faible

Contrôle local

Wan 2.2 local
Fort
Wan 2.6 cloud
Faible
Wan 2.7 cloud
Faible

Qualité visuelle

Wan 2.2 local
Très bonne sur certains plans
Wan 2.6 cloud
Préférée pour le bumper
Wan 2.7 cloud
Très forte en image isolée

Contrôle temporel

Wan 2.2 local
Limité sur le Plan 2
Wan 2.6 cloud
Meilleur équilibre ici
Wan 2.7 cloud
Plus fluide, mais pas toujours plus lisible

Verdict

Wan 2.2 local
Très pertinent pour tester et produire certains plans
Wan 2.6 cloud
Meilleur choix pour ce bumper
Wan 2.7 cloud
À juger plan par plan

Ce tableau résume le vrai arbitrage. Wan 2.2 local gagne sur le contrôle, l’apprentissage et le coût marginal. Wan 2.6 cloud gagne ici sur l’efficacité du résultat final. Wan 2.7 reste intéressant, mais il doit être jugé plan par plan, pas traité comme une mise à niveau automatique.

Réglages techniques

Les détails ci-dessous ne transforment pas cet article en tuto ComfyUI complet. Ils servent surtout à cadrer le test : machine utilisée, durée de génération, mémoire observée et paramètres qui ont permis de sortir les vidéos locales publiées ici.

Réglages Wan 2.2 local
  • Modèle : Wan 2.2 T2V-A14B GGUF Q5_K_M
  • Variantes : High Noise + Low Noise
  • Workflow : LightX2V 4 steps
  • Résolution : 1280×720
  • Durée : 81 frames · 16 fps
  • VAEDecodeTiled : tile_size 512, overlap 64, temporal_size 32, temporal_overlap 8
  • Offload observé : environ 8,4 Go chargés en VRAM, 2 Go déchargés sur RAM, 150 Mo de buffer
Temps de génération et VRAM
  • Plan 1 : 203 s · pic VRAM observé 19 650 MiB
  • Plan 2 : 218 s · pic VRAM observé 18 900 MiB
  • Plan 3 : 215,85 s · pic VRAM observé 19 550 MiB

Ces chiffres viennent de ce setup précis. Ils donnent un ordre de grandeur utile, pas une garantie universelle pour toutes les machines ni tous les flux de travail.

Coût cloud Pollo AI

Au moment du test, Wan 2.6 était affiché à 25 crédits par génération et Wan 2.7 à 40 crédits par génération sur Pollo AI.

Ce chiffre doit être lu prudemment : le coût réel dépend du prix d’achat des crédits, des crédits offerts, du pays de facturation et des éventuelles promotions.

Pour ce type d’usage, le coût ne se juge pas seulement à la génération réussie. Il faut aussi compter les essais rejetés, les variantes, les plans à refaire et le temps passé à choisir ce qui mérite d’être monté.

Recommandation finale

Le choix le plus cohérent n’est pas de tout faire en local, ni de tout faire avec le modèle cloud le plus récent.

Pour produire régulièrement, le flux de travail hybride est le plus propre :

  • Wan 2.2 local pour apprendre, tester, explorer des directions et sortir certains plans simples ;
  • Wan 2.6 cloud quand le rendu obtenu colle déjà bien à l’intention visuelle ;
  • Wan 2.7 cloud seulement quand son gain réel sur un plan justifie le coût supplémentaire ;
  • montage final pour sélectionner, couper, sonoriser et unifier les plans.

Le local devient crédible dès que le plan repose sur une composition stable, une ambiance, un objet central ou une texture technique. Il devient plus fragile quand le plan demande une action séquentielle précise, comme un signal qui traverse plusieurs composants avec une causalité nette.

Donc la vraie recommandation est simple : ne choisis pas un modèle, choisis un outil par plan. C’est moins spectaculaire comme verdict, mais beaucoup plus proche d’un vrai flux de production.

Ce que ce test ne dit pas

Ce test ne mesure pas tout ce que peut faire un modèle vidéo IA.

Il ne couvre pas les scènes réalistes complexes avec personnages, gestes, objets manipulés, contacts physiques, regards, foule, pluie ou décor vivant. Ces scènes ne posent pas les mêmes problèmes qu’un bumper tech : elles testent les mains, les expressions, la continuité des objets, la causalité entre personnages et la stabilité d’un environnement plus organique.

Ce n’est pas un oubli. C’est un autre banc d’essai. Ici, le sujet est volontairement borné : un bumper TekBrut, donc un cas orienté signal, PCB, CPU, texte/logo, ambiance sombre et cohérence visuelle tech.

Ce test ne dit pas non plus que Wan 2.2 local remplace le cloud. Il montre plutôt où le local commence à devenir utile, où il reste limité, et pourquoi le choix le plus cohérent dépend du plan à produire.

FAQ

Wan 2.2 local remplace-t-il le cloud ?

Non. Il peut produire des plans exploitables, mais il ne remplace pas le cloud partout.

Sur ce test, Wan 2.2 local devient crédible pour certains plans tech : ambiance, objet central, matière, composition stable. Il reste plus fragile dès que le plan demande une action temporelle précise.

Est-ce que Wan 2.7 est automatiquement meilleur que Wan 2.6 ?

Non. Sur ce bumper précis, Wan 2.6 reste préféré pour le rendu global et la cohérence du montage.

Wan 2.7 peut avoir des qualités intéressantes, notamment sur la fluidité ou certains détails visuels. Mais une version plus récente ne donne pas automatiquement le meilleur plan exploitable.

Est-ce qu’un seul prompt suffit pour produire une vidéo finale ?

Non. Le bumper final vient d’un flux de production avec plusieurs générations, sélection, montage et sonorisation.

C’est un point important : en vidéo IA, le modèle ne produit pas toujours directement une séquence finale. Il produit de la matière. Le montage décide ce qui devient publiable.

Pourquoi ne pas publier toutes les vidéos Wan 2.7 ?

Parce que Wan 2.7 n’est pas le sujet principal de cet article.

Il sert ici de comparaison cloud récente, pas de démonstration complète. Pour garder l’article lisible, Wan 2.7 doit rester un point d’appui, pas un deuxième article à l’intérieur du premier.

Faut-il une RTX 4090 pour Wan 2.2 local ?

Pour ce test précis, les mesures viennent d’une RTX 4090 24 Go. Une autre carte peut donner une expérience différente.

La vraie question n’est pas seulement “est-ce que ça lance ?”. Il faut aussi regarder le temps de génération, la VRAM disponible, l’offload, la résolution visée et la tolérance à l’itération lente.

Quel est le vrai intérêt du local ?

Le local sert surtout à reprendre du contrôle : tester sans transformer chaque essai en dépense cloud, comprendre le modèle, expérimenter des variantes, produire certains plans, et réserver le cloud aux plans où il apporte vraiment quelque chose.

Ce n’est pas un remplacement total du cloud. C’est un outil de plus dans le flux de production.