Hermes Agent : quel Qwen choisir selon ton hardware

Dès que tu veux faire tourner Hermes Agent en local, le sujet du modèle arrive vite. Mais ce bonus ne sert pas à défendre un modèle précis. Il sert à trier proprement la famille Qwen selon ta machine et ton usage réel.

Et là, beaucoup de gens tombent dans le même piège. La question devient très vite : quel est le plus gros Qwen que ma machine peut charger ? Alors que la bonne question est beaucoup plus utile : quel Qwen a du sens pour ma machine, mon usage et mon rythme réel ?

Ce bonus sert exactement à ça. Pas à sortir un tableau de benchmarks, pas à faire croire qu’il existe un seuil magique, pas à transformer le choix du modèle en concours de VRAM. Le but est plus simple : te donner une vraie carte mentale pour savoir si tu dois regarder plutôt 0.8B / 2B / 4B, plutôt 9B, ou si tu es déjà dans une zone où 27B et même 35B-A3B commencent à entrer sérieusement dans la discussion.

Ce que ce bonus règle
La vraie question d’entrée de la branche locale Hermes : quel Qwen a du sens pour ta machine avant même de discuter quantization, fine-tuning ou “meilleur modèle” du moment.

Pour qui
Tu veux faire tourner Hermes Agent en local sérieusement. Tu as une idée de ton hardware, tu veux éviter de viser trop gros trop tôt, et tu préfères un modèle que tu vas vraiment utiliser plutôt qu’un modèle dont tu seras content deux jours.

Ce que tu auras à la fin
Une logique simple : choisir d’abord un niveau d’ambition adapté à ta machine, puis seulement ensuite choisir le Qwen précis. Et une vision nette de là où 27B et 35B-A3B ont réellement du sens.

Pourquoi le hardware change tout dans le choix d’un modèle local

Un modèle local ne se choisit pas dans l’absolu. Il se choisit dans une machine.

Ça paraît évident dit comme ça, mais c’est précisément ce qu’on oublie dès qu’on ouvre un comparatif. Sur le papier, on voit des tailles de modèles, des résultats de bench, des variantes, des quantizations. En usage réel, ce qui compte, c’est beaucoup plus brutal : est-ce que ta machine tient ce modèle confortablement, plusieurs fois par jour, sans transformer chaque session Hermes en mini événement ?

Parce que c’est ça la vraie fracture. Il y a les modèles qui chargent. Et il y a les modèles avec lesquels tu travailles. Entre les deux, il y a parfois un gouffre.

Un modèle qui rentre tout juste dans ta machine n’est pas forcément un bon modèle de travail. Un modèle qui te force à fermer des applis, à surveiller ta mémoire, à accepter une grosse inertie à chaque ouverture, ou à éviter les longues sessions n’est pas “un bon choix local”. C’est un test de faisabilité.

Or Hermes Agent n’est pas un jouet qu’on ouvre une fois pour voir. Si tu l’utilises vraiment, tu vas lui parler souvent. Tu vas lancer des tâches courtes, des tâches moyennes, parfois des tâches plus lourdes. Tu veux donc un moteur qui reste vivable, pas juste techniquement possible.

Le bon choix dépend donc toujours du couple machine + usage. Pas seulement du nom du modèle.

Pourquoi viser trop gros trop tôt est une erreur classique

C’est probablement l’erreur la plus répandue dans l’IA locale : vouloir partir immédiatement sur le plus gros modèle possible.

Ce réflexe vient de trois choses.

La première, c’est la hype. Tu vois un thread, une vidéo, un benchmark, et tu te dis que si tout le monde regarde le gros modèle, c’est forcément lui qu’il faut viser.

La deuxième, c’est l’ego de setup. Tu as une bonne machine, donc tu veux la sentir tirer. C’est humain. Mais ce n’est pas une stratégie.

La troisième, c’est la confusion entre faisable et vivable. Un modèle qui répond une fois n’est pas forcément un modèle avec lequel tu as envie de vivre pendant trois mois.

Et c’est là que beaucoup de setups locaux partent de travers. Pas parce qu’ils sont impossibles. Parce qu’ils sont pénibles.

Tu peux très bien faire tourner un modèle lourd en serrant les dents, en réduisant ton confort, en acceptant des sessions plus lentes, en traitant Hermes comme un outil “qu’on réserve”. Mais ce n’est pas comme ça qu’un agent local prend de la valeur. Un agent local prend de la valeur quand il devient disponible. Quand tu peux l’ouvrir sans hésiter. Quand il enlève de la friction au lieu d’en ajouter.

La vraie question n’est donc jamais : « est-ce que ma machine peut charger le plus gros ? »
La vraie question est : « quel modèle vais-je vraiment utiliser souvent ? »

Comment penser le bon niveau d’ambition selon sa machine

La bonne manière de choisir n’est pas de partir d’une taille de modèle et d’essayer de la faire rentrer. C’est de partir de ta machine et de définir un niveau d’ambition raisonnable. Le choix précis du Qwen vient après.

Je te propose une lecture simple en quatre zones. Pas comme une grille rigide. Comme un repère utile.

Petit setup local : 0.8B, 2B, 4B

Si ta machine est modeste, si ta marge mémoire est serrée, ou si ton objectif est surtout d’avoir un Hermes local léger, rapide et fréquent, alors le bon point d’entrée n’est presque jamais le 27B.

Dans cette zone, il faut regarder en priorité :

Qwen3.5-0.8B
Qwen3.5-2B
Qwen3.5-4B

L’idée ici n’est pas de maximiser la profondeur brute. L’idée est de maximiser le confort d’usage.

Tu veux un modèle qui démarre vite, répond vite, ne transforme pas chaque itération en tunnel, et te permet de garder Hermes ouvert comme un vrai outil du quotidien. Pour des tâches simples à semi-complexes, reformulation, tri, premiers brouillons, petits scripts, résumés, lecture assistée, exploration de dossiers, un Qwen plus petit peut être un excellent choix.

C’est aussi souvent le meilleur point d’entrée si tu débutes en agentique locale. Parce qu’il te permet d’évaluer ton usage réel avant de viser plus haut.

Le piège ici serait de te dire : “oui mais un petit modèle sera forcément décevant”. Ce n’est pas si simple. Un petit modèle que tu utilises vingt fois par jour vaut souvent beaucoup plus qu’un gros modèle que tu n’ouvres qu’une fois tous les trois jours.

Setup intermédiaire : 4B, 9B

C’est probablement la zone la plus intéressante pour beaucoup de lecteurs.

Si ta machine n’est plus vraiment modeste, mais pas non plus pensée uniquement pour des modèles lourds, alors le vrai cœur de discussion devient souvent :

Qwen3.5-4B
Qwen3.5-9B

Le 4B reste très attractif si tu privilégies la fluidité, les petites itérations, la fréquence d’usage, et un Hermes très disponible.
Le 9B, lui, commence à apporter un cran de tenue supplémentaire, tout en restant dans une zone encore beaucoup plus réaliste pour du local confortable que les très grosses tailles.

Pour beaucoup de gens, c’est probablement ici que se trouve le meilleur compromis :

assez de capacité pour que Hermes soit sérieux
pas assez lourd pour devenir un monstre à gérer
une vraie utilité quotidienne
un coût d’usage mental encore raisonnable

Dit autrement : si tu veux un Hermes local crédible sans immédiatement entrer dans le territoire “grosse machine / compromis plus lourds”, 9B est souvent un point qui mérite beaucoup plus d’attention qu’il n’en reçoit.

Et c’est là que ce bonus doit être clair : pour énormément de setups, le vrai choix pratique n’est pas “27B ou rien”. C’est souvent 4B ou 9B.

Repère matériel — 4B / 9B
Plancher raisonnable : quantization type Q4 GGUF propre.
Côté PC : un 9B devient vraiment cohérent à partir d’une carte avec 12 Go de VRAM réelle, du type RTX 4070 / 4070 Ti.
Côté Mac : un Mac Apple Silicon avec 16 Go de mémoire unifiée tient bien un 4B ; 24 Go commence à rendre un 9B vraiment agréable.
Confort réel : dans cette zone, Hermes reste un outil qu’on ouvre sans y penser. C’est exactement le bon terrain pour un usage quotidien simple.

Setup haut de gamme local : 9B, 27B, 35B-A3B

C’est seulement ici que le 27B devient une vraie discussion naturelle. Et c’est aussi ici que 35B-A3B commence à entrer sérieusement dans le champ, ce qui mérite d’être dit clairement.

Quand tu as une grosse machine locale, avec une vraie marge et une ambition plus élevée pour Hermes, plusieurs options coexistent :

Qwen3.5-9B si tu veux garder beaucoup de confort
Qwen3.5-27B si tu veux monter d’un cran en cohérence et en tenue
Qwen3.5-35B-A3B si tu es dans un usage local ambitieux et que ta machine le permet sans rendre l’expérience pénible

Le point important ici, c’est qu’il ne faut pas raconter l’histoire trop simplement.

Le 27B n’est pas “le premier gros modèle sérieux” et le 35B-A3B n’est pas automatiquement “hors de portée d’une machine 24 Go haut de gamme”. Ce serait une lecture trop mécanique. Sur une vraie grosse machine locale, les deux peuvent entrer dans la discussion, selon la quantization et selon le niveau de confort que tu veux préserver.

Donc la bonne lecture n’est pas :

27B = possible
35B-A3B = trop gros

La bonne lecture, c’est plutôt :

9B si tu veux de la marge et beaucoup de fluidité
27B si tu veux un cran de tenue supplémentaire
35B-A3B si ton setup est déjà dans une vraie logique locale ambitieuse et que tu acceptes un arbitrage différent

Ce sont trois réponses différentes à trois façons d’utiliser Hermes. Pas une échelle morale.

Repère matériel — 27B / 35B-A3B
Ici, on parle déjà de gros modèles. Il faut donc raisonner en vraie marge machine, pas juste en “ça rentre”.
En pratique, une RTX 4090 24 Go ou un Mac Apple Silicon bien doté commencent à rendre ces tailles crédibles en local.
Ensuite, le vrai arbitrage n’est plus seulement “est-ce que ça tourne ?”, mais “est-ce que le confort quotidien reste acceptable pour Hermes ?”.
Pour le détail du cas 27B, le bonus dédié le traite précisément.

Très gros setup / hors cœur du bonus

La gamme Qwen3.5 va au-delà, avec des modèles comme 122B-A10B et 397B-A17B. C’est utile de le savoir, mais ce n’est pas le cœur de ce bonus.

Pourquoi ? Parce qu’à ce niveau, on sort du débat “quel Qwen choisir selon ton hardware” au sens lecteur TekBrut local classique. On entre dans autre chose : des setups beaucoup plus lourds, plus rares, plus contraints, ou des usages qui ne relèvent plus du local confortable grand public.

Donc oui, ils existent. Non, ce n’est pas là qu’il faut envoyer le lecteur moyen qui veut juste monter un Hermes local sérieux.

Où un plus petit Qwen peut objectivement être le meilleur choix

C’est probablement la partie la plus rentable à comprendre.

Un plus petit Qwen peut être le meilleur choix quand ton vrai objectif est :

d’avoir Hermes souvent ouvert
de garder une bonne réactivité
d’itérer beaucoup
d’enchaîner des tâches courtes ou moyennes
de conserver un vrai confort global sur ta machine

Sur ce terrain-là, un 2B, un 4B ou un 9B peut être meilleur pour toi qu’un 27B. Pas parce qu’il est plus fort. Parce qu’il te sert mieux.

Et c’est exactement le genre de vérité qu’on voit rarement dans les comparatifs, parce qu’elle est moins sexy qu’un gros modèle lourd. Pourtant, c’est elle qui décide si ton agent local va devenir un compagnon de travail ou un “projet du weekend”.

Un modèle plus petit peut aussi être un meilleur choix si tu veux apprendre Hermes proprement. Quand tu démarres, tu n’as pas seulement besoin d’un bon modèle. Tu as besoin d’un setup qui te laisse expérimenter, corriger, recommencer, lancer souvent. Un moteur trop lourd te prive de cette souplesse.

Donc oui : pour beaucoup de lecteurs, 4B ou 9B sera un meilleur choix réel que 27B. Et il faut le dire clairement.

Où Qwen3.5-27B commence vraiment à avoir du sens

Le 27B commence à devenir très cohérent quand :

ta machine suit largement
ton usage Hermes devient plus structuré
tu cherches un cran supplémentaire de tenue et de cohérence
tu acceptes un compromis un peu plus lourd en échange

Là, oui, il a du sens. Le bonus dédié sert justement à regarder ce cas précis sans refaire tout le tri hardware.

Mais il faut l’encadrer correctement :

ce n’est pas le point d’entrée par défaut
ce n’est pas la seule voie sérieuse
ce n’est pas la bonne réponse pour tous les setups locaux

Le 27B est une option haut de gamme cohérente, pas une obligation implicite.

Où 35B-A3B a vraiment du sens

Le 35B-A3B mérite une sous-partie dédiée parce qu’il est facile à mal classer.

Si tu le regardes juste par son nom, tu peux te dire : “35B, donc forcément plus lourd que 27B, donc forcément encore au-dessus en exigence locale”. C’est exactement le raccourci qu’il faut éviter.

La bonne manière de le présenter, c’est plutôt :

modèle à considérer sur grosse machine locale
pas comme point d’entrée universel
pas comme modèle automatiquement “hors 24 Go”
à juger en fonction de la quantization et du confort réel recherché

Autrement dit, sur un setup local haut de gamme, 27B et 35B-A3B peuvent tous les deux entrer dans la discussion. Mais pas comme deux réponses identiques. Ils correspondent à deux arbitrages différents. Le bon choix se fera à l’usage, pas au simple nombre affiché.

C’est précisément le genre de nuance qu’un bonus comme celui-ci doit donner, sinon il échoue à aider vraiment.

Pourquoi le bon modèle n’est pas celui qui impressionne le plus

Il y a des modèles qui font de bonnes captures d’écran. Et il y a des modèles qui font de bonnes semaines de travail. Ce n’est presque jamais la même chose.

Un modèle impressionnant sur le papier peut très bien être un mauvais choix pour toi s’il :

casse ta fluidité
te pousse à hésiter avant chaque session
te force à traiter Hermes comme un outil rare
ou te donne une sensation de lourdeur permanente

À l’inverse, un modèle moins impressionnant peut être un excellent choix s’il :

reste disponible
se lance sans friction
te laisse itérer
tient bien tes tâches quotidiennes
devient presque invisible dans ton workflow

C’est ça qu’il faut viser avec Hermes : un moteur qui s’efface derrière le travail. Pas un moteur qui transforme chaque session en démonstration technique.

Le bon modèle n’est donc pas celui qui fait le plus parler. C’est celui que tu utilises encore naturellement trois mois après.

Les erreurs les plus fréquentes

Quelques pièges reviennent presque toujours.

Choisir par hype.
Un modèle est nouveau, tout le monde en parle, tu le prends. Mauvaise base de décision.

Choisir par benchmark.
Un score élevé ne te dit pas si Hermes sera agréable avec ce modèle sur ta machine.

Choisir par ego matériel.
Avoir une grosse machine ne t’oblige pas à prendre le plus gros modèle possible.

Choisir trop gros trop tôt.
Tu vises directement le haut de la gamme sans passer par une étape plus confortable qui te permettrait de juger honnêtement ton usage.

Choisir sans regarder ton usage réel.
Tu choisis avant d’avoir clarifié ce que tu veux vraiment faire avec Hermes.

Croire qu’un modèle “qui tourne” est forcément un bon choix.
C’est probablement la confusion la plus chère de toutes.

Ce que tu ne dois pas faire

Ne vise pas immédiatement la taille la plus lourde que ta machine peut accepter.

Ne copie pas le setup d’un autre sans regarder son usage, sa tolérance au compromis et sa façon de travailler.

N’oublie pas la fréquence d’usage. Un modèle que tu utilises tous les jours vaut plus qu’un modèle plus gros que tu évites inconsciemment.

N’ignore pas le confort d’itération. Hermes tire beaucoup de sa valeur de la répétition courte, pas seulement des grosses sessions.

Et ne crois pas qu’un bon modèle compense un mauvais workflow. Même un excellent Qwen branché sur un usage flou ne donnera pas un setup propre.

La suite logique

Si tu te reconnais dans la zone haut de gamme local, la lecture suivante naturelle est le bonus déjà publié : Hermes Agent + Qwen3.5-27B : pourquoi ce couple marche bien. Il prend précisément ce cas et regarde ce qu’il apporte, et où il montre ses limites.

La règle finale, elle, tient en une ligne :
commence un cran en dessous de ce que ta machine pourrait théoriquement encaisser, puis monte seulement si ton usage te le demande vraiment.

C’est moins spectaculaire qu’un gros setup montré sur X.
C’est beaucoup plus utile au bout de trois mois.