Salut !
Petit tour d’horizon de NousResearch, pourquoi ça buzze et pourquoi ça peut foutre le bazar dans le monde des LLM et des modèles d’ia.
Fin 2022, tout ce passe sur un channel Discord, avec des conversations techniques, des experimentations. En 2023 ils se structurent en startup. En 2025 ils font une Série A menée par Paradigm (50 M de dollars). Petite équipe (quelques dizaines de personnes), grosse communauté (~15k sur Discord), beaucoup d’open-source et des idées un peu folles pour l’entraînement et la data.
L’histoire
Ici pas de plan marketing juste des gens sur Discord qui bricolaient, des threads, et des tests de leur côté. Et puis ça a pris. Jeffrey, Karan, Ryan, Shivani et la bande ont transformé les conversations en code, puis en boîte. La promesse ? Rendre l’IA accessible et traçable — publier les poids, partager les méthodes, et inviter la communauté à participer.
Ce qui est beau dans tout ça, c’est le mélange : une petite équipe agile + une communauté très active = expérimentations rapides et retours instantanés. Ils gardent leur côté « décentralisé » même après une levée de fonds — et ça change tout.
Les modèles et les idées qui font mouche
Ce qui fait parler d’eux, c’est la série Hermes et tout l’écosystème autour.
- Hermes : petite famille de LLMs qui mise sur la pratique. Hermes 3 (août 2024) = fine-tuning sur Llama 3.1 405B avec un dataset très synthétique (beaucoup de réponses générées). Résultat : efficace et rapide à lancer.
- Hermes 4 (août 2025) introduit le truc qui fait tilt : le raisonnement hybride. Deux modes : réponse rapide ou réflexion longue (balises
<think>...</think>visibles). En gros, tu vois quand le modèle « cogite ». Et oui, ça marche — les benchmarks montrent de gros gains pour certaines tâches.

Et quand tu mets le mode réflexion, boom :

Vous pouvez tester les modèles sur https://chat.nousresearch.com
Sinon sur Huggingface ils partagent tout leurs modèles : https://huggingface.co/NousResearch
DisTrO
DisTrO (Distributed Training Over-The-Internet) : le truc qui pourrait bien rendre l’entraînement de gros modèles accessible hors des data‑centers. En une phrase simple : DisTrO réduit les besoins de communication inter‑GPU de l’ordre de 4–5 décades (≈ 1 000 à 10 000×) en compressant intelligemment les gradients — et sans sacrifier la convergence, d’après les résultats publiés.
Source : https://nousresearch.com/nous-psyche/
Comment ça marche ?
- Chaque worker calcule ses gradients localement comme d’hab.
- Avant d’envoyer quoi que ce soit, on transforme et on compresse : la Transformée en Cosinus Discrète (DCT) est utilisée pour passer dans un domaine « fréquence » où l’information utile est concentrée (un peu comme un JPEG, mais pour gradients).
- On prune/quantise/encode les coefficients les plus importants, on envoie beaucoup moins de données. Grâce à DeMo (Decoupled Momentum Optimization), le système accepte une divergence contrôlée entre états d’optimiseur et conserve une bonne convergence globale.

Résultats & preuves
- Dans leur rapport préliminaire, Nous montre une preuve empirique : DisTrO peut matcher la vitesse de convergence d’un entraînement classique tout en réduisant massivement la bande passante (expérimentation sur un pré‑entraînement d’un LLM 15B).
- DeMo, qui complète DisTrO sur le plan théorique, découple les mises à jour de momentum et autorise des divergences contrôlées. Dans leurs expériences, on observe des corrélations de rang Spearman ≈ 0,99 et des erreurs quadratiques moyennes largement inférieures aux baselines classiques (ordres de grandeur en amélioration dans leurs mesures).
Pourquoi c’est un game changer
- Permet d’entraîner à grande échelle sur du matériel hétérogène et des connexions Internet lentes : un PC gaming peut contribuer.
- Rend la décentralisation (Psyche) réaliste : moins de données à transmettre = participation plus large et moins de coûts.
- Casse la dépendance aux interconnects ultra‑rapides (InfiniBand), ouvrant la porte à des entraînements distribués plus ouverts.
NOTE
- Compression = perte d’information potentielle : il faut calibrer pour ne pas dégrader l’entraînement.
- En infrastructures décentralisées, risques de data poisoning et de comportements malicieux — la vérification et la traçabilité (ex. vérificateurs, audit on‑chain sur Psyche) sont cruciales.
- Complexité d’implémentation : orchestre, quantisation, agrégation, et vérifications demandent une infra et un logiciel soignés.
Bref tout ça pour dire que DisTrO + DeMo = une approche pragmatique pour entraîner des modèles massifs sur Internet sans attendre le réseau du datacenter. Si ça tient à l’échelle, ça change la donne pour qui veut distribuer le compute hors des gros clouds.
Forge
Forge Reasoning API
Pourquoi Forge change la donne
- Boost d’inférence : Hermes 70B + Forge surperforme des modèles plus gros sur certains benchmarks de raisonnement (ex : AIME).
- Flexibilité : tu choisis le modèle ou la combinaison de modèles que tu veux (voir ci‑dessous).
- Transparence : la trace de raisonnement est accessible via l’API, utile pour audits, améliorations et analyses.
NOTEHermes 70B x Forge montre des résultats très solides sur AIME (compétition de mathématiques exigeante) dans leurs tests internes.
Architecture résumé de Forge
- Model Layer — Freedom of Choice : supporte Hermes 3, Claude Sonnet 3.5, Gemini, GPT‑4. Tu peux utiliser un seul modèle ou en combiner plusieurs.
- Reasoning Layer — trois briques principales (cas d’usage):
- MCTS (Monte Carlo Tree Search) : utile pour les problèmes de planification. Phases : Selection → Expansion → Simulation → Backpropagation.
- CoC (Chain of Code) : chaîne de raisonnements reliée à un interpréteur de code — top pour maths & code (ex : évaluer, exécuter, vérifier).
- MoA (Mixture of Agents) : plusieurs modèles/agents qui produisent des réponses, débattent et agrègent une solution consensuelle.
- Execution / Orchestration : gestion des appels modèles, exécution des bouts de code, agrégation des résultats, et renvoi de la trace complète.
En gros ça vise à rendre l’inférence plus robuste, traçable et modulable — une approche vraiment pragmatique pour donner du raisonnement aux modèles sans tout réentraîner.
Forge Blog Postc’est en bêta privée pour le moment pour les compute partners de Lambda mais on espère bien accessible pour tout le monde.
Psyche
l'infra décentralisée pour entraîner des modèles
Psyche, c’est l’ambition de Nous Research de rendre l’entraînement de modèles massif réellement démocratique. Plutôt que d’empiler des milliers d’accélérateurs dans un seul datacenter, Psyche orchestre l’entraînement sur du hardware hétérogène et sous‑utilisé partout dans le monde — en s’appuyant sur DisTrO/DeMo pour limiter la quantité de données à transférer, et sur la blockchain Solana pour la coordination, la traçabilité et la tolérance aux pannes.

- Objectif : permettre à n’importe qui (par exemple avec un pc gamer) de contribuer au training et d’être récompensé.
- Pilier technique : DisTrO + DeMo (compression de l’information d’apprentissage pour réduire la bande passante).
- Coordination : smart contract sur Solana qui stocke l’état d’un run, gère les transitions et fournit aléa & assignations.

Psyche n’est pas juste un wrapper : ils ont ajouté des améliorations concrètes à DeMo/DisTrO que l’on a vu juste avant pour améliorer l’efficacité pratique :
Overlapped Training: un nœud n’a plus à attendre d’avoir reçu toutes les mises à jour précédentes pour démarrer le pas suivant. On génère en parallèle des updates pendant que l’on applique d’autres updates. Résultat : bien meilleure utilisation GPU et la latence réseau cesse d’être le goulot d’étranglement à grande échelle.quantize_1bit: ils ont constaté qu’envoyer uniquement le signe (±1) des composantes DCT, plus leurs indices, contenait presque toute l’information utile — et compressait encore les résultats d’un facteur >3× quand cette option est activée.
C’est implémenté en Rust et repose sur un réseau P2P robuste (Iroh).
Acteurs principaux :
- Coordinator (smart contract Solana) : métadonnées du run, liste des participants, transitions d’état, source d’aléa pour assignations, point de synchronisation.
- Clients : nœuds GPU qui effectuent l’entraînement, peuvent agir comme witnesses et verifiers, uploadent checkpoints.
- Data providers : fournissent les batches (local, HTTP ou TCP).
C’est ambitieux, et certaines parties restent « researchy » (vérification pratique, robustesse à grande échelle), mais les bonnes idées sont là. Psyche peut réellement changer les règles du jeu et on l’espère.
il y aurait d’autres choses à raconter mais pour aujourd’hui je pense que c’est pas mal.
Financement ?
Ils sont l’anti‑modèle du lab opaque : transparents, flexibles, parfois un peu trop permissifs. Ça plaît à certains (contrôle, audit) et ça inquiète d’autres (risques d’abus). Leur force ? Agilité, communauté et innovations rapidement déployables. Leur point faible ? L’échelle et un modèle économique qui reste à complètement prouver.
Ils jouent la carte du mix : tout en open (poids et modèles sur HuggingFace), mais avec des briques commerciales (Forge, Nous Chat). Paradigm a mis 50M. On parle aussi d’un token NOUS pour animer Psyche — rumeur sérieuse mais rien d’officiel pour l’instant il me semble.
Voilà un petit tour d’horizon du projet. On en entend pas forcément parler beaucoup mais ils commencent à se faire une vraie place dans l’écosystème de l’IA.
J’espère que ça vous a plu ! Merci pour votre lecture.