NousResearch

¡Hola!

Pequeño repaso de NousResearch, por qué está causando revuelo y por qué puede revolucionar el mundo de los LLM y los modelos de IA.

A finales de 2022, todo empieza en un canal de Discord, con conversaciones técnicas y experimentos. En 2023 se estructuran como startup. En 2025 hacen una Serie A liderada por Paradigm (50 millones de dólares). Equipo pequeño (unas pocas decenas de personas), gran comunidad (~15k en Discord), mucho open-source y algunas ideas bastante locas para el entrenamiento y los datos.

La historia#

Aquí no hay plan de marketing, solo gente en Discord trasteando, hilos y pruebas por su cuenta. Y funcionó. Jeffrey, Karan, Ryan, Shivani y el equipo transformaron las conversaciones en código, luego en empresa. ¿La promesa? Hacer la IA accesible y trazable — publicar los pesos, compartir los métodos e invitar a la comunidad a participar.

Lo bonito de todo esto es la mezcla: un pequeño equipo ágil + una comunidad muy activa = experimentación rápida y feedback instantáneo. Mantienen su lado «descentralizado» incluso después de la ronda de financiación — y eso lo cambia todo.

NousResearch

Waiting for api.github.com...

Los modelos y las ideas que destacan#

Lo que les da notoriedad es la serie Hermes y todo el ecosistema alrededor.

Hermes: pequeña familia de LLMs que apuesta por la práctica. Hermes 3 (agosto 2024) = fine-tuning sobre Llama 3.1 405B con un dataset muy sintético (muchas respuestas generadas). Resultado: eficaz y rápido de lanzar.
Hermes 4 (agosto 2025) introduce la novedad: el razonamiento híbrido. Dos modos: respuesta rápida o reflexión larga (etiquetas <think>...</think> visibles). Básicamente, puedes ver cuándo el modelo «piensa». Y sí, funciona — los benchmarks muestran grandes mejoras en ciertas tareas.

Hermes 4 vs Frontier Models

Y cuando activas el modo reflexión, boom:

Hermes 4 Hybrid reasoning : performance boost across benchmarks

Puedes probar los modelos en https://chat.nousresearch.com

También en Huggingface comparten todos sus modelos: https://huggingface.co/NousResearch

DisTrO#

NousResearch

DisTrO

Waiting for api.github.com...

00K

Waiting...

DisTrO (Distributed Training Over-The-Internet): lo que podría hacer accesible el entrenamiento de grandes modelos fuera de los data centers. En una frase: DisTrO reduce las necesidades de comunicación inter-GPU en 4–5 décadas (≈ 1 000 a 10 000×) comprimiendo inteligentemente los gradientes — y sin sacrificar la convergencia, según los resultados publicados.

Fuente: https://nousresearch.com/nous-psyche/

¿Cómo funciona?

Cada worker calcula sus gradientes localmente como siempre.
Antes de enviar nada, se transforma y comprime: la Transformada de Coseno Discreta (DCT) se usa para pasar a un dominio de «frecuencia» donde la información útil se concentra (como un JPEG, pero para gradientes).
Se recortan/cuantifican/codifican los coeficientes más importantes, se envía mucha menos información. Gracias a DeMo (Decoupled Momentum Optimization), el sistema acepta una divergencia controlada entre estados del optimizador y mantiene una buena convergencia global.

DisTrO

Resultados y pruebas

En su informe preliminar, Nous muestra una prueba empírica: DisTrO puede igualar la velocidad de convergencia de un entrenamiento clásico mientras reduce masivamente el ancho de banda (experimento en el pre-entrenamiento de un LLM 15B).
DeMo, que complementa a DisTrO teóricamente, desacopla las actualizaciones de momentum y permite divergencias controladas. En sus experimentos, se observan correlaciones de rango de Spearman ≈ 0,99 y errores cuadráticos medios muy inferiores a los baseline clásicos (mejoras de órdenes de magnitud en sus mediciones).

Por qué es un game changer

Permite entrenar a gran escala en hardware heterogéneo y conexiones lentas de Internet: un PC gamer puede contribuir.
Hace realista la descentralización (Psyche): menos datos a transmitir = más participación y menos costes.
Rompe la dependencia de interconexiones ultra rápidas (InfiniBand), abriendo la puerta a entrenamientos distribuidos más abiertos.

NOTE

Compresión = posible pérdida de información: hay que calibrar para no degradar el entrenamiento.

En infraestructuras descentralizadas, riesgos de data poisoning y comportamientos maliciosos — la verificación y trazabilidad (ej. verificadores, auditoría on-chain en Psyche) son cruciales.

Complejidad de implementación: orquestación, cuantización, agregación y verificaciones requieren una infraestructura y software cuidados.

En resumen, DisTrO + DeMo = un enfoque pragmático para entrenar modelos masivos por Internet sin depender de la red del datacenter. Si escala, cambia las reglas para quienes quieren distribuir el cómputo fuera de las grandes nubes.

Forge#

Forge Reasoning API

forge

Por qué Forge cambia las reglas

Impulso en inferencia: Hermes 70B + Forge supera a modelos más grandes en ciertos benchmarks de razonamiento (ej: AIME).
Flexibilidad: eliges el modelo o la combinación de modelos que quieras (ver abajo).
Transparencia: la traza de razonamiento es accesible vía API, útil para auditorías, mejoras y análisis.

NOTE
Hermes 70B x Forge muestra resultados muy sólidos en AIME (competición de matemáticas exigente) en sus tests internos.

Resumen de la arquitectura de Forge

Model Layer — Libertad de elección: soporta Hermes 3, Claude Sonnet 3.5, Gemini, GPT‑4. Puedes usar un solo modelo o combinar varios.
Reasoning Layer — tres bloques principales (casos de uso):
- MCTS (Monte Carlo Tree Search): útil para problemas de planificación. Fases: Selección → Expansión → Simulación → Retropropagación.
- CoC (Chain of Code): cadena de razonamientos conectada a un intérprete de código — ideal para matemáticas y código (ej: evaluar, ejecutar, verificar).
- MoA (Mixture of Agents): varios modelos/agentes producen respuestas, debaten y agregan una solución consensuada.
Ejecución / Orquestación: gestión de llamadas a modelos, ejecución de fragmentos de código, agregación de resultados y devolución de la traza completa.

En resumen, busca hacer la inferencia más robusta, trazable y modular — un enfoque realmente pragmático para dotar de razonamiento a los modelos sin reentrenar todo.

Forge Blog Post

Está en beta privada por ahora para los compute partners de Lambda pero esperan abrirlo a todos.

Psyche#

la infraestructura descentralizada para entrenar modelos

Psyche es la ambición de Nous Research de hacer el entrenamiento de modelos masivos realmente democrático. En vez de apilar miles de aceleradores en un solo datacenter, Psyche orquesta el entrenamiento en hardware heterogéneo y subutilizado en todo el mundo — apoyándose en DisTrO/DeMo para limitar la cantidad de datos a transferir, y en la blockchain Solana para la coordinación, trazabilidad y tolerancia a fallos.

psyche

Objetivo: permitir que cualquiera (por ejemplo, con un PC gamer) contribuya al entrenamiento y sea recompensado.
Pilar técnico: DisTrO + DeMo (compresión de la información de aprendizaje para reducir el ancho de banda).
Coordinación: smart contract en Solana que almacena el estado de una ejecución, gestiona las transiciones y proporciona aleatoriedad y asignaciones.

Ver los runs en directo

psyche

Psyche no es solo un wrapper: han añadido mejoras concretas a DeMo/DisTrO que vimos antes para mejorar la eficiencia práctica:

Overlapped Training: un nodo ya no tiene que esperar a recibir todas las actualizaciones anteriores para empezar el siguiente paso. Se generan actualizaciones en paralelo mientras se aplican otras. Resultado: mucho mejor uso de la GPU y la latencia de red deja de ser el cuello de botella a gran escala.
quantize_1bit: vieron que enviar solo el signo (±1) de las componentes DCT, más sus índices, contenía casi toda la información útil — y comprimía aún más los resultados por un factor >3× cuando esta opción está activada.

Está implementado en Rust y se basa en una red P2P robusta (Iroh).

PsycheFoundation

psyche

Waiting for api.github.com...

00K

Waiting...

Actores principales:

Coordinator (smart contract Solana): metadatos de la ejecución, lista de participantes, transiciones de estado, fuente de aleatoriedad para asignaciones, punto de sincronización.
Clients: nodos GPU que realizan el entrenamiento, pueden actuar como witnesses y verifiers, suben checkpoints.
Data providers: proporcionan los batches (local, HTTP o TCP).

Es ambicioso, y algunas partes siguen siendo «de investigación» (verificación práctica, robustez a gran escala), pero las buenas ideas están ahí. Psyche puede realmente cambiar las reglas del juego y eso esperamos.

Habría más cosas que contar pero por hoy creo que es suficiente.

¿Financiación?#

Son el anti-modelo del laboratorio opaco: transparentes, flexibles, a veces un poco demasiado permisivos. Eso gusta a algunos (control, auditoría) y preocupa a otros (riesgos de abuso). ¿Su fortaleza? Agilidad, comunidad e innovaciones rápidamente desplegables. ¿Su punto débil? La escala y un modelo económico aún por demostrar completamente.

Juegan la carta del mix: todo abierto (pesos y modelos en HuggingFace), pero con bloques comerciales (Forge, Nous Chat). Paradigm ha puesto 50M$ y hay socios de cómputo como Lambda y Together AI y la empresa está valorada actualmente en más de mil millones de dólares. También se habla de un token NOUS para animar Psyche — rumor serio pero nada oficial por ahora, que yo sepa.

Aquí tienes un pequeño repaso del proyecto. No siempre se oye mucho sobre ellos pero empiezan a hacerse un hueco real en el ecosistema de la IA.

¡Espero que te haya gustado! Gracias por leer.