Nuestra investigaciónla startup de inteligencia synthetic con sede en San Francisco, lanzó el martes un sistema de razonamiento matemático de código abierto llamado Nomos 1 que logró un desempeño humano casi de élite en la edición de este año Concurso de Matemáticas William Lowell Putnamuno de los concursos universitarios de matemáticas más prestigiosos y notoriamente difíciles del mundo.
Putnam es conocido por su dificultad: si bien la puntuación perfecta es 120, la puntuación máxima de este año fue 90 y la mediana fue solo 2. Nomos 1, por el contrario, obtuvo 87 puntos, un resultado que habría ocupado el segundo lugar entre 3.988 participantes en la competición de 2024, según la empresa.
El lanzamiento marca un punto de inflexión en la carrera que se acelera rápidamente para construir sistemas de inteligencia synthetic capaces de realizar un razonamiento matemático sofisticado. A diferencia de los modelos masivos y con uso intensivo de computación implementados por las principales empresas de tecnología, Nomos 1 logra sus resultados con una arquitectura relativamente compacta: 30 mil millones de parámetros con aproximadamente 3 mil millones activos en un momento dado, utilizando un diseño mixto de expertos basado en el de Alibaba. modelo Qwen3.
“Esta puntuación ocuparía el puesto 2/3988 en 2024 y marca nuestro primer paso con Hillclimb AI hacia la creación de un matemático SOTA AI”, Nous Analysis anunciado en las redes sociales el martes.
El mismo modelo base obtuvo 24 puntos sin la formación especializada de Nous Analysis
Quizás lo más sorprendente sea la brecha entre Nomos 1 y su modelo base. Cuando Nous Analysis hizo lo mismo Modelo Qwen3-30B-A3B-Thinking-2507 a través de un conjunto de pruebas idéntico, obtuvo solo 24 de 120, un resultado que subraya la importancia crítica de la optimización posterior al entrenamiento y las técnicas de razonamiento especializadas sobre la escala del modelo sin procesar.
“Nomos 1 logró un 87/120 con 8 puntuaciones perfectas”, afirmó la compañía, señalando que la diferencia de rendimiento “se debe en gran medida a la calidad de los datos y el post-entrenamiento más que al arnés”.
Los resultados fueron verificados mediante calificación ciega por parte de un experto humano que previamente había terminado entre los 200 primeros en Putnam. Nuestra investigación proporcionó los envíos anónimos al evaluador y luego publicó el conjunto completo de archivos anonimizados y los runbooks utilizados para generarlos en GitHub.
Por qué el concurso de Putnam se considera la prueba definitiva de razonamiento matemático
El Concurso de Matemáticas William Lowell Putnam es una competencia anual de matemáticas para estudiantes universitarios matriculados en instituciones de educación superior en los Estados Unidos y Canadá. Se considera ampliamente como la competencia de matemáticas a nivel universitario más prestigiosa del mundo.
La notoriamente brutal Competencia Matemática William Lowell Putnam es más un evento deportivo matemático que una prueba académica. El examen consta de dos sesiones de 3 horas separadas por un descanso de 2 horas. Hay un whole de 12 preguntas a resolver, 6 por cada sesión. Cada pregunta vale 10 puntos, para un whole de 120 puntos.
Las preguntas de Putnam no son del tipo que aparecen en los exámenes o libros de texto habituales. Se parecen más a acertijos que a cálculos y a menudo requieren que los estudiantes encuentren diferentes formas de representar las cosas antes de que se pueda encontrar una solución.
El año pasado, casi 4.000 estudiantes de todo el continente escribieron el Putnam. El sesenta y uno por ciento anotó tres puntos o menos, según el Asociación Matemática de Américaque organiza la competición. La puntuación máxima fue 90 sobre 120.
Muchos becarios Putnam se han convertido en investigadores distinguidos en matemáticas y otros campos, incluidos tres medallistas Fields (John Milnor, David Mumford y Daniel Quillen) y dos premios Nobel de física: Richard Feynman y Kenneth Wilson.
Dentro del sistema de razonamiento de dos fases que impulsa los avances matemáticos de Nomos 1
Nomos 1 es una especialización de Qwen Qwen3-30B-A3B-Modelo de pensamientooptimizado para la resolución de problemas matemáticos y la redacción de pruebas en lenguaje pure. El sistema fue desarrollado en colaboración con IA de subida de colinas.
Lo que distingue a Nomos 1 de la easy inferencia de modelos es su sofisticado método de razonamiento: un marco de código abierto que organiza cómo el modelo aborda y resuelve problemas. El arnés opera en dos fases distintas dentro de un límite de tiempo de tres horas, reflejando la estructura de competencia actual de Putnam.
En la fase de resolución, los trabajadores paralelos abordan los problemas simultáneamente utilizando un sistema basado en prioridades. Cada trabajador elige un problema, genera una presentación y luego califica su propio trabajo en una escala del 1 al 7. Los problemas con la menor cantidad de puntuaciones perfectas reciben prioridad, lo que garantiza que el sistema centre su cálculo en los desafíos más difíciles. Este proceso continúa hasta que todos los problemas hayan alcanzado un número objetivo de puntuaciones perfectas de autocrítica o hasta que se acabe el tiempo.
La fase de finalización comienza 15 minutos antes del límite de tiempo (o al 50% para tiradas más cortas) y emplea un proceso de selección de dos etapas. En primer lugar, un paso de consolidación agrupa las presentaciones por conclusión e intenta identificar el grupo correcto (es importante destacar que no necesariamente el grupo mayoritario). Luego, un torneo por parejas mediante eliminación easy determina la presentación last para cada problema.
“Nuestro sistema de razonamiento de código abierto consta de una fase de resolución, en la que los trabajadores intentan resolver el problema menos resuelto y realizar una autoevaluación, seguida de una fase de finalización, que consolida las presentaciones para elegir una presentación last para cada problema”, Nous Analysis explicado.
Cómo se compara Nomos 1 con los sistemas matemáticos de inteligencia synthetic de DeepSeek, Google y OpenAI
Los resultados de Nomos 1 llegan en medio de una avalancha de avances en la inteligencia synthetic del razonamiento matemático. El modelo de DeepSeek, DeepSeekMath-V2obtuvo 118 de 120 puntos en las preguntas del Concurso de Matemáticas William Lowell Putnam 2024, superando la puntuación humana máxima de 90. El modelo también se desempeñó al nivel de los ganadores de medallas de oro en la Olimpiada Internacional de Matemáticas.
Este año, la avanzada de Google Modelo Géminis operó de extremo a extremo en lenguaje pure, produciendo pruebas matemáticas rigurosas directamente a partir de las descripciones oficiales de los problemas, todo dentro del límite de tiempo de competencia de 4,5 horas. Lograron el resultado de este año utilizando una versión avanzada de Géminis pensamiento profundo.
Lo que hace que el logro de Nomos 1 sea notable no es el rendimiento bruto (está por detrás del 118/120 de DeepSeek) sino más bien su accesibilidad y eficiencia. Con 30 mil millones de parámetros y solo 3 mil millones activos, el modelo puede ejecutarse en {hardware} de consumo, un marcado contraste con los enormes clústeres de computación que requieren los modelos de vanguardia de OpenAI y Google.
Hermes 4.3 llegó solo seis días antes, entrenado en una purple blockchain descentralizada
El anuncio de Nomos 1 sigue de cerca al lanzamiento de Nous Analysis el 3 de diciembre de Hermes 4.3un modelo de lenguaje de propósito basic que marcó otro hito importante para la empresa.
Hermes 4.3, basado en ByteDance Semilla-OSS-36B-Modelo basees el primer modelo productivo que Nous Analysis entrenó íntegramente en su Red psique – una infraestructura de capacitación distribuida que utiliza un optimizador novedoso llamado DisTrO para coordinar la capacitación entre nodos distribuidos en centros de datos a través de Web abierto, asegurado por consenso en la cadena de bloques Solana.
La empresa se capacitó Hermes 4.3 tanto a través de métodos centralizados tradicionales como en el Red psiqueespecíficamente para verificar que la capacitación distribuida pueda igualar o superar el rendimiento centralizado para cargas de trabajo de producción. La versión entrenada por Psyche superó a la versión centralizada en un conjunto de tareas posteriores, informó la compañía.
“La ejecución del entrenamiento resultó estable en todo momento, con un promedio de 144.000 tokens/segundo repartidos en 24 nodos de Psyche”, afirmó Nous Analysis. “Utilizando la estrategia colectiva superpuesta de DisTrO, la totalidad de las comunicaciones P2P quedaron ocultas durante el tiempo de capacitación, logrando efectivamente un rendimiento equivalente al de la capacitación centralizada tradicional”.
Hermes 4.3 también logró resultados de vanguardia en RefusalBench, un nuevo punto de referencia que mide la voluntad de un modelo de ser útil en una variedad de escenarios comúnmente restringidos por otros modelos. El modelo respondió el 74,60% de las preguntas de RefusalBench en modo sin razonamiento, superando a su predecesor Hermes 4 70B (59,50%) y a modelos cerrados como Grok 4 (51,30%) y Gemini 2.5 Professional (24,23%).
Los modelos pequeños con entrenamiento inteligente están cerrando la brecha con los gigantes de billones de parámetros
Juntos, los dos lanzamientos en una sola semana señalan la apuesta estratégica de Nous Analysis: que modelos más pequeños y más eficientes con técnicas sofisticadas de post-entrenamiento y arneses de razonamiento pueden competir (y en algunos casos superar) los modelos masivos desarrollados por competidores mejor financiados.
Para los responsables de la toma de decisiones empresariales, las implicaciones son significativas. Las capacidades de razonamiento matemático tienen aplicaciones mucho más allá de las competencias académicas: son esenciales para la verificación formal, la demostración de teoremas, el modelado científico, el análisis criptográfico y cualquier dominio que requiera una deducción lógica rigurosa.
La naturaleza de código abierto de ambas versiones: Nomos 1 está disponible bajo la licencia Apache 2.0 en Hugging Face, con el arnés de razonamiento completo en GitHub – significa que las organizaciones pueden implementar estas capacidades en su propia infraestructura sin depender de llamadas API a los principales proveedores de la nube.
“Por primera vez, cualquiera puede ejecutar o acceder a una IA matemática de última generación”, señaló un observador en las redes sociales. “Esto cut back la barrera para la investigación matemática seria, la verificación de pruebas, el modelado de sistemas complejos y el trabajo de razonamiento avanzado”.
Los contribuyentes clave a Nomos 1 incluyen a Roger Jin, quien dirigió la capacitación; Jeffrey Quesnelle y Dakota Mahan, quienes construyeron la infraestructura; Chen Guang, quien asesoró; y Ryan Teknium y Jeffrey Quesnelle, quienes brindaron liderazgo. El modelo se desarrolló con contribuciones de Hillclimb AI y un equipo de expertos en matemáticas, incluidos Samuel Kim, Miron Yurkevich y otros.
La carrera para formar matemáticos en IA se está acelerando más rápido de lo que nadie predijo
El 86º Concurso de Putnam tuvo lugar el sábado 6 de diciembre de 2025, apenas tres días antes de que Nous Analysis lanzara Nomos 1. El momento subraya lo rápido que se está moviendo el campo: las empresas ahora están lanzando sistemas matemáticos de inteligencia synthetic capaces de alcanzar un desempeño humano casi de élite a los pocos días de las competencias para las que están diseñadas.
La competencia en IA matemática se ha intensificado dramáticamente en los últimos meses. En julio, una versión avanzada de El modelo Géminis de Google DeepMind y un modelo de razonamiento experimental de AbiertoAI ambos alcanzaron el estatus de oro en la OMI 2025. El nuevo modelo de DeepSeek igualó su desempeño, resolviendo 5 de 6 problemas.
Pero los requisitos de recursos para esos sistemas fronterizos siguen siendo prohibitivos para la mayoría de las organizaciones. Se estima que o1-pro de OpenAI tiene más de 1,8 billones de parámetros; El Gemini 2.5 Professional de Google probablemente supere los 400 mil millones. Nomos 1, por el contrario, logra resultados competitivos con una fracción de esa huella.
La brecha entre los modelos fronterizos masivos y las alternativas eficientes de código abierto se está reduciendo. Y para las organizaciones que necesitan capacidades de razonamiento matemático sin el presupuesto para computación a hiperescala, esa brecha puede haberse reducido lo suficiente como para ser importante.
Como un observador Póngalo en las redes sociales: “Esto marca un salto significativo para los modelos matemáticos de IA que son lo suficientemente pequeños como para ejecutarse en su computadora portátil”.
Una computadora portátil que ahora puede superar a casi 4.000 de los mejores matemáticos universitarios del continente.









