Home Tecnología Qwen3-Max Considering supera a Gemini 3 Professional y GPT-5.2 en el último...

Qwen3-Max Considering supera a Gemini 3 Professional y GPT-5.2 en el último examen de la humanidad (con búsqueda)

23
0

Las empresas chinas de tecnología e inteligencia synthetic continúan impresionando con el desarrollo de modelos de lenguaje de inteligencia synthetic de última generación.

Hoy, el que llama la atención es el equipo Qwen de investigadores de IA de Alibaba Cloud y su presentación de un nuevo modelo de razonamiento de lenguaje propietario. Qwen3-Max-Pensamiento.

Quizás recuerde, como lo cubrió VentureBeat el año pasado, que Qwen se ha hecho un nombre en el mercado international de IA en rápido movimiento al ofrecer una variedad de modelos potentes y de código abierto en varias modalidades, desde texto hasta imágenes y audio hablado. La compañía incluso obtuvo el respaldo del gigante estadounidense de alojamiento tecnológico Airbnb, cuyo director ejecutivo y cofundador Brian Chesky dijo que la empresa confiaba en los modelos gratuitos y de código abierto de Qwen. como una alternativa más asequible a ofertas estadounidenses como las de OpenAI.

Ahora, con el Qwen3-Max-Considering patentado, el equipo Qwen pretende igualar y, en algunos casos, superar las capacidades de razonamiento de GPT-5.2 y Gemini 3 Professional a través de la eficiencia arquitectónica y la autonomía agente.

La liberación llega en un momento crítico. Los laboratorios occidentales han definido en gran medida la categoría de “razonamiento” (a menudo denominada lógica del “Sistema 2”), pero los últimos puntos de referencia de Qwen sugieren que la brecha se ha cerrado.

Además, el precio relativamente asequible de la empresa Estrategia de precios de API apunta agresivamente a la adopción empresarial. Sin embargo, como se trata de un modelo chino, algunas empresas estadounidenses con estrictos requisitos y consideraciones de seguridad nacional pueden desconfiar de adoptarlo.

La arquitectura: “Escalado en tiempo de prueba” redefinido

La principal innovación que impulsa Qwen3-Max-Considering es una desviación de los métodos de inferencia estándar. Si bien la mayoría de los modelos generan tokens de forma lineal, Qwen3 utiliza un “modo pesado” impulsado por una técnica conocida como “escalado en tiempo de prueba”.

En términos simples, esta técnica permite que el modelo intercambie computación por inteligencia. Pero a diferencia del ingenuo muestreo “lo mejor de N”, donde un modelo puede generar 100 respuestas y elegir la mejor, Qwen3-Max-Considering emplea una estrategia de múltiples rondas de experiencia acumulativa.

Este enfoque imita la resolución de problemas humanos. Cuando el modelo encuentra una consulta compleja, no se limita a adivinar; se involucra en una autorreflexión iterativa. Utiliza un mecanismo patentado de “tomar experiencia” para destilar conocimientos de pasos de razonamiento anteriores. Esto permite al modelo:

  1. Identificar callejones sin salida: Reconozca cuándo falla una línea de razonamiento sin necesidad de recorrerla por completo.

  2. Cálculo de enfoque: Redirigir el poder de procesamiento hacia “incertidumbres no resueltas” en lugar de volver a derivar conclusiones conocidas.

Las ganancias de eficiencia son tangibles. Al evitar razonamientos redundantes, el modelo integra un contexto histórico más rico en la misma ventana. El equipo de Qwen informa que este método impulsó saltos masivos de rendimiento sin disparar los costos de los tokens:

Más allá del pensamiento puro: herramientas adaptativas

Si bien los modelos “pensantes” son poderosos, históricamente han estado aislados: excelentes en matemáticas, pero deficientes para navegar por la internet o ejecutar código. Qwen3-Max-Considering cierra esta brecha integrando efectivamente “modos de pensamiento y no pensamiento”.

El modelo presenta capacidades de uso de herramientas adaptables, lo que significa que selecciona de forma autónoma la herramienta adecuada para el trabajo sin que el usuario se lo indique manualmente. Puede alternar sin problemas entre:

  • Búsqueda y extracción internet: Para consultas factuales en tiempo actual.

  • Memoria: Para almacenar y recuperar contexto específico del usuario.

  • Intérprete de código: Escribir y ejecutar fragmentos de Python para tareas computacionales.

En el “Modo de pensamiento”, el modelo admite estas herramientas simultáneamente. Esta capacidad es elementary para aplicaciones empresariales donde un modelo puede necesitar verificar un hecho (Buscar), calcular una proyección (Intérprete de código) y luego razonar sobre la implicación estratégica (Pensamiento), todo en un solo turno.

Empíricamente, el equipo señala que esta combinación “mitiga eficazmente las alucinaciones”, ya que el modelo puede basar su razonamiento en datos externos verificables en lugar de depender únicamente de sus pesos de entrenamiento.

Análisis de referencia: la historia de los datos

Qwen no se avergüenza de las comparaciones directas.

En el HMMT del 25 de febrero, un punto de referencia de razonamiento riguroso, Qwen3-Max-Considering obtuvo una puntuación de 98,0, superando a Gemini 3 Professional (97,5) y liderando significativamente a DeepSeek V3.2 (92,5).

Sin embargo, podría decirse que la señal más importante para los desarrolladores es Agentic Search. En el “Último examen de la humanidad” (HLE), el punto de referencia que mide el desempeño en 3.000 preguntas de posgrado “a prueba de Google” en matemáticas, ciencias, informática, humanidades e ingeniería, Qwen3-Max-Considering, equipado con herramientas de búsqueda internet, obtuvo una puntuación de 49,8, superando a Gemini 3 Professional (45,8) y GPT-5.2-Considering (45,5). .

Puntos de referencia clave de Qwen3-Max. Crédito: Equipo Alibaba Cloud Qwen en X

Esto sugiere que la arquitectura de Qwen3-Max-Considering es especialmente adecuada para flujos de trabajo agentes complejos de varios pasos donde es necesaria la recuperación de datos externos.

En tareas de codificación, el modelo también brilla. En Area-Exhausting v2, obtuvo una puntuación de 90,2, dejando muy atrás a competidores como Claude-Opus-4.5 (76,7).

La economía del razonamiento: desglose de precios

Por primera vez, tenemos una visión clara de la economía del modelo de razonamiento de primer nivel de Qwen. Alibaba Cloud se ha posicionado qwen3-max-2026-01-23 como oferta premium pero accesible en su API.

En un nivel básico, así es como se compara Qwen3-Max-Considering:

Modelo

Entrada (/1M)

Salida (/1M)

Costo Whole

Fuente

Qwen3 Turbo

$0.05

$0.20

$0.25

Nube de Alibaba

Grok 4.1 Rápido (razonamiento)

$0.20

$0.50

$0.70

xAI

Grok 4.1 Rápido (sin razonamiento)

$0.20

$0.50

$0.70

xAI

chat de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

razonador de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

Qwen 3 Plus

$0.40

$1.20

$1.60

Nube de Alibaba

ERNIE 5.0

$0.85

$3.40

$4.25

Qianfan

Vista previa flash de Géminis 3

$0.50

$3.00

$3.50

Google

Claude Haiku 4.5

$1.00

$5.00

$6.00

antrópico

Pensamiento Qwen3-Max (2026-01-23)

$1.20

$6.00

$7.20

Nube de Alibaba

Géminis 3 Professional (≤200K)

$2.00

$12.00

$14.00

Google

GPT-5.2

$1.75

$14.00

$15.75

AbiertoAI

Soneto de Claudio 4.5

$3.00

$15.00

$18.00

antrópico

Géminis 3 Professional (>200K)

$4.00

$18.00

$22.00

Google

Claude Opus 4.5

$5.00

$25.00

$30.00

antrópico

GPT-5.2 Professional

$21.00

$168.00

$189.00

AbiertoAI

Esta estructura de precios es agresiva y rebaja muchos modelos emblemáticos heredados y, al mismo tiempo, ofrece un rendimiento de última generación.

Sin embargo, los desarrolladores deben tener en cuenta el precio granular de las nuevas capacidades de agente, ya que Qwen separa el costo de “pensar” (tokens) del costo de “hacer” (uso de herramientas).

  • Estrategia de búsqueda de agentes: Ambos estándar search_strategy:agent y cuanto más avanzado search_strategy:agent_max tienen un precio de $10 por cada 1000 llamadas.

  • Búsqueda internet: Con un precio de $10 por cada 1000 llamadas a través de la API de Responses.

Nivel gratuito promocional:Para fomentar la adopción de sus funciones más avanzadas, Alibaba Cloud ofrece actualmente dos herramientas clave de forma gratuita por tiempo limitado:

Este modelo de precios (bajo costo simbólico + precio de herramientas a la carta) permite a los desarrolladores crear agentes complejos que sean rentables para el procesamiento de textos, mientras pagan una prima solo cuando se activan explícitamente acciones externas, como una búsqueda internet en vivo.

Ecosistema de desarrolladores

Al reconocer que el rendimiento es inútil sin integración, Alibaba Cloud se ha asegurado de que Qwen3-Max-Considering esté listo para su instalación.

  • Compatibilidad con OpenAI: La API admite el formato estándar OpenAI, lo que permite a los equipos cambiar de modelo simplemente cambiando el base_url y mannequin nombre.

  • Compatibilidad antrópica: En un movimiento inteligente para capturar el mercado de la codificación, la API también es suitable con el protocolo Anthropic. Esto hace que Qwen3-Max-Considering sea suitable con Código Claudeun entorno de codificación agente widespread.

El veredicto

Qwen3-Max-Considering representa una maduración del mercado de la IA en 2026. Lleva la conversación más allá de “quién tiene el chatbot más inteligente” a “quién tiene el agente más capaz”.

Al combinar el razonamiento de alta eficiencia con el uso de herramientas adaptables y autónomas (y fijarle un precio para moverse), Qwen se ha establecido firmemente como un contendiente de primer nivel para el trono de la IA empresarial.

Para desarrolladores y empresas, las ventanas “Free of charge por tiempo limitado” en Code Interpreter y Net Extractor sugieren que ahora es el momento de experimentar. Las guerras de razonamiento están lejos de terminar, pero Qwen acaba de desplegar un gran bateador.

avotas