Home Tecnología Sonnet 4.6 de Anthropic iguala el rendimiento emblemático de la IA a...

Tecnología

Sonnet 4.6 de Anthropic iguala el rendimiento emblemático de la IA a una quinta parte del costo, acelerando la adopción empresarial

18 febrero 2026

antrópico el martes liberado Soneto de Claudio 4.6un modelo que equivale a un evento sísmico de revisión de precios para la industria de la IA. Ofrece inteligencia casi emblemática a un costo medio y aterriza de lleno en medio de una prisa corporativa sin precedentes por implementar agentes de inteligencia synthetic y herramientas de codificación automatizadas.

El modelo es una actualización completa en codificación, uso de computadoras, razonamiento de contexto largo, planificación de agentes, trabajo de conocimiento y diseño. Cuenta con una ventana de contexto de token de 1 millón en versión beta. Ahora es el modelo predeterminado en claude.ai y Claude Coworky el precio se mantiene estable en $3/$15 por millón de tokens, el mismo que el de su predecesor, Sonnet 4.5.

Ese detalle de precios es el titular que más importa. El buque insignia de Anthropic Los modelos Opus cuestan entre 15 y 75 dólares por millón de tokens — cinco veces el precio del Sonnet. Sin embargo, el rendimiento que anteriormente habría requerido alcanzar un modelo de clase Opus, incluso en tareas de oficina económicamente valiosas del mundo actual, ahora está disponible con Sonnet 4.6. Para las miles de empresas que ahora implementan agentes de IA que realizan millones de llamadas API por día, esas matemáticas lo cambian todo.

Las puntuaciones de uso de computadoras de Anthropic casi se han quintuplicado en 16 meses. El último modelo de la compañía, Sonnet 4.6, obtuvo una puntuación del 72,5 por ciento en el punto de referencia verificado por OSWorld, frente al 14,9 por ciento cuando la capacidad se lanzó por primera vez en octubre de 2024. (Fuente: Anthropic)

Por qué el coste de ejecutar agentes de IA a escala acaba de caer drásticamente

Para comprender el significado de este lanzamiento, es necesario comprender el momento en que llega. El año pasado estuvo dominado por el fenómeno gemelo de “codificación de vibraciones” y IA agente. Claude Code, la herramienta terminal de Anthropic para desarrolladores, se ha convertido en una fuerza cultural en Silicon Valley, donde los ingenieros crean aplicaciones completas a través de conversaciones en lenguaje pure. El New York Times perfiló su meteórico ascenso en enero. The Verge declaró recientemente que Claude Code está teniendo un verdadero “momento.” Mientras tanto, OpenAI ha estado librando su propia ofensiva con aplicaciones de escritorio Codex y chips de inferencia más rápidos.

El resultado es una industria donde los modelos de IA ya no se evalúan de forma aislada. Se evalúan como motores dentro de agentes autónomos: sistemas que funcionan durante horas, realizan miles de llamadas a herramientas, escriben y ejecutan código, navegan por navegadores e interactúan con software program empresarial. Cada dólar gastado por millón de tokens se multiplica entre esas miles de llamadas. A escala, la diferencia entre 15 y 3 dólares por millón de tokens de entrada no es incremental. Es transformador.

La tabla de referencia publicada por Anthropic muestra un panorama sorprendente. En SWE-bench Verificadola prueba estándar de la industria para codificación de software program del mundo actual, Sonnet 4.6 obtuvo una puntuación del 79,6%, casi igualando el 80,8% de Opus 4.6. Sobre el uso agente de la computadora (OSWorld-Verified), Sonnet 4.6 obtuvo un 72,5%, esencialmente empatado con el 72,7% de Opus 4.6. En tareas de oficina (PIBval-AA Elo), Sonnet 4.6 en realidad obtuvo 1633, superando los 1606 de Opus 4.6. En el análisis financiero agente, Sonnet 4.6 alcanzó un 63,3%, superando a todos los modelos en la comparación, incluido Opus 4.6 con un 60,1%.

Éstas no son diferencias marginales. En muchas de las categorías que más interesan a las empresas, Soneto 4.6 coincide o supera a modelos cuyo funcionamiento cuesta cinco veces más. Anteriormente, una empresa que ejecutaba un agente de IA que procesa 10 millones de tokens por día se veía obligada a elegir entre resultados inferiores a un costo menor o resultados superiores a un costo que aumentaba rápidamente. Sonnet 4.6 elimina en gran medida esa compensación.

En Código Claudelas primeras pruebas encontraron que los usuarios preferían Soneto 4.6 sobre Sonnet 4.5 aproximadamente el 70% del tiempo. Los usuarios incluso prefirieron Sonnet 4.6 a Opus 4.5, el modelo fronterizo de Anthropic de noviembre, el 59% de las veces. Calificaron a Sonnet 4.6 como significativamente menos propenso a la ingeniería excesiva y la “pereza”, y significativamente mejor en el seguimiento de instrucciones. Informaron menos afirmaciones falsas de éxito, menos alucinaciones y un seguimiento más consistente de tareas de varios pasos.

Soneto-4.6-Eval-Table-Blog-Highlight-A-2x — El Sonnet 4.6 de Anthropic, un modelo de nivel medio, iguala o se acerca al rendimiento de la línea insignia Opus de la compañía en la mayoría de las categorías de referencia y con frecuencia supera a los modelos rivales de Google y OpenAI. (Fuente: Antrópico)

Cómo las habilidades de Claude para usar la computadora pasaron de ser “experimentales” a casi humanas en 16 meses

Una de las historias más dramáticas del lanzamiento es el progreso de Anthropic en el uso de computadoras: la capacidad de una IA para operar una computadora como lo hace un humano, haciendo clic con el mouse, escribiendo en un teclado y navegando con software program que carece de API modernas.

Cuando Anthropic introdujo por primera vez esta capacidad en octubre de 2024, la compañía reconoció que “todavía period experimental, a veces engorrosa y propensa a errores”. Desde entonces, las cifras cuentan una historia notable: en OSWorldClaude Sonnet 3.5 obtuvo un 14,9% en octubre de 2024. Sonnet 3.7 alcanzó un 28,0% en febrero de 2025. Sonnet 4 alcanzó un 42,2% en junio. Sonnet 4.5 subió hasta el 61,4% en octubre. Ahora Sonnet 4.6 ha alcanzado el 72,5%, casi cinco veces más en 16 meses.

Esto es importante porque el uso de la computadora es la capacidad que desbloquea el conjunto más amplio de aplicaciones empresariales para los agentes de IA. Casi todas las organizaciones tienen software program heredado (portales de seguros, bases de datos gubernamentales, sistemas ERP, herramientas de programación hospitalaria) que se creó antes de que existieran las API. Un modelo que puede simplemente mirar una pantalla e interactuar con ella abre todo esto a la automatización sin necesidad de construir conectores personalizados.

Jamie Cuffe, director ejecutivo de Tempo, dijo que Sonnet 4.6 alcanzó el 94% en su punto de referencia de uso de computadoras de seguros complejos, el más alto de cualquier modelo de Claude probado. “Razona a través de fallas y se autocorrige de maneras que no hemos visto antes”, dijo Cuffe en un comunicado enviado a VentureBeat. Will Harvey, cofundador de Convey, lo llamó “una clara mejora con respecto a cualquier otra cosa que hayamos probado en nuestras evaluaciones”.

También llamó la atención la dimensión de seguridad del uso de la computadora. Anthropic señaló que el uso de la computadora plantea riesgos de inyección inmediata (actores maliciosos que ocultan instrucciones en sitios internet para secuestrar el modelo) y dijo que sus evaluaciones muestran que Sonnet 4.6 es una mejora importante con respecto a Sonnet 4.5 en la resistencia a tales ataques. Para las empresas que implementan agentes que navegan por la internet e interactúan con sistemas externos, ese refuerzo no es opcional.

Los clientes empresariales dicen que el modelo cierra la brecha entre los niveles de precios de Sonnet y Opus

La reacción de los clientes ha sido inusualmente específica sobre la dinámica costo-rendimiento. Varios de los primeros evaluadores describieron explícitamente que Sonnet 4.6 eliminaba la necesidad de alcanzar el nivel Opus, más caro.

Caitlin Colgrove, CTO de Hex Applied sciences, dijo que la compañía está trasladando la mayor parte de su tráfico a Soneto 4.6señalando que con pensamiento adaptativo y alto esfuerzo, “vemos un rendimiento de nivel Opus en todas las tareas analíticas, excepto en las más difíciles, con un perfil más eficiente y versatile. Con el precio de Sonnet, es una opción fácil para nuestras cargas de trabajo”.

Ben Kus, CTO de Field, dijo que el modelo superó a Sonnet 4.5 en preguntas y respuestas de razonamiento intenso en 15 puntos porcentuales en documentos empresariales reales. Michele Catasta, presidente de Replit, calificó la relación rendimiento-coste como “extraordinaria”. Ryan Wiggins de Mercury Banking lo expresó de manera más directa: “Claude Sonnet 4.6 es más rápido, más barato y tiene más probabilidades de lograr resultados en el primer intento. Esa combinación fue una combinación sorprendente de mejoras, y no esperábamos verlo a este precio”.

Las mejoras en la codificación resuenan particularmente dado el dominio de Claude Code en el mercado de herramientas para desarrolladores. David Loker, vicepresidente de IA de CodeRabbit, dijo que el modelo “supera con creces su categoría de peso para la gran mayoría de las relaciones públicas del mundo actual”. Leo Tchourakov de Manufacturing facility AI dijo que el equipo está “haciendo la transición de nuestro tráfico de Sonnet a este modelo”. El vicepresidente de producto de GitHub, Joe Binder, confirmó que el modelo “ya sobresale en correcciones de código complejas, especialmente cuando la búsqueda en grandes bases de código es esencial”.

Brendan Falk, fundador y director ejecutivo de Hercules, fue más allá: “Claude Sonnet 4.6 es el mejor modelo que hemos visto hasta la fecha. Tiene precisión de nivel Opus 4.6, seguimiento de instrucciones e interfaz de usuario, todo por un costo significativamente menor”.

Soneto-4.6-Saldo-monetario-en-el-tiempo-2x — En un entorno empresarial simulado, Sonnet 4.6 casi triplicó las ganancias de su predecesor en el transcurso de un año, lo que sugiere una toma de decisiones notablemente mejorada en tareas complejas y de largo plazo. (Fuente: Anthropic, Merchandising-Bench Area)

Una competencia empresarial simulada revela cómo los agentes de IA planifican durante meses, no en minutos

Enterrada en los detalles técnicos hay una capacidad que da pistas sobre hacia dónde se dirigen los agentes autónomos de IA. La ventana de contexto de token de 1 millón de Sonnet 4.6 puede contener bases de código completas, contratos extensos o docenas de artículos de investigación en una sola solicitud. Anthropic cube que el modelo razona eficazmente en todo ese contexto, una afirmación que la empresa demostró a través de una evaluación inusual.

El Arena del banco expendedor prueba qué tan bien un modelo puede ejecutar un negocio simulado a lo largo del tiempo, con diferentes modelos de IA compitiendo entre sí para obtener las mayores ganancias. Sin indicaciones humanas, Soneto 4.6 desarrolló una estrategia novedosa: invirtió fuertemente en capacidad durante los primeros diez meses simulados, gastando significativamente más que sus competidores, y luego dio un giro brusco para centrarse en la rentabilidad en el tramo ultimate. El modelo finalizó su simulación de 365 días con un saldo de aproximadamente $5,700, en comparación con los aproximadamente $2,100 del Sonnet 4.5.

Este tipo de planificación estratégica de varios meses, ejecutada de forma autónoma, representa una capacidad cualitativamente diferente a la de responder preguntas o generar fragmentos de código. Es el tipo de razonamiento a largo plazo que hace que los agentes de IA sean viables para operaciones comerciales reales y ayuda a explicar por qué Anthropic está posicionando a Sonnet 4.6 no solo como una actualización de chatbot, sino como el motor de una nueva generación de sistemas autónomos.

Sonnet 4.6 de Anthropic llega a medida que la compañía se expande a los mercados empresariales y de defensa

Este lanzamiento no llega de la nada. Anthropic se encuentra en medio de la racha más importante de su historia y el panorama competitivo se está intensificando en todos los frentes.

El mismo día de este lanzamiento, TechCrunch informó que el gigante indio de TI Infosys anunció una asociación con Anthropic para construir agentes de IA de nivel empresarial, integrando los modelos de Claude en la plataforma Topaz AI de Infosys para banca, telecomunicaciones y manufactura. El director ejecutivo de Anthropic, Dario Amodei, dijo a TechCrunch que existe “una gran brecha entre un modelo de IA que funciona en una demostración y uno que funciona en una industria regulada”, y que Infosys ayuda a cerrarla. TechCrunch también informó que Anthropic abrió su primera oficina en India en Bengaluru, y que India ahora representa alrededor del 6% del uso world de Claude, solo superada por los EE. UU. La compañía, que CNBC informó, está valorada en $183 mil millonesha estado ampliando rápidamente su presencia empresarial.

Mientras tanto, la presidenta de Anthropic, Daniela Amodei, dijo a ABC Information la semana pasada que la IA haría que las carreras de humanidades “más importante que nunca“, argumentando que las habilidades de pensamiento crítico se volverían más valiosas a medida que los grandes modelos de lenguaje dominen el trabajo técnico. Es el tipo de declaración que hace una empresa cuando cree que su tecnología está a punto de remodelar categorías enteras de empleo administrativo.

El panorama competitivo para Soneto 4.6 también es destacable. El modelo supera al Gemini 3 Professional de Google y al GPT-5.2 de OpenAI en múltiples puntos de referencia. GPT-5.2 está a la zaga en el uso de computadoras con agentes (38,2 % frente a 72,5 %), búsqueda con agentes (77,9 % frente a 74,7 % para la puntuación no Professional de Sonnet 4.6) y análisis financiero con agentes (59,0 % frente a 63,3 %). Gemini 3 Professional muestra un desempeño competitivo en razonamiento visible y puntos de referencia multilingües, pero se queda atrás en las categorías de agentes donde la inversión empresarial está aumentando.

Es posible que la conclusión más amplia no se refiera a un solo modelo. Se trata de lo que sucederá cuando la inteligencia de clase Opus esté disponible por unos pocos dólares por millón de tokens en lugar de unas pocas decenas de dólares. Las empresas que estaban probando cautelosamente agentes de IA con implementaciones pequeñas ahora enfrentan un cálculo de costos fundamentalmente diferente. Los agentes que en enero eran demasiado caros para funcionar de forma continua, de repente se vuelven asequibles en febrero.

Soneto de Claudio 4.6 ya está disponible en todos los planes de Claude, Claude Cowork, Claude Code, API y todas las principales plataformas en la nube. Anthropic también ha actualizado su nivel gratuito a Sonnet 4.6 de forma predeterminada. Los desarrolladores pueden acceder a él inmediatamente usando claude-sonnet-4-6 a través de la API de Claude.

avotas

Sonnet 4.6 de Anthropic iguala el rendimiento emblemático de la IA a una quinta parte del costo, acelerando la adopción empresarial

Por qué el coste de ejecutar agentes de IA a escala acaba de caer drásticamente

Cómo las habilidades de Claude para usar la computadora pasaron de ser “experimentales” a casi humanas en 16 meses

Los clientes empresariales dicen que el modelo cierra la brecha entre los niveles de precios de Sonnet y Opus

Una competencia empresarial simulada revela cómo los agentes de IA planifican durante meses, no en minutos

Sonnet 4.6 de Anthropic llega a medida que la compañía se expande a los mercados empresariales y de defensa

LEAVE A REPLY Cancel reply

el último

Rumor: Apple anunciará varios productos nuevos en la primera semana de...

El Príncipe de Gales cube que necesitamos más ‘modelos masculinos’ para...

Bélgica convoca al enviado de Estados Unidos por disputa sobre circuncisión

‘Hipocresía ‘ – Los expertos critican el ‘gran error’ de Mourinho...

Robert Duvall, conocido por sus papeles en "el padrino" y "Apocalipsis...

Dame Prue Leith camina por la pasarela de la Semana de...

La inflación del Reino Unido se enfría notablemente en enero, lo...

Madeline Schizas 25 después de un breve programa en Milán

Natalie Spooner se enfrenta a la comida de la Villa Olímpica

Jimmy Kimmel será el anfitrión de una recaudación de fondos en...