Home Tecnología Primeras impresiones del Google Gemini 3.1 Professional: un ‘Deep Suppose Mini’ con...

Primeras impresiones del Google Gemini 3.1 Professional: un ‘Deep Suppose Mini’ con razonamiento ajustable bajo demanda

17
0

Durante los últimos tres meses, el Gemini 3 Professional de Google se ha mantenido como uno de los modelos fronterizos más capaces disponibles. Pero en el vertiginoso mundo de la IA, tres meses es toda una vida, y los competidores no se han quedado quietos.

Hoy temprano, Google lanzó Géminis 3.1 Prouna actualización que trae una innovación clave al modelo de poder de caballo de batalla de la compañía: tres niveles de pensamiento ajustable que efectivamente lo convierten en una versión liviana del sistema de razonamiento especializado Deep Suppose de Google.

El lanzamiento marca la primera vez que Google publica una actualización de “punto uno” para un modelo Gemini, lo que indica un cambio en la estrategia de lanzamiento de la compañía desde lanzamientos periódicos de la versión completa a actualizaciones incrementales más frecuentes. Lo que es más importante para los equipos de IA empresarial que evalúan su conjunto de modelos, el nuevo sistema de pensamiento de tres niveles de 3.1 Professional (bajo, medio y alto) brinda a los desarrolladores y líderes de TI un modelo único que puede escalar su esfuerzo de razonamiento dinámicamente, desde respuestas rápidas para consultas rutinarias hasta sesiones de razonamiento profundo de varios minutos para problemas complejos.

El modelo se está implementando ahora en versión preliminar en la API de Gemini a través de Estudio de IA de GoogleGemini CLI, la plataforma de desarrollo agente de Google Antigravity, Vertex AI, Gemini Enterprise, Android Studio, la aplicación Gemini para consumidores y NotebookLM.

El efecto ‘Deep Suppose Mini’: razonamiento ajustable según demanda

La característica más importante de Gemini 3.1 Professional no es un único número de referencia: es la introducción de un sistema de niveles de pensamiento de tres niveles que brinda a los usuarios un management detallado sobre cuánto esfuerzo computacional invierte el modelo en cada respuesta.

Gemini 3 Professional ofrecía sólo dos modos de pensamiento: bajo y alto. El nuevo 3.1 Professional agrega una configuración media (related a la alta anterior) y, de manera basic, revisa lo que significa “alta”. Cuando se configura en alto, 3.1 Professional se comporta como una “versión mini de Gemini Deep Suppose”, el modelo de razonamiento especializado de la compañía que fue actualizado la semana pasada.

Las implicaciones para la implementación empresarial podrían ser significativas. En lugar de enrutar solicitudes a diferentes modelos especializados en función de la complejidad de la tarea (un patrón común pero operativamente oneroso), las organizaciones ahora pueden usar un único punto ultimate de modelo y ajustar la profundidad del razonamiento según la tarea en cuestión. El resumen de documentos de rutina puede ejecutarse con un pensamiento bajo con tiempos de respuesta rápidos, mientras que las tareas analíticas complejas pueden elevarse a un pensamiento alto para un razonamiento de calibre Deep Suppose.

Rendimiento de referencia: más del doble de razonamiento que 3 Professional

Los puntos de referencia publicados por Google cuentan una historia de mejoras dramáticas, particularmente en áreas asociadas con el razonamiento y la capacidad de agencia.

Gráfico de referencia de Google Gemini 3.1 Professional. Crédito: Google

En ARCO-AGI-2un punto de referencia que evalúa la capacidad de un modelo para resolver nuevos patrones de razonamiento abstracto, obtuvo una puntuación de 3.1 Professional 77,1% — más del doble del 31,1% logrado por Gemini 3 Professional y sustancialmente por delante de Sonnet 4.6 (58,3%) y Opus 4.6 (68,8%) de Anthropic. Este resultado también eclipsa al GPT-5.2 de OpenAI (52,9%).

Las ganancias se extienden a todos los ámbitos. En El último examen de la humanidadun punto de referencia de razonamiento académico riguroso, 3.1 Professional logró un 44,4% sin herramientas, frente al 37,5% de 3 Professional y por delante de Claude Sonnet 4.6 (33,2%) y Opus 4.6 (40,0%). En Diamante GPQAuna evaluación de conocimientos científicos, 3.1 Professional alcanzó el 94,3%, superando a todos los competidores enumerados.

Donde los resultados se vuelven particularmente relevantes para los equipos de IA empresarial es en los puntos de referencia agentes: las evaluaciones que miden qué tan bien se desempeñan los modelos cuando se les dan herramientas y tareas de varios pasos, el tipo de trabajo que outline cada vez más las implementaciones de IA de producción.

En Terminal-Banco 2.0que evalúa la codificación de terminales agentes, 3.1 Professional obtuvo una puntuación del 68,5% en comparación con el 56,9% de su predecesor. En Atlas de MCPun punto de referencia que mide flujos de trabajo de varios pasos utilizando el protocolo de contexto modelo, 3.1 Professional alcanzó el 69,2%, una mejora de 15 puntos sobre el 54,1% de 3 Professional y casi 10 puntos por delante de Claude y GPT-5.2. y en NavegarCompque prueba la capacidad de búsqueda internet agente, 3.1 Professional logró un 85,9%, superando el 59,2% de 3 Professional.

Por qué Google eligió una versión ‘0.1’ y qué indica

La decisión sobre las versiones es en sí misma digna de mención. Los lanzamientos anteriores de Gemini siguieron un patrón de vistas previas fechadas: múltiples vistas previas 2.5, por ejemplo, antes de alcanzar la disponibilidad basic. La elección de designar esta actualización como 3.1 en lugar de otra vista previa de 3 Professional sugiere que Google considera que las mejoras son lo suficientemente sustanciales como para justificar un incremento de versión, mientras que el marco del “punto uno” establece expectativas de que se trata de una evolución, no de una revolución.

La publicación del weblog de Google afirma que 3.1 Professional se basa directamente en las lecciones de la serie Gemini Deep Suppose, incorporando técnicas de versiones anteriores y más recientes. Los puntos de referencia sugieren firmemente que el aprendizaje por refuerzo ha desempeñado un papel central en las ganancias, particularmente en tareas como ARC-AGI-2, puntos de referencia de codificación y evaluaciones agentes, exactamente los dominios donde los entornos de capacitación basados ​​en RL pueden proporcionar señales de recompensa claras.

El modelo se lanza en versión preliminar en lugar de como un lanzamiento de disponibilidad basic, y Google afirma que continuará haciendo avances en áreas como los flujos de trabajo agentes antes de pasar a GA completo.

Implicaciones competitivas para su pila de IA empresarial

Para los tomadores de decisiones de TI que evalúan proveedores de modelos de vanguardia, el lanzamiento de Gemini 3.1 Professional no sólo debe hacerles repensar qué modelos elegir sino también cómo adaptarse a un ritmo de cambio tan rápido para sus propios productos y servicios.

La pregunta ahora es si este lanzamiento provocará una respuesta de la competencia. El lanzamiento authentic de Gemini 3 Professional en noviembre pasado desató una ola de lanzamientos de modelos en ecosistemas tanto propietarios como abiertos.

Con 3.1 Professional recuperando el liderazgo de referencia en varias categorías críticas, la presión recae sobre Anthropic, OpenAI y la comunidad de peso abierto para que respondan, y en el panorama precise de la IA, esa respuesta probablemente se mida en semanas, no en meses.

Disponibilidad

Gemini 3.1 Professional ya está disponible en versión preliminar a través de API de Géminis en Google AI Studio, Gemini CLI, Google Antigravity y Android Studio para desarrolladores. Los clientes empresariales pueden acceder a él a través de IA de vértice y Empresa Géminis. Los consumidores con los planes Google AI Professional y Extremely pueden acceder a él a través de la aplicación Gemini y NotebookLM.

avotas

LEAVE A REPLY

Please enter your comment!
Please enter your name here