Home Tecnología Probé la IA native en mi Mac M1, esperando magia, y en...

Probé la IA native en mi Mac M1, esperando magia, y en su lugar obtuve una verificación de la realidad

13
0

El MacBook Professional M1 es un dispositivo antiguo pero aún capaz en 2026.

Kyle Kucharski/ZDNET

Siga ZDNET: Agréganos como fuente preferida en Google.


Conclusiones clave de ZDNET

  • Ollama hace que sea bastante fácil descargar LLM de código abierto.
  • Incluso los modelos pequeños pueden funcionar terriblemente lentos.
  • No intentes esto sin una máquina nueva con 32 GB de RAM.

Como reportero que cubre la inteligencia synthetic desde hace más de una década, siempre he sabido que ejecutar la inteligencia synthetic conlleva todo tipo de desafíos de ingeniería informática. Por un lado, los grandes modelos de lenguaje siguen creciendo y siguen exigiendo cada vez más memoria DRAM para ejecutar los “parámetros” o “pesos neuronales” de sus modelos.

También: Cómo instalar un LLM en MacOS (y por qué debería hacerlo)

Sabía todo eso, pero quería sentirlo de primera mano. Quería ejecutar un modelo de lenguaje grande en la computadora de mi casa.

Ahora, descargar y ejecutar un modelo de IA puede implicar mucho trabajo para configurar el “entorno”. Entonces, inspirado por la cobertura de mi colega Jack Wallen sobre la herramienta de código abierto Ollama, descargué el binario MacOS de Ollama como mi puerta de entrada a la IA native.

Ollama es relativamente fácil de usar y ha hecho un buen trabajo al integrarse con LangChain, Codex y más, lo que significa que se está convirtiendo en una herramienta para reunir muchos aspectos de la IA, lo cual es emocionante.

Razones para mantenerlo native

Ejecutar LLM localmente, en lugar de simplemente escribir en ChatGPT o Perplexity en línea, tiene un gran atractivo no solo para los programadores, sino también para cualquier trabajador de la información.

Primero, como trabajador de la información, serás más deseable en el mercado laboral si puedes hacer algo como descargar un modelo y ejecutarlo en lugar de escribir en el mensaje en línea como lo hace cualquier usuario gratuito de ChatGPT. Estamos hablando de desarrollo profesional básico aquí.

En segundo lugar, con una instancia native de un LLM, puede evitar que sus datos confidenciales salgan de su máquina. Esto debería ser de evidente importancia para cualquier trabajador de la información, no sólo para los codificadores. En mi caso, el objetivo de mi proyecto period utilizar modelos locales como una forma de extraer mi propio tesoro de artículos a lo largo de los años, como una especie de informe sobre lo que he escrito, incluidas cosas que quizás haya olvidado. Me gustó la thought de mantener todos los archivos locales en lugar de subirlos a un servicio en la nube.

También: Intenté codificar una aplicación con Vibe cuando period principiante: esto es lo que me enseñaron Cursor y Replit

En tercer lugar, puede evitar las tarifas que cobran OpenAI, Google, Anthropic y el resto. Como escribí recientemente, los precios aumentarán por el uso de LLM en línea, por lo que ahora es un buen momento para pensar en formas de hacer la mayor parte de su trabajo fuera de línea, en su propia máquina, donde el medidor no esté funcionando constantemente.

(Divulgación: Ziff Davis, la empresa matriz de ZDNET, presentó una demanda en abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis al entrenar y operar sus sistemas de IA).

Cuarto, tienes mucho más management. Por ejemplo, si desea programar, puede modificar los LLM, lo que se conoce como ajustarlos, para obtener resultados más enfocados. Y puede utilizar varias herramientas instaladas localmente, como LangChain, la herramienta Claude Code de Anthropic, la herramienta de codificación Codex de OpenAI y más.

También: Por qué pagará más por la IA en 2026 y tres consejos para ahorrar dinero que puede probar

Incluso si solo desea realizar tareas de trabajo de información, como generar informes, hacerlo con un caché native de documentos o una base de datos native se puede hacer con mayor management que cargar cosas en el bot.

Metallic desnudo mínimo

Empecé este experimento con una máquina mínima, en cuanto a lo que se necesita para ejecutar un LLM. Quería saber qué pasaría si alguien que no compra constantemente máquinas nuevas intentara hacer esto en casa en la misma computadora que usa para las tareas diarias.

Mi MacBook Professional tiene tres años y tiene 16 gigabytes de RAM y un disco duro de terabytes que está lleno en tres cuartas partes y no ejecuta el último MacOS, sino MacOS Sonoma. Es el modelo 2021, número de modelo MK193LL/Ay así, si bien period de primera línea cuando lo compré en Greatest Purchase en enero de 2023 en una venta de liquidación, en ese entonces ya se estaba convirtiendo en el mejor modelo de ayer.

También: 5 razones por las que uso IA native en mi escritorio, en lugar de ChatGPT, Gemini o Claude

Lo sé, lo sé: esto va más allá de la vida útil típica de las máquinas y más allá del programa de depreciación de cualquier persona. Sin embargo, la MacBook fue una gran actualización en ese momento y ha seguido funcionando magníficamente a diario para las tareas típicas de los trabajadores de la información: calendario, toneladas de correo electrónico, toneladas de sitios internet, postproducción de video, grabación de audio de podcast y más. Nunca tengo ninguna queja. Oye, si no está roto, ¿verdad?

Entonces la pregunta period: ¿cómo manejaría esta venerable pero aún poderosa máquina un nuevo tipo de carga de trabajo muy diferente?

Iniciando Ollama

La pantalla de inicio de Ollama se parece a ChatGPT, con un mensaje amigable para escribir, un signo “más” para cargar un documento y un menú desplegable de modelos que puede instalar localmente, incluidos los populares como Qwen.

Si comienza a escribir cuando se le solicita, Ollama intentará descargar automáticamente cualquier modelo que se muestre en el menú desplegable. Por lo tanto, no escriba nada a menos que quiera optar por la ruleta modelo.

ollama-pantalla-de-inicio-jan-2026.png

Captura de pantalla de Tiernan Ray para ZDNET

En lugar de eso, revisé los modelos en la lista desplegable y me di cuenta de que algunos de estos modelos no eran locales, sino que estaban en la nube. Ollama ejecuta un servicio en la nube si desea su infraestructura en lugar de la suya propia. Esto puede resultar útil si desea utilizar modelos mucho más grandes que sobrecargarían su propia infraestructura.

Por la página de preciosOllama ofrece cierto acceso a la nube en la cuenta gratuita, con la capacidad de ejecutar múltiples modelos de nube cubiertos por el plan “Professional” a $20 por mes, e incluso más uso en el plan “Max” a $100 por mes.

También: Esta aplicación hace que usar la IA native de Ollama en dispositivos MacOS sea muy fácil

Siguiendo con las opciones de ejecución native, decidí comprobar la lista más amplia de modelos en el directorio de modelos mantenido por Ollama.

Al azar, elegí glm-4.7-flash, de la startup china de IA Z.ai. Con un peso de 30 mil millones de “parámetros” o pesos neuronales, GLM-4.7-flash sería un modelo de lenguaje grande “pequeño” según los estándares actuales, pero no diminuto, ya que existen modelos de código abierto con menos de mil millones de parámetros. (¡Mil millones de parámetros period mucho, no hace mucho tiempo!)

El directorio le brinda los comandos de terminal para descargar el modelo elegido desde la terminal Mac, simplemente copiando y pegando cuando se le solicite, como por ejemplo:

ollama ejecuta glm-4.7-flash

Tenga en cuenta el espacio en disco. Glm-4.7-flash pesa 19 gigabytes de uso de disco y recuerde, ¡Eso es pequeño!

En mi experiencia, la descarga de modelos parece bastante rápida, aunque no muy rápida. En un módem por cable de velocidad gigabit para mi oficina en casa proporcionado por Spectrum en la ciudad de Nueva York, el modelo se descargaba a una velocidad de 45 megabytes por segundo en un momento dado, aunque luego bajó a una velocidad de rendimiento más lenta.

Conociendo el modelo

Mi primer mensaje fue bastante sencillo: “¿Qué tipo de modelo de lenguaje grande eres?”

Me quedé mirando durante un rato mientras los primeros personajes se materializaban en respuesta: “[Light bulb icon] Pensando: Déjame analizar lo que me hace ser un” y eso fue todo.

También: Mi herramienta LLM de referencia acaba de lanzar una aplicación súper easy para Mac y PC para IA native: ¿por qué deberías probarla?

Diez minutos más tarde, no había llegado mucho más lejos.

Permítanme analizar qué me convierte en un modelo de lenguaje grande y cómo explicárselo al usuario.

Primero, debo considerar mi naturaleza elementary como sistema de IA. Debo explicar que estoy diseñado para comprender y generar lenguaje humano a través de patrones en grandes conjuntos de datos. La clave es ser claro.

Y todo en Mac se había vuelto notablemente lento.

Cuarenta y cinco minutos más tarde, glm-4.7-flash todavía estaba generando pensamientos sobre el pensamiento: “Permítanme estructurar esta explicación para que en primer lugar quede claro…”, y así sucesivamente.

Atrapado en un avance rápido

Una hora y 16 minutos después, el modelo “pensó” durante 5.197,3 segundos, finalmente tuve una respuesta a mi pregunta sobre qué tipo de lenguaje period el modelo glm-4.7-flash. La respuesta resultó no ser tan interesante por todo el tiempo invertido. No me dijo mucho sobre glm que no hubiera podido adivinar por mi cuenta, ni nada significativo sobre la diferencia entre glm y otros modelos de lenguaje grandes:

Pensé que ya había terminado con glm en este punto. Lamentablemente, Ollama no proporciona instrucciones para eliminar un modelo una vez instalado localmente. Los modelos se guardan en una carpeta oculta “.ollama” en el directorio de usuario precise en MacOS, dentro de otra carpeta llamada “modelos”. Dentro de la carpeta de modelos hay dos carpetas, “blobs” y “manifiestos”. La mayor parte de un modelo se encuentra en la carpeta blobs. Dentro de los manifiestos hay una carpeta “biblioteca” que contiene una carpeta con el nombre de cada modelo que ha descargado y, dentro de ella, una carpeta “más reciente”.

gpt-oss-pensando-en-si-mismo-en-ollama-jan-2026.png

Captura de pantalla de Tiernan Ray para ZDNET

Usando la terminal, eliminé el contenido de los blobs y eliminé el contenido de cada carpeta de modelo, y eso resolvió el problema. (Jack me informó más tarde que el comando de terminal para deshacerse de cualquier modelo es “ollama rm “.)

Jack también había recomendado el reciente modelo de código abierto de OpenAI, gpt-oss, en la versión de 20 mil millones de parámetros, “20b”, que, según dijo, se ejecutaba localmente mucho más rápido que otros que había probado. Entonces, fui al lado de eso en el directorio.

También: Esta es la IA native más rápida que he probado y ni siquiera se le acerca: cómo conseguirla

Esta vez, después de unos seis minutos, gpt-oss:20b produjo (a un ritmo que no es el de un caracol, pero tampoco rápido) la respuesta de que es “ChatGPT, impulsado por la familia GPT-4 de OpenAI”, y así sucesivamente.

Esa respuesta fue seguida por una bonita tabla de detalles. (Curiosamente, gpt-oss:20b me dijo que tenía “aproximadamente 175 mil millones de parámetros”, lo que sugiere que gpt-oss:20b no comprende del todo su propia identidad 20b).

gpt-oss-reflexiona-sobre-si-mismo-enero-2026.png

Captura de pantalla de Tiernan Ray para ZDNET

En cualquier caso, esto estuvo bien para un mensaje easy. Pero ya estaba claro que iba a tener problemas con cualquier otra cosa más ambiciosa. La sensación de esperar la respuesta fue lo suficientemente lenta (una especie de avance rápido, se podría decir) que no me atreví a agregar más complejidad, como cargar un tesoro completo de escritos.

Necesitaremos una máquina más nueva.

El servicio en línea ChatGPT actual de OpenAI (que ejecuta GPT5.2) me cube que una configuración mínima para una computadora que ejecuta gpt-oss:20b es en realidad 32 gigabytes de DRAM. El silicio M1 Professional de la MacBook tiene una GPU integrada, y ChatGPT señaló con aprobación que Ollama ha proporcionado la versión gpt-oss:20b con soporte para la GPU de Mac, una biblioteca conocida como “backend llama.cpp”.

También: Probé el único navegador agente que ejecuta IA native y solo encontré un inconveniente

Entonces, todo debería estar bien, pero realmente necesito más DRAM que solo 16 gigas. Y necesito cambiar el M1, que ahora tiene cinco años, por un M4 o M5. Es bastante fascinante para mí, después de tres décadas de escribir sobre computadoras, que para un trabajador de la información, estemos hablando de 32 gigabytes como configuración mínima razonable.

Como mencioné recientemente, el precio de la DRAM se está disparando porque todos esos centros de datos en la nube consumen cada vez más DRAM para ejecutar grandes modelos de lenguaje. Entonces, se podría decir que soy yo contra los proveedores de la nube, y probablemente recurriré a la tarjeta de crédito para cambiarme por una computadora nueva. (Apple me dará alrededor de $599 por mi MacBook M1 como intercambio).

Si bien mi incipiente esfuerzo native en Ollama no tuvo éxito, me ha dado una nueva apreciación de cuán intensiva es la memoria de la IA. Siempre lo supe por años de informar sobre IA, pero ahora lo siento en mis huesos, esa sensación cuando la respuesta al mensaje tarda una eternidad en desplazarse por la pantalla.



avotas