Home Tecnología Los generadores de imágenes de IA utilizan de forma predeterminada los mismos...

Los generadores de imágenes de IA utilizan de forma predeterminada los mismos 12 estilos de fotografía, según un estudio

35
0

Los modelos de generación de imágenes de IA tienen conjuntos masivos de datos visuales de los que extraer para crear resultados únicos. Y, sin embargo, los investigadores descubren que cuando se presiona a los modelos para que produzcan imágenes basadas en una serie de indicaciones que cambian lentamente, el valor predeterminado será solo un puñado de motivos visuales, lo que dará como resultado un estilo en última instancia genérico.

A estudio publicado en la revista Patrones Tomó dos generadores de imágenes de IA, Secure Diffusion XL y LLaVA, y los puso a prueba jugando un juego de teléfono visible. El juego period así: al modelo Secure Diffusion XL se le daba un breve mensaje y se le pedía que produjera una imagen, por ejemplo, “Mientras estaba sentado particularmente solo, rodeado de naturaleza, encontré un libro antiguo con exactamente ocho páginas que contaba una historia en un idioma olvidado esperando ser leído y comprendido”. Esa imagen fue presentada a la modelo de LLaVA, a la que se le pidió que la describiera. Luego, esa descripción se envió a Secure Diffusion, a la que se le pidió que creara una nueva imagen basada en ese mensaje. Esto continuó durante 100 rondas.

© Hintze et al., Patrones

Al igual que en un juego de teléfono humano, la imagen unique se perdió rápidamente. No es de extrañar, especialmente si alguna vez has visto uno de esos. vídeos de lapso de tiempo donde la gente le pide a un modelo de IA que reproducir una imagen sin hacer ningún cambio, sólo para que la imagen se convierta rápidamente en algo que no se parece ni remotamente al unique. Sin embargo, lo que sorprendió a los investigadores fue el hecho de que los modelos tienen por defecto sólo un puñado de estilos de apariencia genérica. A lo largo de 1.000 iteraciones diferentes del juego telefónico, los investigadores descubrieron que la mayoría de las secuencias de imágenes eventualmente caerían en solo uno de los 12 motivos dominantes.

En la mayoría de los casos, el cambio es gradual. Algunas veces sucedió de repente. Pero casi siempre sucedió. Y los investigadores no quedaron impresionados. En el estudio, se refirieron a los estilos de imágenes comunes como “música visible de ascensor”, básicamente el tipo de imágenes que verías colgadas en una habitación de lodge. Las escenas más comunes incluían faros marítimos, interiores formales, escenarios nocturnos urbanos y arquitectura rústica.

Incluso cuando los investigadores cambiaron a diferentes modelos para la generación y descripción de imágenes, surgieron los mismos tipos de tendencias. Los investigadores dijeron que cuando el juego se extiende a 1000 turnos, la fusión en torno a un estilo todavía ocurre alrededor del turno 100, pero las variaciones surgen en esos turnos adicionales. Curiosamente, sin embargo, esas variaciones todavía suelen basarse en uno de los motivos visuales populares.

Puntos finales de IA después de 100 iteraciones
© Hintze et al., Patrones

Entonces, ¿qué significa todo eso? Básicamente, la IA no es particularmente creativa. En un juego humano de teléfono, terminarás con una variación extrema porque cada mensaje se entrega y escucha de manera diferente, y cada persona tiene sus propios prejuicios y preferencias internas que pueden afectar el mensaje que recibe. La IA tiene el problema opuesto. No importa cuán extravagante sea el mensaje unique, siempre incluirá de manera predeterminada una selección limitada de estilos.

Por supuesto, el modelo de IA se basa en indicaciones creadas por humanos, por lo que hay algo que decir sobre el conjunto de datos y sobre lo que los humanos se sienten atraídos por tomar fotografías. Si hay una lección aquí, tal vez sea que copiar estilos es mucho más fácil que enseñar el gusto.



avotas