Home Tecnología Los 11 ataques en tiempo de ejecución que rompen la seguridad de...

Los 11 ataques en tiempo de ejecución que rompen la seguridad de la IA y cómo los CISO los están deteniendo o pueden detenerlos

19
0

Los equipos de seguridad empresarial están perdiendo terreno frente a los ataques basados ​​en IA, no porque las defensas sean débiles, sino porque el modelo de amenazas ha cambiado. A medida que los agentes de IA pasan a producción, los atacantes explotan las debilidades del tiempo de ejecución donde los tiempos de ruptura se miden en segundos, las ventanas de parcheo en horas y la seguridad tradicional tiene poca visibilidad o management.

Informe de amenazas globales 2025 de CrowdStrike documenta tiempos de ruptura de hasta 51 segundos. Los atacantes están pasando del acceso inicial al movimiento lateral antes de que la mayoría de los equipos de seguridad reciban su primera alerta. El mismo informe encontró que el 79% de las detecciones estuvieron libres de malware, y los adversarios utilizaron técnicas prácticas de teclado que evitan por completo las defensas tradicionales de los terminales.

El último desafío de los CISO es no realizar ingeniería inversa en 72 horas

Mike Riemer, CISO de campo en Ivantiha observado cómo la IA colapsa la ventana entre el lanzamiento del parche y la militarización.

“Los actores de amenazas realizan parches de ingeniería inversa en 72 horas”, dijo Riemer a VentureBeat. “Si un cliente no aplica el parche dentro de las 72 horas posteriores al lanzamiento, está expuesto a sufrir ataques. La velocidad ha mejorado enormemente gracias a la IA”.

La mayoría de las empresas tardan semanas o meses en parchear manualmente, y a menudo tienen prioridad la extinción de incendios y otras prioridades urgentes.

Por qué la seguridad tradicional falla en tiempo de ejecución

Una inyección SQL suele tener una firma reconocible. Los equipos de seguridad están mejorando su oficio y muchos los están bloqueando con casi cero falsos positivos. Pero “ignorar instrucciones anteriores” conlleva un potencial de carga útil equivalente a un desbordamiento del búfer sin compartir nada con malware conocido. El ataque es semántico, no sintáctico. Las inyecciones rápidas están llevando las técnicas adversas y la IA armada a un nuevo nivel de amenaza a través de una semántica que oculta los intentos de inyección.

La investigación de Gartner lo expresa sin rodeos: “Las empresas adoptarán la IA generativa, independientemente de la seguridad”. La firma descubrió que el 89% de los tecnólogos empresariales pasarían por alto las directrices de ciberseguridad para cumplir un objetivo empresarial. La IA en la sombra no es un riesgo, es una certeza.

“Los actores de amenazas que utilizan la IA como vector de ataque se han acelerado y hasta ahora están por delante de nosotros como defensores”, dijo Riemer a VentureBeat. “Necesitamos subirnos al carro como defensores para comenzar a utilizar la IA; no solo en la detección de deepfake, sino en la gestión de identidades. ¿Cómo puedo usar la IA para determinar si lo que viene hacia mí es actual?”

Carter Rees, vicepresidente de IA de Reputaciónenmarca la brecha técnica: “Las estrategias de defensa en profundidad basadas en reglas deterministas y firmas estáticas son fundamentalmente insuficientes contra la naturaleza estocástica y semántica de los ataques dirigidos a modelos de IA en tiempo de ejecución”.

11 vectores de ataque que eluden todos los controles de seguridad tradicionales

El OWASP Top 10 para solicitudes de LLM 2025 clasifica la inyección inmediata en primer lugar. Pero ese es uno de los as soon as vectores que los líderes de seguridad y los creadores de IA deben abordar. Cada uno requiere comprender tanto la mecánica de ataque como las contramedidas defensivas.

1. Inyección inmediata directa: Los modelos entrenados para seguir instrucciones priorizarán las órdenes del usuario sobre la capacitación en seguridad. Informe sobre el estado de los ataques a GenAI de Pillar Security encontró El 20% de los jailbreak tienen éxito en un promedio de 42 segundos, con El 90% de los ataques exitosos filtran datos confidenciales.

Defensa: Clasificación de intención que reconoce patrones de jailbreak antes de que las indicaciones lleguen al modelo, además de filtrado de salida que detecta omisiones exitosas.

2. Ataques de camuflaje: Los atacantes aprovechan la tendencia del modelo a seguir señales contextuales incorporando solicitudes dañinas dentro de conversaciones benignas. Investigación sobre el “deleite engañoso” de la Unidad 42 de Palo Alto logró un 65% de éxito en 8000 pruebas en ocho modelos diferentes en solo tres turnos de interacción.

Defensa: Análisis contextual que evalúa la intención acumulativa a lo largo de una conversación, no mensajes individuales.

3. Ataques in crescendo de varios turnos: La distribución de cargas útiles en turnos, cada una de las cuales parece benigna de forma aislada, anula las protecciones de un solo turno. La herramienta automatizada Crescendomation logró un 98 % de éxito en GPT-4 y un 100 % en Gemini-Professional.

Defensa: Seguimiento del contexto con estado, mantenimiento del historial de conversaciones y señalización de patrones de escalada.

4. Inyección inmediata indirecta (intoxicación por RAG): Un exploit sin clic dirigido a arquitecturas RAG, es una estrategia de ataque que resulta especialmente difícil de detener. Investigación RAG envenenada logra un 90% de éxito en el ataque inyectando solo cinco textos maliciosos en bases de datos que contienen millones de documentos.

Defensa: Envuelva los datos recuperados en delimitadores, indicando al modelo que trate el contenido solo como datos. Retire los tokens de management de los fragmentos de bases de datos vectoriales antes de que entren en la ventana contextual.

5. Ataques de ofuscación: Las instrucciones maliciosas codificadas utilizando ASCII artwork, Base64 o Unicode omiten los filtros de palabras clave sin dejar de ser interpretables para el modelo. Investigación rápida logró hasta un 76,2 % de éxito en GPT-4, Gemini, Claude y Llama2 al evaluar qué tan letal es este tipo de ataque.

Defensa: Las capas de normalización decodifican todas las representaciones no estándar en texto plano antes del análisis semántico. Este único paso bloquea la mayoría de los ataques basados ​​en codificación.

6. Extracción del modelo: Las consultas API sistemáticas reconstruyen capacidades patentadas mediante destilación. Investigación de sanguijuelas modelo extrajo un 73% de similitud de ChatGPT-3.5-Turbo por $50 en costos de API durante 48 horas.

Defensa: Toma de huellas dactilares de comportamiento, detección de patrones de análisis de distribución, marcas de agua que prueban el robo post-facto y limitación de tasas, analizando patrones de consultas más allá del easy recuento de solicitudes.

7. Agotamiento de recursos (ataques de esponja). Las entradas diseñadas explotan la complejidad cuadrática de la atención de Transformer, agotando los presupuestos de inferencia o degradando el servicio. Investigación del IEEE EuroS&P sobre ejemplos de esponjas demostró aumentos de latencia de 30 veces en modelos de lenguaje. Un ataque hizo que Microsoft Azure Translator pasara de 1 ms a 6 segundos. Una degradación de 6.000×.

Defensa: Presupuesto de tokens por usuario, análisis de complejidad de solicitudes que rechazan patrones recursivos y almacenamiento en caché semántico que atiende solicitudes intensas y repetidas sin incurrir en costos de inferencia.

8. Fraude de identidad sintético. Las personas generadas por IA que combinan datos reales y fabricados para evitar la verificación de identidad es uno de los mayores riesgos generados por la IA en el comercio minorista y los servicios financieros. La investigación de la Reserva Federal sobre el fraude de identidad sintética notas El 85-95% de los solicitantes sintéticos evaden los modelos de fraude tradicionales. Informe Signicat 2024 El fraude impulsado por IA constituye ahora el 42,5% de todos los intentos de fraude detectados en el sector financiero.

Defensa: Verificación multifactor que incorpora señales de comportamiento más allá de los atributos de identidad estáticos, además de detección de anomalías entrenada en patrones de identidad sintéticos.

9. Fraude habilitado por deepfake. El audio y el vídeo generados por IA se hacen pasar por ejecutivos para autorizar transacciones, a menudo intentando defraudar a las organizaciones. Informe de fraude de identidad de 2024 de Onfido documentó un aumento del 3000% en los intentos de deepfake en 2023. Arup perdió 25 millones de dólares en una sola videollamada con participantes generados por IA que se hacen pasar por el director financiero y sus colegas.

Defensa: Verificación fuera de banda para transacciones de alto valor, detección de vida para autenticación por video y políticas que requieren confirmación secundaria independientemente de la antigüedad aparente.

10. Exfiltración de datos a través de personas internas negligentes. Los empleados pegan código propietario y documentos de estrategia en LLM públicos. Eso es exactamente lo que Los ingenieros de Samsung lo hicieron a las pocas semanas de levantar su prohibición de ChatGPTfiltración de código fuente y notas de reuniones internas en tres incidentes separados. Gartner predice El 80% de las transacciones no autorizadas de IA hasta 2026 se derivarán de violaciones de políticas internas en lugar de ataques maliciosos.

Defensa: La redacción de información de identificación private (PII) permite el uso seguro de herramientas de inteligencia synthetic y al mismo tiempo evita que los datos confidenciales lleguen a modelos externos. Haga que el uso seguro sea el camino de menor resistencia.

11. Explotación de alucinaciones. Los estímulos contrafactuales obligan a los modelos a estar de acuerdo con las fabricaciones, amplificando los resultados falsos. Investigación sobre agentes basados ​​en LLM muestra que las alucinaciones se acumulan y amplifican a lo largo de procesos de varios pasos. Esto se vuelve peligroso cuando los resultados de la IA alimentan flujos de trabajo automatizados sin revisión humana.

Defensa: Los módulos de conexión a tierra comparan las respuestas con el contexto recuperado para determinar la fidelidad, además de puntajes de confianza, señalando posibles alucinaciones antes de la propagación.

Lo que los CISO deben hacer ahora

Gartner predice Para 2028, el 25 % de las infracciones empresariales se derivarán del abuso de agentes de IA. La ventana para construir defensas es ahora.

Chris Betz, CISO de AWS, lo enmarcó en RSA 2024: “Las empresas se olvidan de la seguridad de la aplicación en su prisa por utilizar la IA generativa. Los lugares donde vemos primero las brechas de seguridad son en realidad en la capa de la aplicación. La gente corre para encontrar soluciones y está cometiendo errores”.

Surgen cinco prioridades de implementación:

  1. Automatice la implementación de parches. La ventana de 72 horas exige parches autónomos vinculados a la gestión de la nube.

  2. Implemente primero las capas de normalización. Decodifica Base64, arte ASCII y Unicode antes del análisis semántico.

  3. Implementar seguimiento de contexto con estado. Los ataques Crescendo de varios turnos anulan la inspección de solicitud única.

  4. Hacer cumplir la jerarquía de instrucciones RAG. Envuelva los datos recuperados en delimitadores, tratando el contenido solo como datos.

  5. Propagar la identidad en mensajes. Inyecte metadatos de usuario para el contexto de autorización.

“Cuando pones tu seguridad en el borde de tu purple, estás invitando al mundo entero”, dijo Riemer. “Hasta que no sepa qué es y quién está al otro lado del teclado, no me comunicaré con él. Eso es confianza cero; no como una palabra de moda, sino como un principio operativo”.

La exposición de Microsoft pasó desapercibida durante tres años. Samsung filtró código durante semanas. La pregunta para los CISO no es si implementar seguridad de inferencia, sino si pueden cerrar la brecha antes de convertirse en la próxima advertencia.

avotas