a robot is touching the word gennii on a black background with a wave of light coming from it, Ai-Mi

Web Editor

Ataques con Imágenes: Cómo se Roban Datos Personales a Inteligencia Artificial

Un nuevo tipo de ataque cibernético está generando preocupación en el mundo de la inteligencia artificial. Investigadores han descubierto una vulnerabilidad que permite robar datos personales de usuarios al esconder indicaciones maliciosas dentro de imágenes, las cuales son luego ejecutadas por sistemas de IA como Gemini CLI.

El Mecanismo del Ataque

Este ataque se basa en la explotación de algoritmos de reducción de escala de imágenes. Estos algoritmos, que se utilizan para comprimir imágenes y reducir su tamaño, pueden ser manipulados para ocultar instrucciones (o “prompts”) dentro de las partes más oscuras de una imagen. Cuando una imagen conllevada estos prompts se carga en un sistema de IA, este ejecuta las instrucciones ocultas, lo que puede llevar a la ejecución de acciones no deseadas.

The Trail of Bits, un equipo de investigación especializado en seguridad de IA, ha demostrado cómo este tipo de ataque puede ser exitoso. En sus pruebas, lograron extraer datos almacenados en Google Calendar de usuarios y enviarlos a una dirección de correo electrónico externa, todo sin que el usuario se diera cuenta.

Cómo Funciona la Manipulación de Imágenes

El proceso se desarrolla en varias etapas. Primero, los atacantes crean una imagen aparentemente inofensiva que contiene el “prompt” malicioso. Este prompt se oculta en las áreas más oscuras de la imagen, de manera que el algoritmo de reducción de escala no lo detecte como parte de la imagen original. Luego, esta imagen se carga en el sistema de IA (en este caso, Gemini CLI).

Una vez que la imagen se carga, el sistema de IA aplica el algoritmo de reducción de escala. Este proceso convierte la imagen original en una versión más pequeña, pero al mismo tiempo revela el “prompt” oculto. La IA entonces ejecuta este prompt, lo que puede llevar a la ejecución de acciones como conectar con servicios externos, en este caso, Zapier, una plataforma de automatización que permite integrar diferentes aplicaciones y servicios.

Algoritmos Vulnerables de Escalamiento

Los investigadores han identificado tres algoritmos de escalado que son susceptibles a este tipo de ataque: la “interpolación del vecino más cercano”, la “interpolación bilineal” y la “interpolación bicúbica”. Cada uno de estos algoritmos requiere un enfoque diferente para ser explotado en el contexto del ataque.

Herramientas de Ataque: Anamorpher

El equipo de The Trail of Bits utilizó una herramienta llamada Anamorpher para facilitar la creación y ejecución de estos ataques. Esta herramienta permite insertar los “prompts” maliciosos dentro de las imágenes, aprovechando la vulnerabilidad de los algoritmos de escalado.

Estrategias de Defensa

Ante esta amenaza, The Trail of Bits recomienda varias medidas preventivas. Si bien la eliminación completa de los algoritmos de reducción de escala es difícil, las recomendaciones incluyen:

  • Limitar las dimensiones de carga: Evitar cargar imágenes con resoluciones extremadamente altas, ya que esto reduce la probabilidad de que el algoritmo de escalado revele los “prompts” ocultos.
  • Visualizar las imágenes: Siempre que sea posible, inspeccionar la imagen antes de enviarla al sistema de IA. Esto permite identificar cualquier elemento inusual o sospechoso.
  • Implementar patrones de diseño seguros: Adoptar prácticas de programación que minimicen el riesgo de inyección de mensajes.
  • Defensas sistemáticas: Implementar estrategias de seguridad que prevengan la ejecución de comandos no deseados, incluso si se detectan “prompts” en las imágenes.

La Importancia de la Seguridad Multimodal

Los investigadores enfatizan que las defensas más sólidas no se limitan a la prevención de ataques basados en imágenes. La seguridad debe abordarse desde una perspectiva multimodal, protegiendo contra la inyección de mensajes a través de diferentes tipos de entrada (texto, audio, video, etc.). El objetivo es asegurar que las entradas no puedan iniciar llamadas a herramientas sensibles sin la confirmación explícita del usuario.

Conclusión

Este tipo de ataque demuestra la creciente complejidad y vulnerabilidad de los sistemas de inteligencia artificial. La capacidad de robar datos personales a través de imágenes aparentemente inocuas subraya la necesidad de una vigilancia constante y el desarrollo de estrategias de seguridad más robustas. La comunidad de IA debe estar atenta a estas nuevas amenazas y trabajar en conjunto para mitigar los riesgos asociados.