La compañía de ciberseguridad Check Point Software ha publicado un análisis de su partner tecnológico Lakera, que señala un cambio en ciberataques y en la manera en que los ciberdelincuentes atacan los sistemas de IA a medida que van avanzando en capacidades. Entre ellas, el uso de herramientas específicas, la lectura de documentos o la interacción con fuentes externas.
El estudio, basado en un mes de monitorización de tráfico real protegido por Lakera Guard en este cuatrimestre, confirma que los agentes de IA son un nuevo objetivo prioritario para los ciberdelincuentes, que están adaptando sus técnicas para explotar estas funciones. El objetivo más habitual de los atacantes fue la extracción del prompt del sistema, que llegó casi al 60% de los intentos detectados.
Este tipo de información interna permite comprender cómo funciona el modelo, cuáles son sus límites y qué herramientas o flujos utiliza, facilitando ciberataques posteriores más sofisticados. Además, casi el 20% de los ciberataques analizados buscaban saltarse los mecanismos de seguridad de contenido, y un 12% eran intentos de exploración sin un objetivo inmediato claro. Por tanto, solo se trataban de una especie de fase de reconocmiento.
Por otro lado, se observaron intentos de filtración de datos confidenciales, así como a inyección de código malicioso. Especialmente en entornos donde hay agentes de IA que interactúan con información real o sistemas conectados.
El informe también refleja que los ciberataques indirectos son cada vez más eficaces. A diferencia de las inyecciones directas de instrucciones, los ciberdelincuentes están ocultando órdenes maliciosas en documentos, webs o contenidos externos que los agentes procesan como parte de su funcionamiento normal. Este tipo de ciberataques requiere menos intentos para tener éxito y resulta más difícil de detectar, ya que el contenido externo suele tratarse como contexto legítimo y no como una entrada potencialmente perjudicial.
Las técnicas más utilizadas para lograr estos objetivos incluyen escenarios hipotéticos, ocultación de instrucciones camufladas en el contenido, juegos de rol y marcos de autoridad falsos. En ellos, el modelo es inducido a actuar como si estuviera haciendo una prueba interna, una simulación educativa o una evaluación de seguridad. En muchos casos, pequeños cambios en el lenguaje, el contexto o el idioma son suficientes para provocar desviaciones en el comportamiento del sistema.
También han aparecido ciberataques específicamente diseñados para entornos agénticos. Entre ellos, intentos de acceso a repositorios internos de documentos, instrucciones ocultas en contenidos externos o fragmentos de texto con apariencia de scripts que pueden propagarse a lo largo de flujos automatizados. Estas técnicas reflejan un cambio de enfoque de los ciberdelincuentes, que buscan influir en todo el proceso de razonamiento y ejecución del agente.
De cara a 2026, Check Point Software subraya que la protección de sistemas de IA deberá extenderse a todo el ciclo de funcionamiento del agente, incluyendo las fuentes externas, las herramientas conectadas y la forma en que se interpretan y combinan los distintos contextos. La seguridad deberá ser preventiva y estar integrada desde el diseño, con controles específicos frente a inyecciones indirectas, filtración de información sensible y uso indebido de capacidades automatizadas.
El análisis, por su parte, refuerza la necesidad de adoptar enfoques de seguridad en línea con los principales marcos internacionales, como el OWASP Top 10 para aplicaciones basadas en modelos de lenguaje, y de tratar los sistemas de IA agéntica como componentes críticos en el seno de la arquitectura digital de las organizaciones.