En 2025, los sistemas de Inteligencia Artificial (IA) no solo son herramientas de productividad, automatización y análisis avanzado; también se han convertido en nuevos vectores de ataque para cibercriminales. Desde manipulación de datos hasta explotación directa de modelos, el panorama de amenazas ha evolucionado tan rápido como los propios avances en IA. Para profesionales de ciberseguridad, ciberdefensa y consultoría tecnológica, entender estas amenazas no es opcional: es estratégico.
Los principales vectores de ataque a la IA en 2025
A continuación se realiza un análisis de los principales tipos de ciberataques que pueden llevarse acabo contra los sistemas de inteligencia artificial.
Envenenamiento de datos (Data Poisoning):
Este ataque busca insertar ejemplos maliciosos en los datos de entrenamiento de un modelo de IA, alterando su comportamiento de forma sutil pero peligrosa. Es especialmente crítico en modelos que utilizan datasets abiertos o crowd-sourced, ya que un atacante puede manipular la entrada para insertar sesgos, puertas traseras o errores deliberados. Si no se filtran ni validan los datos con rigurosidad, el modelo aprende información contaminada, comprometiendo la confiabilidad y seguridad del sistema en producción.
Ejemplos adversariales (Adversarial Examples):
Los ataques adversariales consisten en modificar levemente una entrada (imagen, texto, audio) para engañar al modelo sin que el cambio sea perceptible al ojo humano. Esto ha sido demostrado incluso con ataques de un solo píxel en visión artificial. En el mundo físico, se han desarrollado parches impresos o prendas con patrones diseñados para evadir sistemas de detección por IA. Estos ataques representan un serio riesgo en sistemas de videovigilancia, vehículos autónomos y cualquier sistema de toma de decisiones basado en percepción.
Extracción de modelos y datos (Model & Data Extraction):
Los atacantes pueden replicar un modelo consultando su API y reconstruyendo su lógica (model stealing), o bien inducirlo a revelar partes sensibles de sus datos de entrenamiento (data leakage). Este vector compromete tanto la propiedad intelectual del modelo como la confidencialidad de la información que ha aprendido. Modelos de lenguaje, en particular, son vulnerables a técnicas de extracción por prompt engineering, lo que pone en riesgo datos corporativos, código fuente o información personal que se haya utilizado para su ajuste fino.
Evasión de detección (Evasion Attacks):
Con técnicas de generación adversarial y mutación automática, los atacantes están creando malware polimórfico impulsado por IA, capaz de evadir detección por EDR o XDR. El código se modifica dinámicamente con cada ejecución, evitando firmas estáticas. Además, el tráfico se camufla en patrones legítimos para engañar los modelos de detección basados en comportamiento. Estas amenazas ya se comercializan en foros clandestinos, y elevan la dificultad de respuesta frente a campañas de phishing, ransomware y spyware que integran componentes inteligentes.
Ataques a LLMs (Prompt Injection y Jailbreaks):
Los modelos de lenguaje grande (LLMs) como ChatGPT, Claude o Bard son vulnerables a instrucciones maliciosas escondidas en los prompts. El prompt injection puede ser directo (mediante comandos explícitos) o indirecto (instrucciones embebidas en correos, documentos o sitios web). Además, técnicas como jailbreaking permiten a los atacantes forzar al modelo a romper sus restricciones de seguridad y ética, generando salidas indebidas o revelando información privada. Estos ataques son una amenaza creciente en asistentes virtuales corporativos o chatbots conectados a datos internos.
Vulnerabilidades en la infraestructura IA:
Los modelos no solo son vulnerables por su diseño lógico, sino también por el entorno en el que operan. Ejemplos como ShellTorch evidencian cómo servidores de inferencia (como TorchServe o TensorFlow Serving) pueden contener fallos de deserialización, carga insegura de modelos y escalada de privilegios. Un atacante puede insertar código malicioso en un modelo y comprometer todo el entorno al cargarlo. Esto requiere que los equipos de TI apliquen prácticas de DevSecOps también a la cadena de suministro de modelos, validando integridad y asegurando los pipelines de MLOps.
Conclusión sobre los ataques a la IA
Asegurar la IA no es una opción, es una obligación. El ataque a los modelos es real, escalable y rentable para el adversario. Frente a esto, soluciones como las de Teldat permiten a empresas y entidades públicas enfrentar estos riesgos con tecnología alineada a los más altos estándares de seguridad, resiliencia y visibilidad. En el mundo de la ciberseguridad 2025, la IA no solo es aliada… también es objetivo. Y protegerla, es proteger el futuro digital.
Teldat, con su ecosistema de ciberseguridad nativo, distribuido y orientado a la inteligencia contextual, se posiciona como un actor clave para contener estas amenazas y asegurar que la IA trabaje a favor del negocio, no en su contra.