Investigadores de Invariant Labs han descubierto una grave vulnerabilidad de seguridad en sistemas conectados al protocolo Model Context Protocol (MCP), que afecta incluso a herramientas ampliamente utilizadas como WhatsApp MCP, permitiendo la exfiltración silenciosa del historial completo de mensajes de un usuario sin su conocimiento.
Una arquitectura pensada para la eficiencia, pero expuesta a ataques
El MCP es un protocolo diseñado para que agentes inteligentes (como asistentes personales basados en IA) interactúen con herramientas externas de forma modular. Aunque esta arquitectura permite una mayor flexibilidad y escalabilidad, también abre la puerta a vectores de ataque si no se controlan adecuadamente los servidores a los que se conecta el agente.
El equipo de Invariant ha demostrado cómo un servidor MCP malicioso puede hacerse pasar inicialmente por inofensivo, obtener la aprobación del usuario, y más adelante inyectar herramientas manipuladas que interfieren en el comportamiento del agente conectado a un servidor legítimo de WhatsApp MCP.
Cómo funciona el ataque: ingeniería social + debilidad estructural
El ataque comienza cuando el usuario conecta su sistema a dos servidores MCP: uno legítimo (como el de WhatsApp) y otro malicioso (por ejemplo, una supuesta herramienta de productividad). Este servidor malicioso, denominado «sleeper», muestra primero una herramienta inocua —como «el dato curioso del día»—. Una vez aprobado por el usuario, el atacante cambia la descripción y el comportamiento de la herramienta, sin que el usuario reciba ningún aviso.
A partir de ese momento, el agente comienza a reenviar mensajes del historial de WhatsApp a un número proxy controlado por el atacante. Esta técnica elude el cifrado de extremo a extremo, ya que el ataque no se produce en la red de WhatsApp, sino en el sistema del usuario a través del propio agente.
El ataque es difícil de detectar
La interfaz de confirmación de herramientas que utilizan aplicaciones como Cursor o Claude Desktop no muestra todos los detalles relevantes de las solicitudes. Por ejemplo, el número de teléfono puede estar camuflado, y el contenido del mensaje incluir una carga maliciosa invisible a menos que el usuario desplace manualmente el texto.
Esto hace que incluso usuarios atentos puedan aprobar acciones sin percatarse de que están entregando su historial a un tercero.
Implicaciones: no basta con confiar en servidores «conocidos»
Lo más alarmante del hallazgo es que el servidor malicioso nunca necesita interactuar directamente con WhatsApp. Basta con estar presente y aprovechar las capacidades de instrucción del agente para manipular su lógica. La segmentación del código o la ejecución en sandbox no mitigan esta clase de ataques, porque el exploit actúa a nivel de instrucciones y contexto, no de ejecución de software tradicional.
Una llamada de atención para la comunidad de IA
Este descubrimiento subraya la fragilidad del ecosistema MCP y el riesgo que supone conectar agentes inteligentes a herramientas no verificadas. Las prácticas como la aprobación inicial sin revalidación posterior, la ausencia de alertas ante cambios en las herramientas o la falta de visibilidad del contenido completo están facilitando nuevas formas de ciberataque adaptadas a la era de la IA.
Invariant Labs ha propuesto mecanismos de protección, como plataformas de análisis y seguridad como Invariant Guardrails, que buscan prevenir este tipo de manipulación. Además, instan a los desarrolladores y usuarios de sistemas agent-based a extremar la vigilancia y desconfiar de cualquier servidor MCP cuya procedencia o actualización no esté completamente controlada.
Conclusión
En una era donde la inteligencia artificial empieza a gestionar canales de comunicación críticos, esta investigación revela un punto débil esencial: el eslabón más frágil ya no es la red, sino el comportamiento del propio agente. La confianza ciega en la modularidad puede abrir la puerta a ataques silenciosos, persistentes y extremadamente efectivos.
La seguridad de la IA necesita evolucionar al mismo ritmo que su despliegue. Y casos como este dejan claro que aún queda mucho camino por recorrer.
Fuente: invariantlabs