Doble golpe de seguridad: Anthropic filtra el código fuente de Claude Code días después de exponer su modelo Mythos

31-03-2026 8:27:08
Compartir:

La semana negra de Anthropic. La seguridad operativa de las empresas de inteligencia artificial entrelíderes tecnológicos nunca había estado tan bajo escrutinio como en este momento. Anthropic, la compañía que se posiciona como el laboratorio de IA más enfocado en seguridad y alineación, acaba de experimentar dos incidentes de filtración críticos en el lapso de cinco días que ponen en duda sus propios protocolos de protección.

 

El 27 de marzo de 2026, Fortune reveló que Anthropic había dejado expuestos cerca de tres mil archivos internos, incluyendo detalles de su modelo más poderoso hasta la fecha, Claude Mythos, también conocido como Capybara . 

Cinco días después, el 31 de marzo, la empresa sufrió una segunda filtración aún más severa: la publicación accidental del código fuente completo de Claude Code, su herramienta de codificación asistida por IA, en el registro público de paquetes npm.

Estos incidentes no son meros errores técnicos aislados. Representan un patrón preocupante de madurez operativa en una compañía que está preparando su salida a bolsa y que vende sus servicios precisamente sobre la premisa de ser más segura y confiable que sus competidores. Para desarrolladores, empresas que dependen de estas herramientas, y observadores del ecosistema de IA, estas filtraciones plantean preguntas fundamentales sobre qué tan sólidas son realmente las prácticas de seguridad internas de quienes construyen los sistemas más poderosos del mundo.

El primer golpe: Mythos y Capybara expuestos

El 26 de marzo, investigadores de seguridad descubrieron que Anthropic había almacenado borradores de contenido en un lago de datos públicamente accesible debido a una configuración errónea de su sistema de gestión de contenidos. Entre los documentos expuestos se encontraba un borrador de anuncio sobre Claude Mythos, descrito por la propia empresa como su modelo más capaz hasta la fecha y un salto cualitativo en rendimiento de IA.

El documento revelaba que Mythos, también referido internamente como Capybara, representa una nueva categoría por encima de los actuales modelos Opus, Sonnet y Haiku. Según el borrador filtrado, Capybara obtiene puntuaciones dramáticamente superiores en pruebas de codificación de software, razonamiento académico y ciberseguridad comparado con Claude Opus 4.6.

Más preocupante aún, el borrador admitía explícitamente que este modelo presenta riesgos de ciberseguridad sin precedentes. Anthropic reconoce en el documento filtrado que Mythos podría usarse para encontrar y explotar vulnerabilidades en software mucho más rápido que las herramientas actuales, elevando el riesgo de ataques cibernéticos más frecuentes y a gran escala si cae en manos equivocadas.

La empresa atribuyó este incidente a error humano en la configuración de su CMS, donde los activos se establecen como públicos por defecto a menos que el usuario explícitamente cambie la configuración. 

Esta explicación, técnicamente plausible, no elimina la preocupación sobre los controles de acceso insuficientes para información de alto valor estratégico.

El segundo golpe: medio millón de líneas de código expuestas

Si la filtración de Mythos fue grave, el incidente del 31 de marzo fue potencialmente catastrófico para la ventaja competitiva de Anthropic. La versión 2.1.88 de Claude Code incluyó accidentalmente un archivo de mapa fuente que proporcionaba acceso a aproximadamente 512,000 líneas de código TypeScript distribuidas en 1,900 archivos .

Claude Code es quizás el producto más popular de Anthropic y ha experimentado tasas de adopción vertiginosas en grandes empresas . A diferencia de los modelos de lenguaje subyacentes, Claude Code incluye un arnés de software que instruye al modelo sobre cómo usar otras herramientas, proporciona guardarraíles importantes y gobierna su comportamiento. Es este arnés agentico, la capa que transforma un modelo de lenguaje en un asistente de codificación autónomo, lo que quedó expuesto.

La filtración ocurrió cuando un archivo .map utilizado internamente para depuración fue incluido accidentalmente en una actualización rutinaria publicada en npm, la plataforma que los desarrolladores utilizan para compartir y actualizar software. Este archivo apuntaba a un archivo zip en el almacenamiento en la nube de Anthropic que contenía el código fuente completo.

Dentro de horas, el código base fue copiado y disectado en GitHub, acumulando rápidamente más de 50,000 forks. Anthropic emitió avisos de eliminación, pero la naturaleza distribuida de internet hace imposible garantizar que el código no persista en múltiples repositorios privados.

Lo que revela el código: características futuras y arquitectura interna

El análisis del código filtrado ha proporcionado a la comunidad técnica una visión sin precedentes de la hoja de ruta de producto y la arquitectura interna de Anthropic. Entre los hallazgos más significativos:

El código expuso docenas de banderas de características para capacidades que parecen completamente construidas pero aún no lanzadas, incluyendo un sistema de revisión de sesiones que permite a Claude estudiar sus interacciones pasadas para mejorar futuras conversaciones, un asistente persistente que opera en modo segundo plano incluso cuando el usuario está inactivo, y capacidades remotas que permiten controlar Claude desde teléfonos móviles u otros navegadores .

Investigadores también descubrieron KAIROS, un módulo que permite ejecución autónoma en segundo plano para consolidar memoria y limpiar contexto mientras el usuario está inactivo. 

El sistema de memoria en tres capas, basado en archivos de índice MEMORY.md, referencias por tópicos bajo demanda, y estricta disciplina de escritura para evitar corrupción de contexto, ofrece insights sobre cómo Anthropic aborda uno de los mayores retos en orquestación de agentes autónomos.

Un hallazgo más idiosincrásico fue una funcionalidad tipo Tamagotchi, una mascota virtual que se sienta junto al cuadro de entrada y reacciona a la actividad de codificación del usuario. También se encontró un modo encubierto diseñado para contribuciones secretas a repositorios públicos con sistemas para evitar filtraciones de identidad o credenciales.

Implicaciones de seguridad y competitivas

La filtración del código fuente presenta riesgos multifacéticos que van más allá de la mera pérdida de propiedad intelectual. Roy Paz, investigador senior de seguridad de IA en LayerX Security, señala que aunque las filtraciones no expusieron los pesos del modelo en sí, revelaron detalles no públicos sobre cómo funcionan los sistemas, incluyendo APIs internas y procesos. Esta información podría ayudar a actores sofisticados a comprender mejor la arquitectura de los modelos de Anthropic y cómo se despliegan, lo que a su vez podría informar intentos de eludir las protecciones existentes.

Desde una perspectiva competitiva, la filtración proporciona a rivales una educación gratuita sobre cómo construir un agente de codificación de grado de producción. 

Competidores pueden estudiar la arquitectura, los patrones de diseño y las decisiones técnicas que Anthropic ha perfeccionado a través de iteraciones costosas. Algunos desarrolladores ya han comenzado a crear versiones de código abierto basadas en el código filtrado .

Más fundamentalmente, estos incidentes erosionan la narrativa central de Anthropic como el laboratorio de IA más seguro y responsable. Cuando una empresa que advierte sobre los riesgos de ciberseguridad de sus propios modelos no puede proteger sus propios sistemas internos, la credibilidad de sus advertencias externas se debilita.

aspectofiltración mythos/capybarafiltración claude code
fecha de descubrimiento26 de marzo de 202631 de marzo de 2026
tipo de exposiciónborradores de blog en lago de datos públicocódigo fuente en registro npm
volumen afectado~3,000 archivos, documentos internos~512,000 líneas de código, 1,900 archivos
información reveladaespecificaciones de modelo no lanzado, riesgos de seguridad, planes de eventos ejecutivosarquitectura completa del producto, características futuras, APIs internas, lógica de guardarraíles
causa atribuidaerror humano en configuración CMSerror de empaquetado en liberación
impacto competitivoalto, revela hoja de ruta estratégicasevero, expone secretos de implementación técnica
riesgo de seguridadmedio, información sobre capacidades futurasalto, posible elusión de protecciones
respuesta de anthropicremoción de acceso público, confirmación de erroravisos de eliminación, medidas preventivas prometidas

Esta comparación ilustra cómo el segundo incidente, aunque técnicamente similar en causas, representa una escala de exposición significativamente mayor con implicaciones más duraderas para la posición competitiva de la empresa.

El contexto más amplio: vulnerabilidades recientes de Claude

Estas filtraciones no ocurren en vacío. Durante 2026, Anthropic ha enfrentado múltiples desafíos de seguridad que sugieren tensiones entre la velocidad de innovación y la madurez operativa.

En marzo de 2026, investigadores de Oasis Security descubrieron tres vulnerabilidades en Claude.ai denominadas colectivamente Claudy Day. Estas permitían inyección de prompts invisible a través de parámetros URL, exfiltración de datos mediante la API de archivos de Anthropic, y redirección abierta en claude.com. 

La cadena de ataque permitía a un adversario robar historial de conversaciones y datos sensibles sin que el usuario lo percibiera.

En febrero de 2025, una versión temprana de Claude Code ya había expuesto accidentalmente su código original en un incidente similar al actual. El patrón de filtraciones repetidas del mismo producto sugiere deficiencias sistémicas en los procesos de liberación de software más allá de meros errores humanos aislados.

Adicionalmente, en marzo de 2025, se descubrió que grupos de hackers vinculados a China habían utilizado Claude Code en una campaña de espionaje dirigida a aproximadamente treinta organizaciones, incluyendo empresas tecnológicas, instituciones financieras y organismos gubernamentales. Aunque Anthropic detectó y bloqueó la actividad, el incidente subraya cómo las herramientas de IA de Anthropic se han convertido en objetivos de alto valor para actores de amenazas sofisticados.

La respuesta de Anthropic y sus limitaciones

Ante la filtración de Claude Code, Anthropic emitió una declaración que minimizaba el incidente: Algunos códigos fuente internos fueron incluidos en una liberación de Claude Code. No se involucraron ni expusieron datos sensibles de clientes o credenciales. Esto fue un problema de empaquetado de liberación causado por error humano, no una violación de seguridad. Estamos implementando medidas para evitar que esto vuelva a suceder .

Esta caracterización como error de empaquetado más que violación de seguridad es técnicamente precisa pero semánticamente evasiva. La distinción importa poco para los competidores que ahora tienen visibilidad sobre la arquitectura del producto estrella de Anthropic, o para los clientes empresariales que evalúan la confiabilidad operativa del proveedor.

La promesa de implementar medidas preventivas, escuchada tras cada incidente de seguridad en la industria tecnológica, debe traducirse en cambios tangibles de proceso. 

La repetición de filtraciones de código fuente de Claude Code en trece meses sugiere que las medidas implementadas tras el incidente de febrero de 2025 fueron insuficientes.

Cronología y flujo de la filtración del código fuente de Claude Code, desde el error de empaquetado hasta la distribución en GitHub con más de 50,000 forks. Fuente: Infografía basada en reportes de Fortune y Axios, 31 de marzo de 2026.

Lecciones para el ecosistema de IA

Estos incidentes ofrecen enseñanzas relevantes más allá de Anthropic individualmente. Para empresas que construyen o despliegan sistemas de IA, varias conclusiones emergen.

Primera, la seguridad operativa debe evolucionar al mismo ritmo que las capacidades del producto. Anthropic ha priorizado visiblemente el desarrollo de modelos más capaces y herramientas más autónomas, pero sus procesos de protección de activos no parecen haber escalado proporcionalmente. La complejidad de los sistemas agenticos que operan con mayor autonomía intrínsecamente amplifica el impacto de fallos de seguridad.

Segunda, la configuración por defecto en herramientas de gestión de contenido y liberación de software debe ser restrictiva, no permisiva. Ambas filtraciones resultaron de configuraciones donde la opción menos segura era la predeterminada, requiriendo acción humana explícita para proteger información sensible. Este patrón de diseño sistemáticamente produce errores humanos con consecuencias desproporcionadas.

Tercera, la transparencia sobre incidentes de seguridad, aunque incómoda, construye más confianza a largo plazo que la minimización. La caracterización de estos incidentes como errores de empaquetado o configuración, técnicamente precisa, evade la gravedad del impacto. Las empresas de IA que aspiran a liderar en responsabilidad deben modelar la rendición de cuentas que esperan de otros.

Arquitectura expuesta de Claude Code

Diagrama arquitectónico de Claude Code basado en análisis del código fuente filtrado, mostrando componentes clave como sistema de memoria MEMORY.md, módulo de ejecución en segundo plano KAIROS, y capa de orquestación agentica. Fuente: Análisis técnico de Ecosistema Startup, 31 de marzo de 2026.

Sugerencia del escritor: Perspectiva desde la trinchera tecnológica

Como observador del ecosistema de IA empresarial y su intersección con operaciones de seguridad, quiero compartir reflexiones que trascienden los titulares inmediatos de estas filtraciones.

Primera sugerencia: distinguir entre seguridad del modelo y seguridad operativa. Anthropic ha invertido enormemente en alineación y seguridad de sus modelos, áreas donde genuinamente lidera la industria. Sin embargo, estas filtraciones demuestran que la seguridad operativa, los procesos humanos y técnicos que protegen los activos de la empresa, sigue siendo tan crítica como la seguridad técnica del modelo. Una compañía puede tener el modelo más seguro del mundo y aún comprometerse a través de configuraciones de CMS defectuosas.

Segunda sugerencia: evaluar a los proveedores de IA holísticamente. Para empresas que seleccionan socios de IA, estos incidentes son recordatorios de que la evaluación debe extenderse más allá de las capacidades del modelo hacia la madurez operativa del proveedor. Preguntas sobre procesos de liberación de software, controles de acceso, y respuesta a incidentes son tan importantes como benchmarks de rendimiento del modelo.

Tercera sugerencia: reconocer que la velocidad de innovación genera deuda de seguridad. Anthropic opera en un mercado hipercompetitivo donde el tiempo de lanzamiento determina la cuota de mercado. Esta presión inevitablemente compromete la rigurosidad de los controles. Como usuarios y observadores, debemos calibrar nuestras expectativas de seguridad reconociendo estas tensiones estructurales, sin excusarlas.

Cuarta sugerencia: aprovechar la transparencia inadvertida constructivamente. El código filtrado, aunque obtenido irregularmente, ofrece a la comunidad técnica oportunidades de aprendizaje sobre arquitectura de sistemas agenticos. Los desarrolladores pueden estudiar estos patrones para mejorar sus propias implementaciones, y los investigadores de seguridad pueden identificar potenciales vectores de ataque para reportar responsablemente. La información está disponible; el uso ético de ella es una elección individual.

Quinta sugerencia: anticipar regulación aumentada. Estos incidentes llegan en un momento de creciente escrutinio regulatorio sobre la seguridad de la IA. Es probable que veamos requisitos más estrictos de divulgación de incidentes y estándares de seguridad operativa para empresas de IA de alta capacidad. Las compañías que se adelanten proactivamente a estos estándares tendrán ventaja competitiva regulatoria.

Panorama competitivo del mercado de herramientas de codificación asistida por IA en 2026, mostrando posicionamiento de Anthropic con Claude Code frente a competidores principales. Fuente: Análisis de mercado basado en datos de adopción empresarial, marzo 2026.

Reconstruir confianza en la era de la IA agentica

Las filtraciones de marzo de 2026 no determinarán el destino de Anthropic. La compañía mantiene ventajas técnicas significativas, una base de usuarios leales, y recursos financieros considerables. Sin embargo, estos incidentes sí establecen un punto de inflexión en cómo la empresa será evaluada, tanto por el mercado como por la sociedad más amplia.

La transición hacia sistemas de IA más autónomos y agenticos, que Anthropic está liderando con Claude Code y próximamente con Mythos/Capybara, incrementa exponencialmente las apuestas de la seguridad operativa. Cuando los sistemas de IA pueden actuar independientemente en entornos digitales, las fallas de seguridad no se limitan a exposición de datos; se extienden a acciones no autorizadas, manipulación de sistemas, y consecuencias en el mundo real.

Anthropic tiene la oportunidad de transformar estos incidentes en demostraciones de madurez, implementando los controles rigurosos que sus propias advertencias sobre riesgos de IA sugieren que son necesarios. La alternativa, una continua serie de filtraciones y exposiciones, erosionará la confianza fundamental necesaria para la adopción generalizada de sistemas de IA autónomos.

Para el ecosistema más amplio, estas filtraciones sirven como recordatorio oportuno de que la revolución de la IA no está completa, ni siquiera en sus etapas iniciales. Los sistemas más avanzados del mundo siguen siendo operados por organizaciones humanas con procesos imperfectos, presiones competitivas, y límites de recursos. La seguridad de la IA no es solo un problema técnico de alineación de modelos; es un desafío organizacional de operaciones, cultura y gobernanza.

La pregunta que estos incidentes plantean no es si Anthropic puede recuperarse, sino si toda la industria puede aprender las lecciones necesarias antes de que los sistemas de IA sean lo suficientemente poderosos como para que sus fallos sean irreversibles.

-

-

-

-

-

-

-

Fuentes 

Fortune. Anthropic is testing Mythos, its most powerful AI model ever developed. 26 de marzo de 2026. Reportaje exclusivo sobre la filtración inicial del modelo Capybara/Mythos y el evento ejecutivo europeo .

Fortune. Anthropic leaks its own AI coding tool's source code in second major security breach. 31 de marzo de 2026. Reportaje sobre la filtración del código fuente de Claude Code y sus implicaciones .

Axios. Anthropic leaked its own source code. 31 de marzo de 2026. Cobertura del incidente de código fuente y características futuras reveladas .

The Verge. Claude Code leak exposes a Tamagotchi-style pet and an always-on agent. 31 de marzo de 2026. Análisis de características específicas descubiertas en el código filtrado .

Ecosistema Startup. Fuga de código de Claude Code: impacto en IA y seguridad startup. 31 de marzo de 2026. Análisis técnico del código filtrado y arquitectura de memoria .

The Economic Times. Claude Mythos: Leak spills details on Anthropic's new AI model, its most powerful yet. 27 de marzo de 2026. Cobertura internacional de la filtración del modelo Mythos .

Paubox. Claude code exploited in Mexican government cyberattack. 5 de marzo de 2026. Reportaje sobre el uso malicioso previo de Claude Code por actores de amenazas .

Oasis Security. Claude.ai prompt injection vulnerability. 18 de marzo de 2026. Divulgación técnica de vulnerabilidades Claudy Day .

Compartir:

0 Comentarios

Deja un comentario

Landing pages especializadas

¿Proyecto totalmente personalizado? Contáctanos.

Si tu proyecto requiere una solución más enfocada, entra directo a la landing ideal para tu negocio y envíanos tu información en el formulario correspondiente.