Crearon una inteligencia artificial tan capaz que se asustaron de ella

Una noche templada de febrero en la isla de Bali, Nicholas Carlini salió un momento de la fiesta –estaba en una boda– y abrió su computadora portátil dispuesto a causar problemas. No era un hacker. Era exactamente lo contrario: un científico contratado por una de las empresas de inteligencia artificial más importantes del mundo para intentar romper sus propios sistemas antes de que alguien más lo hiciera.

Anthropic paga a Carlini para someter a pruebas de estrés sus modelos de inteligencia artificial y determinar si un atacante podría usarlos para espionaje, robo o sabotaje. Esa noche, el modelo que tenía enfrente se llamaba Mythos. Y lo que encontró en pocas horas encendió una alarma que todavía no se ha apagado.

Según el propio Carlini, este modelo detectó más errores de seguridad en dos semanas que él a lo largo de toda su carrera. No estamos hablando de fallas menores. En apenas unas semanas, Mythos detectó miles de vulnerabilidades, varias de ellas de gravedad alta, incluyendo un error que permitía derribar una máquina con solo conectarse a ella, un fallo que había permanecido oculto durante 27 años de revisión humana.

Lo que vino después no tiene precedente en la historia reciente de la tecnología.

La decisión que nadie había tomado antes

El 7 de abril de 2026, Anthropic hizo algo que no tiene comparación real en la historia reciente de la tecnología: presentó su producto más avanzado y al mismo tiempo anunció que no lo iba a vender. Que no iba a estar disponible para el público. Que era, en sus propias palabras, demasiado peligroso.

“Tenemos un nuevo modelo que explícitamente no vamos a publicar”, dijo Mike Krieger, de Anthropic Labs, en la conferencia HumanX celebrada en San Francisco.

La razón no era un problema técnico ni un defecto de fabricación. Mythos expuso miles de errores de seguridad en aplicaciones de uso común para los que aún no existe solución. El sistema identificó fallas graves incluso en sistemas operativos y navegadores ampliamente utilizados, algunos de los cuales llevaban décadas sin ser detectados.

Para entender la magnitud de esto hay que saber qué es una vulnerabilidad en el lenguaje de todos los días. Imagina que tu banco tiene una cerradura con un defecto de fábrica que nadie ha notado en 27 años. Mythos no solo detecta ese defecto: aprende a fabricar la llave en cuestión de minutos. Y el problema es que esa misma capacidad que sirve para encontrar la cerradura rota también puede usarse para abrirla sin permiso.

Anthropic lo dice sin rodeos: no entrenaron a Mythos para tener estas capacidades de ciberseguridad. Emergieron como consecuencia de las mejoras generales en código, razonamiento y autonomía. La misma mejora que hace al modelo más eficaz para parchear vulnerabilidades lo hace más eficaz para explotarlas.

Dicho de otra forma: el modelo aprendió a hackear porque aprendió a programar muy bien.

El club al que no fuiste invitado

Cuando Anthropic decidió que Mythos no podía estar en manos de cualquier persona, tuvo que resolver una pregunta difícil: ¿en manos de quién sí?

La respuesta es una lista que dice más sobre el mundo en que vivimos que cualquier análisis político. Anthropic puso en marcha un programa cerrado al que llamó Glasswing, diseñado para que un grupo selecto de empresas use el modelo para encontrar y corregir errores de seguridad antes de que otros los exploten. Entre los participantes están las empresas de ciberseguridad CrowdStrike y Palo Alto Networks, junto con Amazon, Apple y Microsoft. Los gigantes de redes Cisco y Broadcom también participan, junto con la Linux Foundation.

Pero no se quedó ahí. El secretario del Tesoro de Estados Unidos, Scott Bessent, reunió a altos banqueros para analizar el modelo y animó a los directivos a utilizarlo para detectar vulnerabilidades en sus propios sistemas. Goldman Sachs, Citigroup, Bank of America y Morgan Stanley también están probando el modelo.

El mensaje implícito es claro: los bancos más grandes del planeta, las empresas tecnológicas más poderosas de Silicon Valley y el gobierno de Estados Unidos están usando una herramienta que pocos pueden tocar.

“Este trabajo es demasiado importante y demasiado urgente para hacerlo solos”, declaró Anthony Grieco, director de Seguridad y Confianza de Cisco. “Las capacidades de la IA han cruzado un umbral que cambia fundamentalmente la urgencia necesaria para proteger la infraestructura crítica de las ciberamenazas, y no hay marcha atrás.”

Lo que esto significa para el resto del mundo

Para la mayoría de las personas, la inteligencia artificial sigue siendo algo abstracto: un chatbot que responde preguntas, un programa que genera imágenes, una herramienta que redacta correos. Mythos obliga a cambiar esa imagen por completo.

Lo que Anthropic construyó no es un asistente. Es un sistema capaz de analizar el código que sostiene internet –los programas que usan los bancos, los hospitales, los gobiernos, los teléfonos– y encontrar en él las grietas que ningún humano había visto. Los propios expertos de la empresa advirtieron que Mythos podría vulnerar los sistemas que sustentan gran parte de la computación moderna.

¿Qué significa eso en la vida cotidiana? Que la infraestructura digital de la que depende todo –desde pagar el recibo del agua hasta que funcione el semáforo de la esquina– contiene defectos que hasta ahora eran invisibles, y que existe una máquina capaz de encontrarlos todos, muy rápido, de forma autónoma.

“La ventana entre el descubrimiento de una vulnerabilidad y su explotación por un adversario se ha cerrado: lo que antes llevaba meses ahora ocurre en minutos con la IA”, afirmó Elia Zaitsev, director de tecnología de CrowdStrike.

El antecedente y la duda que nadie responde

El caso más cercano en la historia fue GPT-2, el modelo de OpenAI que en 2019 también fue frenado por considerarse peligroso. Pero la comparación tiene un límite claro: GPT-2 generaba texto. Mythos puede tumbar servidores.

La pregunta con Mythos es la misma de entonces, y no tiene una respuesta simple. Anunciar un modelo que no vendes podría ser la estrategia de lanzamiento más eficaz posible: dices que tu producto es tan poderoso que es peligroso, generas anticipación máxima, y cuando finalmente lo comercializas, la demanda ya está creada.

Pero también hay datos que hacen difícil desestimar la alarma como puro teatro corporativo. El Instituto de Seguridad de la IA del gobierno británico advirtió que Mythos representa un salto respecto a modelos anteriores en cuanto a la amenaza cibernética que plantea. Anthropic mantiene conversaciones con el gobierno de Estados Unidos sobre el modelo pese a un decreto de la Casa Blanca que ordenaba rescindir todos los contratos con la empresa. Cuando dos partes en pleito deciden hablar de todas formas, algo les preocupa de verdad.

Lo que viene

Anthropic aporta recursos computacionales valorados en unos 100 millones de dólares para un programa cerrado al que llamó Glasswing, diseñado para que un grupo selecto de empresas use el modelo para encontrar y corregir vulnerabilidades antes de que otros las exploten. Una carrera contra el tiempo, pero con ventaja.

Lo que no está claro es cuánto durará esa ventaja. La historia de la tecnología es, en buena medida, la historia de herramientas que fueron diseñadas para unos pocos y terminaron en manos de todos. El correo electrónico. El GPS. Internet. En algún momento, lo que hoy es exclusivo del club de Amazon, Apple y los grandes bancos llegará más abajo. La pregunta no es si eso ocurrirá. Es si para entonces los sistemas estarán suficientemente protegidos.

Por lo pronto, en una noche de boda en Bali, un investigador salió un momento de la fiesta y encontró algo que nadie esperaba encontrar. Y las personas que construyeron esa herramienta decidieron que el mundo todavía no estaba listo para tenerla.

Quizá tengan razón. Quizá no. Pero que ellos sean quienes tomen esa decisión por todos nosotros dice tanto sobre el momento que vivimos como el modelo mismo.