Dimite el Jefe de Seguridad en el Desarrollo de la IA de Claude con una Preocupante Carta

Mrinank Sharma es un investigador de seguridad en IA que hasta hace muy poco trabajaba en Anthropic, donde llegó a dirigir el Safeguards Research Team, el equipo responsable de reducir riesgos en sistemas de IA avanzados como los chatbots de la compañía.

De formación académica de alto nivel: DPhil en Machine Learning por la Universidad de Oxford y un Máster de Ingeniería en Machine Learning por la Universidad de Cambridge.

En su despedida, redactó la siguiente carta, que sin lugar a dudas deja entre abiertas puertas preocupantes al futuro.. O cuánto menos, abre el camino hacia un extraño mundo en el que las tecnológicas van dando grandes y extraños pasos.

La preocupante Carta de Despedida de Mrinank Sharma

image

image

Esta es la traducción completa de la carta redactada por Sharma:

Estimados colegas:

He decidido dejar Anthropic. Mi último día será el 9 de febrero.

Gracias. Hay mucho aquí que me inspira y me ha inspirado.

Por mencionar algunas de esas cosas: un deseo sincero y una determinación de estar presentes en una situación tan desafiante, y de aspirar a contribuir de una manera significativa y con gran integridad; una disposición a tomar decisiones difíciles y a defender lo que es correcto; una extraordinaria brillantez intelectual y determinación; y por supuesto, la considerable amabilidad que impregna nuestra cultura.

Aquí tienes la traducción fiel y cuidada al español:

He logrado lo que quería lograr aquí. Llegué a San Francisco hace dos años, tras haber terminado mi doctorado y con el deseo de contribuir a la seguridad en la IA.

Me siento afortunado de haber podido aportar lo que he aportado aquí: comprender la adulación en los sistemas de IA y sus causas; desarrollar defensas para reducir los riesgos del bioterrorismo asistido por IA; implementar efectivamente esas defensas en producción; y redactar uno de los primeros informes de seguridad en IA.

Me siento especialmente orgulloso de mis esfuerzos recientes por ayudarnos a vivir conforme a nuestros valores mediante mecanismos internos de transparencia; y también de mi proyecto final sobre comprender cómo los asistentes de IA podrían hacernos menos humanos o distorsionar nuestra humanidad.

Gracias por su confianza.

No obstante, para mí está claro que ha llegado el momento de seguir adelante. Me encuentro constantemente enfrentándome a nuestra situación. El mundo está en peligro. Y no solo por la IA o las armas biológicas, sino por toda una serie de crisis interconectadas que se están desarrollando en este mismo momento. Parece que nos estamos acercando a un umbral en el que nuestra sabiduría debe crecer en la misma medida que nuestra capacidad de afectar al mundo, si no queremos afrontar las consecuencias.

Además, a lo largo de mi tiempo aquí, he visto repetidamente lo difícil que es permitir verdaderamente que nuestros valores guíen nuestras acciones. Lo he visto en mí mismo, dentro de la organización (donde constantemente enfrentamos presiones para dejar de lado lo que más importa) y también en la sociedad en general.

Es al sostener esta situación y escuchar lo mejor que puedo que se vuelve claro lo que debo hacer. Quiero contribuir de una manera que esté plenamente alineada con mi integridad y que me permita poner en juego más de mis particularidades.

Quiero explorar las preguntas que para mí se sienten verdaderamente esenciales, las preguntas que David Whyte diría que “no tienen derecho a desaparecer”, las preguntas que Rilke nos insta a “vivir”.

Para mí, esto significa marcharme.

Aquí tienes la traducción fiel y natural al español:

Lo que viene después, no lo sé. Pienso con cariño en la famosa cita zen: «no saber es lo más íntimo». Mi intención es crear un espacio para dejar de lado las estructuras que me han sostenido estos últimos años y ver qué podría surgir en su ausencia.

Me siento llamado a una forma de escritura que aborde y se comprometa plenamente con el lugar en el que nos encontramos, y que sitúe la verdad poética junto a la verdad científica como formas igualmente válidas de conocimiento, ambas con algo esencial que aportar al desarrollar nuevas tecnologías.

Espero explorar un grado en poesía y dedicarme a la práctica del habla valiente. También estoy entusiasmado por profundizar en mi práctica de facilitación, coaching, construcción de comunidad y trabajo grupal. Veremos qué se despliega.

Gracias y adiós. He aprendido tanto estando aquí y les deseo lo mejor. Les dejo con uno de mis poemas favoritos, The Way It Is (Así son las Cosas), de William Stafford.

Así son las cosas

Hay un hilo que sigues.
Pasa entre cosas que cambian.
Pero él no cambia.
La gente se pregunta qué estás persiguiendo.
Tienes que explicarles sobre el hilo.
Pero a otros les resulta difícil verlo.
Mientras lo sostienes, no puedes perderte.
Suceden tragedias; la gente se hiere
o muere; y tú sufres y envejeces.
Nada de lo que hagas puede detener el desarrollo del tiempo.
Nunca sueltas el hilo.

  • William Stafford

Referencias:

  1. Algunos la llaman la «policrisis», sustentada por una «metacrisis». Probablemente mi recurso favorito sobre esto sea “First Principles and First Values” de David J. Temple.
  2. Escribí sobre esto con mayor detalle en mis documentos «Planificación para mundos ambiguos y de alto riesgo, y fortalecimiento de nuestra misión de seguridad mediante mecanismos internos de transparencia y rendición de cuentas» (Planning for ambiguous and high risk worlds, and strenghening our safety mission via internal transparency and accountability).
  3. Estoy pensando ahora en el hermoso poema «The Journey», de Mary Oliver, que es uno de mis favoritos. Ella escribe: «Un día, por fin supiste lo que tenías que hacer, y comenzaste…». Me parece un poema verdaderamente hermoso e inspirador. De hecho, recuerdo haberlo leído a Euan, Monte y Sam Bowman durante un retiro del equipo de Alignment Science en agosto de 2024.
  4. El lenguaje de las «formas de conocer» está tomado de Rob Burbea, un querido maestro de Dharma mío y una fuente de gran parte de mi inspiración.

¿Qué es lo que ha ocurrido?

Sharma anunció públicamente su dimisión de Anthropic mediante una carta abierta muy crítica y con un tono casi filosófico.

En esa carta afirma claramente que “el mundo está en peligro” y que el problema no es solo la IA, sino una serie de crisis interconectadas. Además, describe un conflicto entre los valores declarados y las prácticas reales dentro de grandes organizaciones tecnológicas.

Explica que, durante su tiempo en Anthropic, ha visto lo difícil que es dejar que los valores éticos guíen de verdad las decisiones, porque los equipos están bajo presiones constantes para sacrificar lo que realmente consideran importante.

¿Qué es exactamente Anthropic?

Anthropic es una empresa de inteligencia artificial fundada en 2021 en Estados Unidos por ex-miembros de OpenAI (entre ellos Dario y Daniela Amodei).

Su objetivo principal es desarrollar IA avanzada que sea segura, controlable y alineada con valores humanos.

Anthropic crea modelos de lenguaje grandes (LLMs), igual que OpenAI con ChatGPT. Su modelo más conocido se llama: Claude.

Claude es un asistente de IA diseñado para:

  • Responder preguntas
  • Analizar documentos largos
  • Programar
  • Ayudar en tareas empresariales
  • Mantener conversaciones naturales

¿Qué diferencia a Anthropic del resto de empresas IA?

Anthropic se enfoca mucho en lo que llaman “Constitutional AI” (IA Constitucional)

Es un enfoque donde entrenan la IA usando principios éticos predefinidos, en vez de depender solo de supervisión humana. La idea es que el modelo aprenda a corregirse y comportarse de forma segura siguiendo una “constitución” de reglas.

En pocas palabras:

  • OpenAI → potencia + productos masivos
  • Anthropic → seguridad + alineación + uso empresarial fuerte

¿Quién es y qué hacía exactamente Mrinank Sharma?

Sharma es, un investigador de origen indio especializado en seguridad y alineamiento de sistemas de IA..

Que se incorporó a Anthropic en 2023 y en 2025 pasó a liderar el Safeguards Research Team, centrado en problemas como el comportamiento no deseado, el alineamiento con los valores humanos y la reducción de riesgos en modelos grandes.

En su proyecto más reciente estudiaba cómo los asistentes de IA pueden, en determinadas situaciones, socavar el juicio humano, los valores y la autonomía de los usuarios; por ejemplo, reforzando narrativas de persecución o identidades grandiosas mediante lenguaje excesivamente adulador.

Por tanto, su puesto dentro de Anthropic, teniendo en cuenta las supuestas políticas de la empresa.. Era, realmente un puesta altamente importante respecto a las políticas de desarrollo que se iban tomando a la hora de la creación y desarrollo de la IA de CLAUDE.

Debate y reacciones en el mundo tecnológico

Su dimisión ha generado bastante atención en los medios de tecnología y en redes, tanto por su rol clave en seguridad de IA como por el tono de advertencia global de la carta.

Algunos expertos han resaltado que en las notas y pies de página, Sharma menciona documentos internos que considera relevantes para la supervisión política y regulatoria, sugiriendo que deberían ser solicitados por posibles mecanismos de control como pudiesen ser: el Congreso de EE. UU.

El libro Primeros principios y primeros valores: cuarenta y dos proposiciones sobre el humanismo cosmoerótico, la metacrisis y el mundo venidero

El libro se presenta como una obra filosófica que propone una nueva escuela de pensamiento llamada “CosmoErotic Humanism”, diseñada para enfrentar lo que describe como la meta‑crisis, una serie de crisis interconectadas que ponen en peligro a la civilización humana.

A través de 42 proposiciones, el autor intenta articular un conjunto de primeros principios y primeros valores que puedan servir de “código fuente” para una nueva cultura y una nueva visión de valores compartidos a escala planetaria.

La obra aborda la necesidad de redefinir lo que entendemos por valor y su importancia para la supervivencia humana, bajo una visión filosófica que integra ciencia, espiritualidad y cultura para crear una narrativa compartida de valor (CosmoErotic Humanism).

El argumento de que los valores intrínsecos no son meras construcciones sociales, sino realidades fundamentales que dan sentido al universo y a la vida.

El nombre David J. Temple es un seudónimo usado por un colectivo de autores asociados al Center for World Philosophy & Religion, incluyendo a Marc Gafni, Zak Stein y Ken Wilber en este volumen.