El Proyecto Panama de Anthropic y el expolio cultural descarado de la literatura por las empresas de IA

Actualidad y herramientas de Inteligencia Artificial leídas en CIBERED tu blog de Informática y Tecnología en Español Favorito

En el centro de una de las controversias más relevantes sobre inteligencia artificial se encuentra la empresa Anthropic, los creadores de Claude, tras la revelación de un programa interno conocido como Proyecto Panama.

Las investigaciones judiciales y reportajes del Washington Post han expuesto un sistema de adquisición, digitalización y procesamiento masivo de libros físicos destinados al entrenamiento de modelos de IA como Claude, reabriendo el debate sobre los límites legales y éticos del uso de obras protegidas.

Proyecto Panama a escala industrial mundial

Según documentos judiciales y reportajes del Washington Post, Proyecto Panama fue un esfuerzo interno iniciado en 2024 con un objetivo ambicioso: construir uno de los mayores conjuntos de datos textuales a partir de libros físicos.

image

El proyecto implica:

  • La adquisición de millones de libros en el mercado global
  • Procesos industriales de corte de encuadernaciones
  • Escaneo masivo de páginas mediante sistemas de alta velocidad
  • Conversión del material en datos para entrenamiento de modelos de IA
  • Reciclaje posterior de los ejemplares físicos

El propio material interno describe el programa como una iniciativa para: “destructively scan all the books in the world” (“escanear destructivamente todos los libros del mundo”).

Y se señala además, la intención de mantener el proyecto fuera del conocimiento público en sus fases iniciales.

Este es un almacén de los libros que Anthropic ya ha logrado conseguir comprar, para posteriormente escanear y pasar a su posterior destrucción total y para siempre..

La escala del proceso: “buy, cut, scan, recycle”

El Washington Post detalla cómo el sistema operaba como una cadena industrial optimizada:

  • Buy: adquisición masiva de libros en lotes de decenas de miles
  • Cut: uso de maquinaria hidráulica para separar encuadernaciones
  • Scan: digitalización de alta velocidad de cada página
  • Recycle: eliminación o reciclaje del material físico restante

En algunos casos, los documentos mencionan contratos con proveedores capaces de procesar entre 500.000 y 2 millones de libros en pocos meses.

El resultado fue, la creación de uno de los corpus textuales más extensos utilizados en el entrenamiento de modelos de lenguaje.

Origen de los libros: mercado, distribuidores y archivos digitales

Las investigaciones indican que Anthropic exploró múltiples vías para obtener contenido:

  • Compra en librerías de segunda mano y distribuidores especializados
  • Colaboración con empresas de escaneo industrial
  • Evaluación de bibliotecas y colecciones públicas
  • Uso de repositorios digitales no autorizados en algunos casos

El objetivo era claro: acceder a textos de alta calidad lingüística que superaran las limitaciones del contenido disponible en internet abierto.

Bibliotecas de Barcelona ya han recibido impresionantes ofertas por grandes masas de libros

Una misteriosa empresa canadiense (conectada según fuentes fiables, a la compañía Anthropic y a otros actores del sector tecnológico) está comprando de forma masiva libros de segunda mano en librerías de todo el mundo, especialmente volúmenes antiguos, técnicos o de escasa salida comercial.

El fenómeno ha sido detectado por libreros de España, Alemania, Estados Unidos y otros países, que describen patrones de compra inusuales: pedidos automatizados, repetitivos y a gran escala, a menudo gestionados en cuestión de minutos.

Muchos, sospechan que el objetivo no es la reventa, sino alimentar modelos de inteligencia artificial con estos textos.

El método de compra, encaja con la necesidad de las empresas de IA de conseguir nuevos datos tras agotar gran parte del contenido disponible en Internet, lo que algunos expertos llaman ya el “muro de los datos” o (data wall).

Aunque un juez en EE. UU. ha considerado legal el uso “transformativo” de libros para entrenamiento de IA, el sector del libro de viejo denuncia lo que considera un “expolio literario”, al implicar la pérdida física de ejemplares que forman parte del patrimonio bibliográfico.

La empresa señalada (Zoom Books) afirma dedicarse al reciclaje y la compraventa de libros usados y niega colaborar directamente con empresas de IA. Aunque, no ha aclarado de forma transparente el destino final de los volúmenes adquiridos.

El caso ha abierto un debate global: entre la necesidad de alimentar el desarrollo de la inteligencia artificial y el riesgo de destruir, silenciosamente, fragmentos de memoria cultural conservados en libros olvidados en estanterías de segunda mano.

La delgada línea roja entre la innovación y la propiedad intelectual

El caso ha sido enmarcado dentro de una ola de demandas contra empresas de inteligencia artificial por el uso de obras protegidas por derechos de autor.

Los tribunales han introducido una distinción clave:

✔ Uso transformativo

Algunos jueces han considerado que el entrenamiento de modelos de IA puede constituir un uso “transformativo”, ya que no reproduce las obras, sino que aprende patrones lingüísticos generales.

⚠️ Método de adquisición

Sin embargo, otra parte del debate se centra en cómo se obtuvieron los materiales, especialmente en relación con copias no autorizadas o bibliotecas digitales de origen incierto.

En este contexto, Anthropic acordó un pago de 1.500 millones de dólares en un acuerdo judicial relacionado con obras incluidas en repositorios digitales, sin admitir responsabilidad.

Un fenómeno compartido en la industria tecnológica

El caso de Proyecto Panama no es aislado. Según los documentos judiciales, otras compañías tecnológicas también participaron en la competencia por grandes volúmenes de texto para entrenar IA, incluyendo:

  • Meta
  • Google
  • OpenAI
  • Anthropic

En todos los casos, los libros fueron considerados un recurso estratégico por su valor como fuente de lenguaje estructurado y de alta calidad.

¿Por qué los libros son clave para la IA?

Los modelos de lenguaje requieren grandes cantidades de texto bien estructurado para aprender:

  • Gramática compleja
  • Coherencia narrativa
  • Estilos de escritura diversos
  • Conocimiento contextual profundo

En este sentido, los libros ofrecen un nivel de calidad superior al contenido informal de internet, lo que explica su valor estratégico en el desarrollo de sistemas avanzados de IA.

Implicaciones culturales y éticas

Más allá de lo legal, Proyecto Panama plantea preguntas profundas sobre la transformación del conocimiento:

El libro como objeto cultural

Tradicionalmente, los libros representan:

  • patrimonio intelectual
  • memoria cultural
  • obra de autoría protegida

El libro como dato

En el contexto de la IA, los libros pasan a ser:

  • unidades de información
  • material estadístico
  • insumos de entrenamiento

Esta transición redefine la relación entre cultura, tecnología y propiedad intelectual.


Conclusión

Proyecto Panama, según lo revelado por el Washington Post, no es únicamente un proyecto técnico de digitalización, sino un punto de inflexión en la forma en que la inteligencia artificial accede al conocimiento humano.

El caso de Anthropic ilustra la tensión creciente entre innovación tecnológica, derechos de autor y preservación cultural.

Más allá del debate legal, el trasfondo del caso plantea una cuestión esencial: cómo debe tratarse el conocimiento humano cuando se convierte en materia prima para sistemas de inteligencia artificial.

Vistas: 8
Scroll al inicio