Los modelos de inteligencia artificial requieren la mayor cantidad posible de datos útiles para funcionar, pero algunos de los mayores desarrolladores de IA dependen en parte de videos de YouTube transcritos sin el permiso de los creadores, violando las propias reglas de YouTube, como se descubrió en una investigación de Proof News.
El medio reveló que Apple, Nvidia, Anthropic y otras importantes empresas de inteligencia artificial han entrenado sus modelos con un conjunto de datos llamado Subtítulos de YouTube que incorpora transcripciones de casi 175.000 vídeos en 48.000 canales, todo sin que los creadores de los vídeos lo sepan.
El conjunto de datos de subtítulos de YouTube incluye el texto de los subtítulos de los vídeos, a menudo con traducciones a varios idiomas.
[content-egg module=Amazon products=”es-B0CQQQFT5D” template=list]
El conjunto de datos fue creado por EleutherAI que describió el objetivo del conjunto de datos como reducir las barreras al desarrollo de la IA para quienes no pertenecen a las grandes empresas tecnológicas.
Esto, es solo un componente del conjunto de datos de EleutherAI, mucho más grande, llamado Pile. Junto con las transcripciones de YouTube, Pile contiene artículos de Wikipedia, discursos del Parlamento Europeo y según el informe, incluso correos electrónicos de Enron.
Sin embargo, Pile tiene muchos seguidores entre las principales empresas tecnológicas. Por ejemplo, Apple empleó Pile para entrenar su modelo de IA OpenELM, mientras que el modelo de IA de Salesforce lanzado hace dos años se entrenó con Pile y desde entonces ha sido descargado más de 86.000 veces.
[content-egg module=Amazon products=”es-8412779878″ template=list]
El conjunto de datos de subtítulos de YouTube abarca una variedad de canales populares de noticias, educación y entretenimiento. Eso incluye contenido de las principales estrellas de YouTube como MrBeast y Marques Brownlee. Todos ellos han utilizado sus videos para entrenar modelos de IA.
Proof News configuró una herramienta de búsqueda que buscará en la colección para ver si algún video o canal en particular está en la mezcla. Incluso hay algunos videos de otros medios en la colección.
Intercambio de Secretos
El conjunto de datos de subtítulos de YouTube parece contradecir las condiciones de servicio de YouTube que explícitamente prohíben la extracción automática de sus vídeos y datos asociados.
[content-egg module=Amazon products=”es-8419642673″ template=list]
Sin embargo, eso es exactamente en lo que se basó el conjunto de datos, con un script que descargaba subtítulos a través de la API de YouTube. La investigación informó que la descarga automática seleccionaba los vídeos con casi 500 términos de búsqueda.
El descubrimiento provocó mucha sorpresa y enojo entre los creadores de YouTube. Las preocupaciones sobre el uso no autorizado de contenido son válidas y algunos de los creadores se sintieron molestos ante la idea de que su trabajo se usara sin pago ni permiso en modelos de IA.
Esto es especialmente cierto para aquellos que descubrieron que el conjunto de datos incluye transcripciones de videos eliminados y en un caso concreto, los datos provienen de un creador que desde entonces eliminó por completo su presencia en línea.
[content-egg module=Amazon products=”es-8413611687″ template=list]