La comunidad de IA supone que OpenAI utiliza grandes cantidades de vídeos de YouTube para entrenar modelos, incluida su nueva oferta Sora. Esto, es casi un secreto a voces a estas alturas. Aunque el mayor misterio es cómo OpenAI accede a suficiente contenido de YouTube para que esto funcione.
YouTube de Google prohíbe la extracción de sus videos por parte de bots y otros métodos automatizados, y también prohíbe las descargas con fines comerciales. El gigante de Internet también limita los intentos de descargar datos de vídeos de YouTube en grandes volúmenes.
Durante años han aparecido quejas sobre esto en los foros de codificación GitHub y Reddit, los usuarios han dicho que los intentos de descargar incluso un vídeo de YouTube serán tan lentos que tardarán horas en completarse.
OpenAI requiere enormes cantidades de texto, imágenes y videos para entrenar sus modelos de IA, eso significa que la startup debe haber descargado de alguna manera grandes volúmenes de contenido de YouTube o haber accedido a estos datos de alguna manera que eluda las limitaciones de Google.
Comentario de OpenAI
El contenido de YouTube está disponible gratuitamente en línea, por lo que descargar pequeñas cantidades de este con fines de investigación parece inofensivo, pero el aprovechar millones de vídeos para crear nuevos y potentes modelos de IA puede ser algo completamente distinto. Según The Information informó que OpenAI usa videos de YouTube para entrenar un modelo llamado Whisper.
Según la gente de OpenAI: «La capacitación de Sora incluyó material de fuentes autorizadas, así como contenido disponible públicamente en Internet».
Una Carrera por los Datos de Calidad
El rápido surgimiento de la IA generativa ha provocado una carrera global por datos de alta calidad para entrenar los modelos que sustentan servicios como ChatGPT y Microsoft Copilots.
No existen reglas claras sobre lo que es legal, ético o incluso las mejores prácticas en este nuevo ámbito.
Artículos Relacionados
Descubre más desde CIBERED
Suscríbete y recibe las últimas entradas en tu correo electrónico.



