Meta está avanzando en inteligencia artificial (IA) con un nuevo LLM multimodal llamado Chameleon.
Este modelo, basado en una arquitectura de fusión temprana, promete integrar diferentes tipos de información mejor que sus predecesores.
Con este movimiento, Meta se posiciona como un fuerte contendiente en el mundo de la IA.

Entendiendo la arquitectura del camaleón
Chameleon emplea una arquitectura de modo mixto basada en tokens de fusión temprana, lo que la distingue de los modelos tradicionales. A diferencia del enfoque de fusión tardía, donde modelos separados procesan diferentes modalidades antes de combinarlas, Chameleon integra texto, imágenes y otras entradas desde el principio.
Este espacio simbólico unificado permite a Chameleon razonar y generar secuencias entrelazadas de texto e imágenes sin problemas.
Los investigadores de Meta destacan la arquitectura innovadora del modelo. Al codificar imágenes en tokens discretos similares a las palabras en un modelo de lenguaje , Chameleon crea un vocabulario mixto que incluye texto, código y tokens de imágenes.
Este diseño permite que el modelo aplique la misma arquitectura de transformador a secuencias que contienen tokens de imagen y texto. Mejora la capacidad de los modelos para realizar tareas que requieren una comprensión simultánea de múltiples modalidades.
Innovaciones y técnicas de formación
Entrenar un modelo como Chameleon presenta desafíos importantes. Para abordar estos problemas, el equipo de Meta introdujo varias mejoras arquitectónicas y técnicas de capacitación.
Desarrollaron un novedoso tokenizador de imágenes y emplearon métodos como QK-Norm, abandono y regularización de pérdida z para garantizar un entrenamiento estable y eficiente. Los investigadores también seleccionaron un conjunto de datos de alta calidad de 4,4 billones de tokens, incluido texto, pares de imagen-texto y secuencias entrelazadas.
El entrenamiento de Chameleon se produjo en dos etapas, con versiones del modelo que cuentan con 7 mil millones y 34 mil millones de parámetros.
El proceso de capacitación abarcó más de 5 millones de horas en GPU Nvidia A100 de 80 GB. Estos esfuerzos han dado como resultado un modelo capaz de realizar diversas tareas multimodales y de solo texto con una eficiencia y precisión impresionantes.
Rendimiento en todas las tareas
Es notable el desempeño de Chameleon en tareas de visión y lenguaje. Supera modelos como Flamingo-80B e IDEFICS-80B en subtítulos de imágenes y pruebas comparativas VQA. Además, compite bien en tareas de texto puro, logrando niveles de rendimiento comparables a los modelos de lenguaje más modernos.
La capacidad del modelo para generar respuestas de modos mixtos con texto e imágenes entrelazados lo distingue de sus competidores.
Los investigadores de Meta informan que Chameleon logra estos resultados con menos ejemplos de entrenamiento en contexto y tamaños de modelo más pequeños, destacando su eficiencia.
La versatilidad y capacidad del modelo para manejar el razonamiento mixto lo convierten en una herramienta valiosa para diversas aplicaciones de IA, desde asistentes virtuales mejorados hasta sofisticadas herramientas de generación de contenido.
Perspectivas e implicaciones futuras
Meta ve a Chameleon como un paso importante hacia la IA multimodal unificada . En el futuro, la empresa planea explorar la integración de modalidades adicionales, como el audio, para mejorar aún más sus capacidades. Esto podría abrir las puertas a una variedad de nuevas aplicaciones que requieren una comprensión multimodal integral.
La arquitectura de fusión temprana de Chameleon también es bastante prometedora, especialmente en campos como la robótica. Los investigadores podrían desarrollar robots impulsados por IA más avanzados y con mayor capacidad de respuesta integrando esta tecnología en sus sistemas de control.
La capacidad del modelo para manejar entradas multimodales también podría conducir a interacciones y aplicaciones más sofisticadas.