Microsoft Research ha presentado un enfoque innovador para incorporar conocimientos directamente en modelos de lenguaje sin modificar los modelos existentes.
El sistema, denominado Modelos de Lenguaje Aumentados con Base de Conocimiento (KBLaM), ofrece una forma más eficiente y rápida de mejorar el rendimiento del modelo al integrar conocimientos externos.
¿Qué hace especial a KBLaM?
A diferencia de los modelos tradicionales como RAG (Generación Aumentada por Recuperación) o Aprendizaje en Contexto, KBLaM no necesita un sistema de recuperación de conocimiento separado.
En su lugar, incorpora el conocimiento directamente en el modelo mediante un método denominado “atención rectangular.”
KBLaM procesa el conocimiento dentro de la arquitectura del modelo, lo que le permite evitar el problema de escalabilidad cuadrática de RAG, donde las bases de conocimiento grandes requieren enormes recursos computacionales (por ejemplo, con 10,000 tokens, se necesitarían 100 millones de interacciones).
A medida que crece la base de conocimientos, KBLaM escala de manera lineal, lo que lo hace mucho más eficiente. Una sola GPU puede manejar más de 10,000 triples de conocimiento (alrededor de 200,000 tokens).
Beneficios Clave
Respuestas Más Rápidas
KBLaM puede procesar hasta 4,096 triples de conocimiento mucho más rápido de lo que los sistemas RAG tradicionales pueden manejar incluso 5 triples.
Mayor Precisión
Con 200 elementos de conocimiento, KBLaM es mejor para evitar alucinaciones (información incorrecta o inventada) y rechazar preguntas sin respuestas. También ofrece mayor transparencia sobre cómo se utiliza el conocimiento.
Compatibilidad con Modelos Populares
KBLaM funciona con Llama 3 de Meta, Phi-3 de Microsoft y otros modelos populares con planes de soportar Transformers de Hugging Face. El código y los conjuntos de datos ya están disponibles en GitHub.
¿Qué Sigue a KBLaM?
Si bien KBLaM funciona bien para tareas básicas de preguntas y respuestas, aún necesita mejoras para manejar razonamientos complejos. KBLaM no está listo para su implementación a gran escala todavía, pero muestra un gran potencial para hacer que la IA sea más eficiente y precisa.