Los modelos de lenguaje grandes (LLM) son un tipo de inteligencia artificial diseñada para comprender y generar lenguajes naturales y de programación.
Los LLM se pueden utilizar para ayudar con una variedad de tareas y cada uno tiene su propio grado de idoneidad y rentabilidad. Para esta guía, probamos varios modelos individuales del mismo modelo básico cuando fue apropiado para encontrar el mejor LLM.
Esta área de la tecnología está avanzando particularmente rápido, por lo que, si bien nos esforzamos por mantener esta guía lo más actualizada posible, es posible que desee verificar si se ha lanzado un modelo más nuevo y si la relación costo-beneficio de ese modelo lo convierte en una mejor opción.

Estos son los mejores LLM de 2024
Estos son los mejores LLM de 2024 que hemos evaluado. Hemos elegido un LLM básico como el mejor en general y hemos seleccionado modelos individuales de una variedad de modelos básicos para cada categoría.
[content-egg module=Amazon products=”es-B0CHKTDZG1″ template=list]
1. GPT de OpenAI: El mejor en general
La mayoría de los LLM se basan en una variación de la arquitectura Transformer, una arquitectura de red neuronal que se documentó por primera vez en un artículo de investigación de 2017 escrito por 8 científicos que trabajaban en Google.
El Transformador Preentrenado Generativo, también conocido como GPT, es uno de los varios modelos fundamentales que utilizan las empresas de tecnología para impulsar los LLM disponibles actualmente en el mercado.
Si bien existen varios tipos diferentes de GPT disponibles en la actualidad, el primero, y posiblemente el más conocido, fue presentado por OpenAI en 2018 como GPT-1.
Los desarrolladores pueden adaptar los modelos GPT para abordar tareas y cargas de trabajo específicas, o utilizarlos con un enfoque más general para cubrir una gama más amplia de aplicaciones.
[content-egg module=Amazon products=”es-B0CT8XBZ7K” template=list]
Por ejemplo, Github Copilot utiliza una versión de GPT-4 de OpenAI que está específicamente diseñada para ayudar a los programadores a escribir código, mientras que el modelo EinsteinGPT integrado en la nube de Salesforce tiene como objetivo mejorar la experiencia de sus clientes mejorando la productividad de los empleados.
En noviembre de 2023, OpenAI anunció que permitiría a los suscriptores de ChatGPT crear GPT personalizados utilizando sus propios conjuntos de datos, datos de entrenamiento e incluso les permitiría acceder a sistemas de bases de datos para extraer datos para su análisis en tiempo real.
OpenAI también planea permitir a los desarrolladores publicar y monetizar sus GPT personalizados para que otros usuarios y desarrolladores los utilicen, por lo que es posible que veamos algunos lanzamientos interesantes en los próximos años que se basen en los modelos GPT básicos que ya están disponibles en la actualidad.
OpenAI está a la vanguardia del desarrollo de GPT y ha lanzado varias versiones diferentes para uso público en los últimos años.
[content-egg module=Amazon products=”es-B0D1NR5MCY” template=list]
Si bien cada versión posterior de OpenAI GPT ha incluido mejoras incrementales en su inteligencia y capacidades, esto ha tenido como precio una reducción del rendimiento y un aumento de la latencia de respuesta y el costo de uso.
GPT-3.5 era muy rápido y rentable, pero a menudo podía cometer errores o demostrar sesgo; GPT-4 mejoró las capacidades y la inteligencia del modelo a un mayor costo de uso y una mayor latencia de respuesta.
La última versión, GPT-4o, va en contra de la tendencia al ser la versión más inteligente hasta el momento, al tiempo que reduce el costo de uso y mejora la latencia por un margen considerable.
Los modelos GPT de OpenAI ofrecen de manera inmediata un enfoque “multiuso” fantástico que es suficiente para la mayoría de los casos de uso actuales, mientras que quienes buscan un enfoque más especializado o específico para una tarea pueden personalizarlos según sus necesidades.
[content-egg module=Amazon products=”es-844154896X” template=list]
Esto hace que los modelos GPT sean una excelente opción para quienes necesitan algo que simplemente funcione, sin la necesidad de entrenar los modelos en sus propios conjuntos de datos para que sean efectivos.
Sin embargo, es importante tener en cuenta que, al igual que con todos los LLM que se encuentran en el mercado hoy en día, los modelos GPT no son inmunes a brindar respuestas falsas, sesgadas o engañosas.
Si bien las versiones más recientes son cada vez más precisas y es menos probable que generen respuestas incorrectas, los usuarios deben tener cuidado al usar la información proporcionada en un resultado y tomarse el tiempo para verificar que sea precisa.
[content-egg module=Amazon products=”es-191673023X” template=list]
RAZONES PARA COMPRAR
- A menudo son los primeros en lanzar los modelos más nuevos y potentes.
- Altos niveles de inversión
- Tiempo de respuesta
RAZONES PARA EVITARLO
- El equipo de alineación y algunos fundadores abandonaron OpenAI después del último lanzamiento
- Otros modelos se acercan a la misma capacidad a un menor coste.
[content-egg module=Amazon products=”es-2409020844″ template=list]
2. Copilot de Github: El mejor para programación
GitHub es una de las plataformas para desarrolladores más grandes y reconocidas que se utilizan en la actualidad y muchas personas y empresas la utilizan para almacenar, administrar y compartir sus bases de código.
Por eso, tiene sentido que también hayan creado un LLM para codificación para ayudar a los desarrolladores a mejorar la velocidad y la eficiencia de su trabajo.
El asistente de GitHub Copilot es un asistente de codificación impulsado por el modelo GPT-4 de OpenAI al que se puede acceder a través de una extensión dentro de varios IDE (entornos de desarrollo integrados) de uso común: Visual Studio Code, Visual Studio, Vim, Neovim, la suite de IDE JetBrains y Azure Data Studio.
Además, a diferencia de otros asistentes de codificación, GitHub Copilot tiene una ventaja sobre la competencia al estar integrado de forma nativa en GitHub.
[content-egg module=Amazon products=”es-1647482690″ template=list]
GitHub Copilot, que se lanzó originalmente en octubre de 2021 y funciona con OpenAI Codex, una versión modificada del modelo GPT-3, es un asistente de codificación que brinda a los desarrolladores una variedad de herramientas diferentes que los ayudan a comprender bases de código o fragmentos de código nuevos y existentes, escribir bloques de código de manera rápida y eficiente y ayudar a solucionar problemas.
También puede ayudar a escribir casos de prueba para pruebas automatizadas y puede ayudarlo a inspirarse con soluciones a los problemas que encuentre. En noviembre de 2023, GitHub Copilot se actualizó para usar el modelo GPT-4 para mejorar aún más sus capacidades.
Con el lanzamiento reciente del modelo GPT-4o de OpenAI, tiene sentido especular que GitHub Copilot podría actualizarse para usar la última versión en el futuro, pero no ha habido confirmación de si eso sucederá o cuándo en este momento.
Una de las características más llamativas es la capacidad de GitHub Copilot de usar un mensaje para generar código que puede ser completamente nuevo o estar basado en la base de código existente del proyecto, sugiriendo bloques completos de código o líneas que se completan automáticamente a medida que las escribes.
[content-egg module=Amazon products=”es-1647480094″ template=list]
GitHub afirma que el modelo se ha entrenado utilizando código fuente de repositorios de código disponibles públicamente, incluidos repositorios públicos en GitHub, y afirma que GitHub Copilot puede admitir cualquier lenguaje que aparezca en un repositorio público.
Sin embargo, GitHub menciona que la calidad de las sugerencias que GitHub Copilot puede ofrecer depende de la diversidad y el volumen de los datos de entrenamiento disponibles para ese lenguaje.
Esto podría significar que, si bien GitHub Copilot seguirá intentando ayudar a los desarrolladores con sugerencias cuando trabajen en lenguajes de programación más desconocidos o menos utilizados, los beneficios que los desarrolladores pueden obtener al usar GitHub Copilot pueden ser menores en comparación con lenguajes que son más comunes y públicamente visibles.
Las suscripciones a GitHub Copilot están disponibles hoy en día en 3 niveles de funciones y rangos de precios diferentes, adaptados a desarrolladores individuales, empresas pequeñas y grandes y grandes empresas.
Si desea probar antes de comprar, GitHub Copilot ofrece una prueba gratuita de 30 días para el nivel de suscripción “Individual”.
[content-egg module=Amazon products=”es-B0CP7S5Y6B” template=list]
RAZONES PARA COMPRAR
- Sugerencias de código en tiempo real
- Comentarios al código
- Soporte y explicaciones de codificación según el contexto
RAZONES PARA EVITARLO
- Puede ser un éxito o un fracaso con las bases de código existentes
[content-egg module=Amazon products=”es-B0C1J3HN32″ template=list]
3. Meta Llama 3: La mejor relación calidad precio
Dado que Meta está incluida como una de las “cinco grandes” empresas tecnológicas globales, no debería sorprender que hayan estado trabajando en su propio LLM para respaldar sus productos, empresas grandes y pequeñas y otras aplicaciones como la investigación y el mundo académico.
La versión original de Llama se lanzó en febrero de 2023, pero solo se puso a disposición de grupos selectos dentro del mundo académico, departamentos gubernamentales y con fines de investigación.
Llama 2, lanzada en julio de 2023 y Llama 3, lanzada en abril de 2024, están disponibles para uso general y comercial en la actualidad.
El punto de venta más atractivo de Llama 3 es la relación calidad-precio del LLM en comparación con otros modelos del mercado. Si bien puede que no sea tan capaz como el gigante GPT-4o (aunque sigue siendo bastante comparable), sigue siendo un modelo muy capaz que puede igualar el rendimiento del GPT-4 a una fracción del costo.
[content-egg module=Amazon products=”es-8418381140″ template=list]
Según el proveedor, Llama 3 cuesta un promedio de $0,90 por 1 millón de tokens de salida, lo que es considerablemente más barato en comparación con GPT-4 y GPT-4o, que cuestan $30 y $15 respectivamente por la misma cantidad de tokens.
Esto puede hacer que Llama 3 sea una solución muy rentable para aquellos que necesitan procesar un gran volumen de tokens y desean un resultado de alta calidad, pero tienen un presupuesto limitado.
A partir de sus propias pruebas internas, Meta ha afirmado que Llama 3 también puede igualar a Google Gemini y Claude 3 (aunque actualmente no está claro cómo se compara con el reciente lanzamiento de Claude 3.5 Sonnet) en la mayoría de los puntos de referencia, lo que hace que la propuesta de valor de Meta sea cada vez más atractiva cuando se combina con su costo de uso.
Además de la importante reducción de costes que se consigue, LLaMA 3 también es de código abierto, lo que permite a los usuarios registrarse para obtener acceso a cada uno de los modelos de diferentes tamaños, descargarlos e instalarlos en sus sistemas o infraestructuras locales en lugar de depender de ofertas basadas en la nube de proveedores como AWS o Azure.
[content-egg module=Amazon products=”es-8412779878″ template=list]
Esta es una diferencia considerable con muchos de los otros modelos populares del mercado que requieren que utilices exclusivamente sus servicios para hacer uso de los modelos.
La versión de 8B (8 mil millones de parámetros) de Llama 3 es lo suficientemente pequeña como para que puedas ejecutarla cómodamente en un escritorio moderno de alta gama, aunque necesitarás una gran cantidad de RAM y VRAM de GPU para aprovecharla al máximo, aunque necesitas considerablemente más para el modelo más grande de 70B.
Esto básicamente te permite usar el modelo de forma “gratuita”, además de los costes iniciales de configuración del hardware, lo que podría ser muy útil para personas, estudiantes y académicos.
Además, aquellos que puedan tener preocupaciones sobre la privacidad pueden evitar los riesgos potenciales comúnmente asociados con el envío de datos a la nube para su procesamiento alojando Llama 3 en hardware local o infraestructura propia.
[content-egg module=Amazon products=”es-B0CQSLD6HW” template=list]
Naturalmente, el hardware que tiene disponible influye en el rendimiento general de Llama 3 en comparación con el uso de una solución en la nube ofrecida por proveedores como Microsoft Azure o Amazon AWS.
Aunque si su objetivo principal es mantener los costos lo más bajos posible, el sacrificio de rendimiento puede valer la pena.
Si bien los modelos Llama 3 8B y 70B existentes son muy capaces, Meta también está trabajando en una gigantesca versión 400B que el científico jefe de inteligencia artificial de Meta, Yann LeCun, cree que se convertirá en uno de los LLM más capaces del mundo una vez que se lance.
[content-egg module=Amazon products=”es-8419668850″ template=list]
RAZONES PARA COMPRAR
- Casi la misma capacidad que otros modelos por una fracción del costo.
RAZONES PARA EVITARLO
- Un poco lento para responder
[content-egg module=Amazon products=”es-B0CWTSTWHB” template=list]
4. Claude 3: El mejor para empresas
Lanzado en marzo de 2024, Claude 3 es la última versión de Claude LLM de Anthropic que se basa en el modelo Claude 2 lanzado en julio de 2023.
[content-egg module=Amazon products=”es-B0CT8XBZ7K” template=list]
Claude 3 tiene 3 versiones independientes, Haiku, Sonnet y Opus, cada una con un nivel de capacidad y un costo de uso diferentes.
Claude 3 Opus es la versión de más alto nivel y más capaz de Claude 3 que, según Anthropic, ha establecido nuevos puntos de referencia en la industria en una variedad de tareas cognitivas y tiene una mayor capacidad de razonamiento que otros modelos en el mercado actual.
Una de las áreas en las que Claude 3 se destaca es el tamaño de la ventana de contexto, que ayuda a mejorar el contexto de las respuestas en función del historial de conversaciones. Si bien la versión original de Claude estaba limitada a una ventana de contexto de 100 000 tokens, tanto Claude 2 como 3 tienen una ventana de contexto ampliada de hasta 200 000 tokens.
En términos reales, esto se traduce en aproximadamente 500 páginas de texto o aproximadamente 150 000 palabras. A modo de comparación, el límite de contexto estándar para GPT-4 es de 32 000 tokens, y tanto GPT-4o como Gemini 1.5 Pro de Google están limitados a 128 000 tokens.
[content-egg module=Amazon products=”es-B0D1NR5MCY” template=list]
Hay varios casos comerciales en los que este gran límite de entrada puede proporcionar ganancias significativas, como la identificación de tendencias dentro de un gran conjunto de datos, el resumen de respuestas extensas de encuestas de satisfacción del cliente, la selección de solicitudes de empleo en función de un criterio determinado y la ayuda para iterar sobre una idea o un diseño que se está discutiendo con Claude 3.
Además de su capacidad para procesar grandes conjuntos de datos, Anthropic afirma que Claude 3 Opus, el nivel más caro de Claude 3, es el modelo más inteligente del mercado actual y ha demostrado cierto nivel de conciencia en función de las tareas que se le han asignado.
Durante las pruebas, Alex Albert, uno de los ingenieros de Anthropic, le dio a Claude 3 Opus una tarea similar a la de encontrar una aguja en un pajar pidiéndole que localizara una frase específica escondida dentro de una colección aleatoria de documentos.
El modelo no solo pudo encontrar la “aguja”, sino que Claude 3 Opus también mencionó que la frase parecía estar fuera de lugar y sugirió que probablemente se había colocado allí con fines de prueba.
[content-egg module=Amazon products=”es-844154896X” template=list]
Esto demostró un sorprendente nivel de conciencia que no se encuentra habitualmente en los LLM, aunque queda por ver si se trataba de algo parecido a la conciencia real o si simplemente sigue el patrón de imitar la inteligencia humana, como intentan hacer la mayoría de los LLM.
Los creadores de Claude, Anthropic, tienen una base muy sólida en la alineación, con el objetivo de hacer de Claude una mejor opción para las empresas que están preocupadas no solo por los resultados que podrían dañar su marca o empresa, sino también a la sociedad en su conjunto.
Sin embargo, todo esto tiene un coste bastante elevado en comparación con la competencia. Claude 3 Opus cuesta actualmente 75 dólares por cada millón de tokens de salida a través de su API, lo que es un precio elevado en comparación con los 30 dólares de GPT-4 Turbo o los increíblemente bajos 0,9 dólares de Llama 3.
Del mismo modo, las versiones Haiku y Sonnet de Claude 3 también son más baratas, pero ofrecen tiempos de respuesta más rápidos a costa de una inteligencia reducida.
Para aquellos que no buscan acceso a la API, Anthropic ofrece un nivel de suscripción gratuito que incluye acceso limitado a una interfaz de chat en claude.ai impulsada por el recientemente lanzado Claude 3.5 Sonnet, sin embargo, los 3 modelos son accesibles con límites de uso más altos al suscribirse al nivel Pro.
[content-egg module=Amazon products=”es-191673023X” template=list]
RAZONES PARA COMPRAR
- Gran enfoque en la alineación
- Se reclama un tamaño de parámetro monumental
- También es ideal para codificación.
RAZONES PARA EVITARLO
- Más caro que los competidores
- Más lento que los competidores
[content-egg module=Amazon products=”es-2409020844″ template=list]
5. Qwen: El mejor LLM para chatbots
Qwen-1.5 que se lanzará en febrero de 2024, es un modelo LLM de Alibaba diseñado a medida y que tiene como objetivo igualar o superar a los modelos Gemini de Google y Llama de Meta tanto en términos de costo como de capacidad.
Además de los modelos básicos, Alibaba también lanzó un modelo equivalente diseñado para escenarios de chat, llamado Qwen-1.5-chat.
Al igual que Llama, Qwen-1.5 es un modelo de código abierto que cualquiera puede descargar de forma gratuita e instalar en su propio hardware e infraestructura.
Esto hace que Qwen-1.5 sea una opción muy competitiva para los desarrolladores, especialmente para aquellos que tienen presupuestos limitados, ya que los principales costos para poner en funcionamiento este modelo son la inversión inicial en hardware y el costo de funcionamiento y mantenimiento del hardware.
[content-egg module=Amazon products=”es-1647482690″ template=list]
Para ayudar a los desarrolladores, Qwen-1.5 ofrece varios tamaños diferentes del modelo para adaptarse a una amplia gama de dispositivos y configuraciones de hardware. La versión más grande y capaz de Qwen-1.5 chat actualmente se encuentra en 72B de parámetros, mientras que la versión más liviana es tan pequeña como 0.5B.
Qwen-1.5 tiene un límite de token de entrada de 32K (el modelo 14B está limitado a 8K) que está a la par con GPT-4 y es significativamente más grande que el límite de token de entrada de 4096 de Llama 2.
Aunque tiene el mismo límite de entrada que GPT-4, Qwen-1.5 tiene el mismo límite de token de salida que Gemini de Google en 8192, que es uno de los límites de salida más altos para LLM en el mercado hoy en día.
Cabe señalar que, al igual que con otros modelos en el mercado, las capacidades del modelo disminuyen a medida que se reduce el tamaño del parámetro, así que tenga esto en cuenta al seleccionar el tamaño del modelo para su caso de uso específico.
[content-egg module=Amazon products=”es-1647480094″ template=list]
En las pruebas comparativas, Qwen-1.5 supera de forma consistente a Llama 2 en la mayoría de los escenarios, a la vez que logra resultados competitivos en comparación con GPT-4.
Esto aumenta aún más el atractivo de Qwen-1.5, ya que puede ofrecer niveles de capacidad cercanos a los de GPT-4 a una fracción del costo y puede ajustar el modelo con un conjunto de datos personalizado para adaptarlo a sus necesidades de uso específicas.
Además, a medida que entrena el LLM en su propia máquina, puede conservar sus propios datos.
En un escenario de soporte al cliente, esto le proporcionaría un bot que es mucho más capaz de comprender el problema que un cliente podría tener que los chatbots más tradicionales basados en palabras clave o reglas que se ven comúnmente en Internet hoy en día.
[content-egg module=Amazon products=”es-B0CP7S5Y6B” template=list]
Qwen-1.5 podría entonces responder de manera inteligente a las consultas de los clientes en función de su base de conocimientos para mejorar las tasas de resolución del primer contacto y escalar los problemas más difíciles o avanzados a los agentes de soporte de segunda línea.
Para mejorar aún más sus capacidades de chat, Qwen-1.5 puede aceptar y responder en nada menos que 35 idiomas y puede ofrecer servicios de traducción en más de 150 idiomas más.
Al igual que con otros LLM, la cantidad de tokens para entradas y salidas depende del idioma que se use, ya que algunos tienen una mayor relación token-carácter.
[content-egg module=Amazon products=”es-B0C1J3HN32″ template=list]
Si bien recomendar Qwen-1.5 para chatbots puede parecer un poco impredecible, es importante recordar el caso de uso al que se aplica este LLM.
En el caso de un bot de atención al cliente, probablemente no necesite inteligencia avanzada que permita a los usuarios tener las largas conversaciones filosóficas que podría tener con algo como GPT-4o, ya que está fuera del alcance de lo que pretende utilizar.
Qwen-1.5-7B-chat está disponible para su uso hoy a través de una interfaz web en huggingface.co , mientras que los modelos más grandes se pueden descargar para ejecutarlos localmente.
[content-egg module=Amazon products=”es-8418381140″ template=list]
RAZONES PARA COMPRAR
- Capacitado en múltiples idiomas
- Barato de usar
RAZONES PARA EVITARLO
- Las habilidades de conversación no son tan fuertes como las de otros LLM
[content-egg module=Amazon products=”es-8412779878″ template=list]
6. GPT 4o: El mejor multimodal
OpenAI es uno de los nombres más reconocidos cuando se trata de LLM y es ampliamente conocido por varios modelos y productos lanzados en los últimos años, incluido DALL-E para generación de imágenes y ChatGPT, un chatbot basado en GPT-3.5 y GPT-4.
Lanzado en mayo de 2024, GPT-4o es la última oferta de OpenAI que amplía las capacidades multimodales de GPT-4 Turbo al agregar integración completa para indicaciones de texto, imagen y audio, al tiempo que reduce aún más el costo para los usuarios, lo que lo convierte en una opción atractiva para quienes buscan un modelo de lenguaje que pueda cumplir múltiples funciones.
OpenAI afirma que GPT-4o es el doble de rápido, cuesta la mitad y tiene un límite de velocidad cinco veces mayor en comparación con GPT-4 Turbo.
[content-egg module=Amazon products=”es-B0CQSLD6HW” template=list]
Una de las mejoras más significativas de GPT-4o es el modo de voz, que permite que el modelo procese audio en tiempo real y emita una respuesta realista y de tono apropiado con una voz que suena como la de un humano, lo que podría hacerte dudar si estás hablando con una persona real.
La salida de voz humana es ciertamente impresionante en comparación con la mayoría de las aplicaciones de texto a voz que hay actualmente en el mercado y hace un trabajo fantástico al imitar cómo hablaría una persona en la vida real al agregar inflexiones y matices que normalmente se escuchan en una conversación normal.
Además, GPT-4o puede utilizar una cámara para analizar el entorno que te rodea y ayudar a agregar contexto a las respuestas dadas.
OpenAI demostró las funciones de modo de audio y visión en un video junto con el anuncio de lanzamiento de GPT-4o, sin embargo, estas funciones aún no están completamente disponibles para uso general.
[content-egg module=Amazon products=”es-8419668850″ template=list]
La integración de texto completo en GPT-4o agrega mejoras incrementales a la evaluación y el razonamiento en comparación con GPT-4 y GPT-4 Turbo y ofrece traducción en vivo a 50 idiomas diferentes.
Al igual que con el modo de audio, GPT-4o mejora aún más la capacidad de reconocer el contexto y el sentimiento a partir de las entradas de texto y proporciona resúmenes precisos, lo que permite que las respuestas sean más precisas y se presenten en el tono apropiado.
Al igual que con las versiones anteriores de GPT, GPT-4o puede almacenar y hacer referencia a conversaciones históricas y buscarlas en tiempo real para brindar más contexto a las respuestas.
OpenAI ya está implementando las funciones de texto e imagen de GPT-4o en ChatGPT. Por primera vez para OpenAI, quienes utilicen el nivel gratuito de ChatGPT tendrán acceso a GPT-4o, aunque con una capacidad limitada que se restablece a diario, lo que es un paso fantástico dado que GPT-4 requería una suscripción paga para su uso cuando se lanzó.
Los usuarios con suscripción Plus tendrán acceso a límites de mensajes hasta 5 veces más altos que antes, y una versión alfa del Modo de voz estará disponible para los usuarios Plus en las próximas semanas.
[content-egg module=Amazon products=”es-B0CWTSTWHB” template=list]
El acceso a la API a las nuevas capacidades de texto e imagen de GPT-4o está disponible para que los desarrolladores lo utilicen hoy, mientras que las nuevas capacidades de audio y video estarán disponibles en la API para un grupo selecto de socios antes de un lanzamiento completo para el público más amplio, sin embargo, no hay un anuncio actual sobre una fecha específica en cuanto a cuándo estarán disponibles las nuevas capacidades de voz y video.
RAZONES PARA COMPRAR
- La mitad del precio de GPT-4 Turbo
- Las capacidades multimodales abren una variedad de casos de uso
RAZONES PARA EVITARLO
- El equipo de alineación se fue después del lanzamiento
- Más costoso que otros modelos
[content-egg module=Amazon products=”es-B0CT8XBZ7K” template=list]
7. Gemini: El mejor para la traducción
Gemini 1.5 que se lanzó en febrero de 2024, es una versión actualizada del Gemini LLM original que se lanzó en diciembre de 2023 y ofrece capacidades y rendimiento mejorados en comparación con el original.
A partir de mayo de 2024, hay 2 versiones de Gemini 1.5 disponibles para los suscriptores: Pro y Flash.
Aunque Gemini no parece traducir directamente el texto en sí, las traducciones proporcionadas son una combinación de las traducciones proporcionadas por Google Translate, los datos de entrenamiento multilingües a los que tiene acceso Gemini y las capacidades LLM de Gemini, para producir un resultado con un sonido más fluido y natural.
[content-egg module=Amazon products=”es-B0D1NR5MCY” template=list]
Esto da como resultado traducciones que fluyen mejor, tienen más sentido contextual y son menos incómodas que las traducciones más literales que normalmente ofrece Google Translate por sí solo, lo que da como resultado una traducción general mucho mejor.
Este enfoque combinado significa que Gemini 1.5 se puede utilizar para traducir cualquier idioma actualmente disponible a través de Google Translate, sin embargo, el nivel en el que Gemini 1.5 puede mejorar el resultado para mejorar su fluidez y su sonido natural depende del nivel de datos de entrenamiento multilingües disponibles para el modelo para cada idioma individual, aunque esta es una limitación similar que también tienen otros LLM.
Aunque otros LLM, como GPT-4o, también ofrecen algunas capacidades de traducción, una de las áreas clave en las que Gemini 1.5 tiene una ventaja es el costo.
[content-egg module=Amazon products=”es-844154896X” template=list]
Los costos pueden acumularse rápidamente si se deben traducir grandes cantidades de texto, por lo que poder traducir de manera rápida y económica es un factor increíblemente importante.
Si bien GPT-4o ha demostrado algunas capacidades de traducción impresionantes por sí mismo, también cuesta $15 por 1 millón de tokens de salida para la salida de texto.
En comparación, Gemini 1.5 cuesta solo $2 por 1 millón, lo que es significativamente más económico. Una cosa importante a tener en cuenta al traducir grandes cantidades de texto es que, si bien Gemini 1.5 puede aceptar hasta 1 millón de tokens de entrada a la vez, la salida está limitada actualmente a solo 8192 tokens.
[content-egg module=Amazon products=”es-191673023X” template=list]
La cantidad de tokens necesarios para una salida dependerá en gran medida del idioma de destino de la traducción, ya que algunos idiomas tienen proporciones de tokens por carácter más altas que otros. Exceder este límite puede generar mensajes de error o truncamiento que dejen su traducción incompleta.
Para obtener traducciones que requieran un resultado mayor que el límite de tokens, deberá dividir sus solicitudes en fragmentos más pequeños. Si bien 8192 tokens por respuesta pueden parecer bastante bajos si se considera que equivalen a alrededor de 6000 palabras, GPT-4o actualmente está limitado a 2048 tokens de salida por respuesta.
Gemini 1.5 Pro es de uso gratuito con algunas limitaciones, aunque se requiere una suscripción para acceder al límite de token de entrada aumentado de 1 millón y a límites de velocidad más altos.
[content-egg module=Amazon products=”es-2409020844″ template=list]
RAZONES PARA COMPRAR
- Amplios datos del traductor de Google
- Más barato que otros modelos
RAZONES PARA EVITARLO
- No hacer estrictamente la traducción por sí solo
[content-egg module=Amazon products=”es-1647482690″ template=list]
¿Cómo Escoger el Mejor LLM para cada caso concreto?
Básicamente, todo se reduce a la relación calidad-precio. ChatGPT-4o es brillante y puede hacer prácticamente lo mismo que los demás, pero a un coste importante.
Claude 3, aunque no está entrenado específicamente para codificar como Copilot, también tiene una buena reputación en la creación de código.
Otra cosa a tener en cuenta es el acceso a sus datos y quién es el propietario de qué puede entrenar su propio chatbot con OpenAI creando un asistente, pero al final del día eso se queda con OpenAI.
[content-egg module=Amazon products=”es-1647480094″ template=list]
Si utiliza un modelo abierto, puede conservar sus datos y ser completamente propietario de su propio modelo entrenado.
Preguntas Frecuentes
¿Cuáles son los límites de los tokens?
Los límites de tokens son una restricción que tienen los LLM en función de la cantidad de tokens que pueden procesar en una sola interacción. Sin límites, o si estos son demasiado grandes, el rendimiento de un LLM puede verse afectado, lo que da como resultado tiempos de respuesta lentos.
Sin embargo, si el límite se establece demasiado bajo, el LLM puede tener dificultades para generar el resultado deseado. Si se excede un límite de resultado, el LLM puede truncar un resultado, dejándolo incompleto, intentar reducir el tamaño del resultado al proporcionar un resultado menos detallado o simplemente podría generar un error.
Algunos LLM tienen la capacidad de segmentar las respuestas para superar los límites de resultado, pero esta no es una característica universal para todos los LLM.
[content-egg module=Amazon products=”es-B0CP7S5Y6B” template=list]
¿Qué es un límite de velocidad?
Un límite de velocidad es la cantidad de solicitudes que un usuario puede realizar durante un período de tiempo determinado, generalmente en minutos, horas o días.
Los límites de velocidad suelen ser impuestos por los proveedores para ayudar a reducir la carga en la infraestructura y así poder seguir brindando un nivel de servicio óptimo. Los límites de velocidad suelen definirse dentro del nivel de suscripción de cada producto, y los niveles más caros ofrecen límites de velocidad mayores.
Los límites de tarifas para el LLM elegido variarán según el proveedor, así que consulte sus hojas de precios para determinar qué nivel ofrece el mejor valor para sus necesidades.
[content-egg module=Amazon products=”es-B0C1J3HN32″ template=list]
Cómo utilizar un LLM local / LLM de código abierto
A diferencia de proveedores como OpenAI y Google, que utilizan suscripciones para brindar acceso a sus LLM y están alojados en su propia infraestructura, las personas y las empresas pueden descargar LLM de código abierto e implementarlos en su propia infraestructura.
Los usuarios tienen la opción de implementar el modelo en el hardware existente que ya poseen o comprar instancias de computación en la nube o VPS para proporcionar un mayor rendimiento si se requiere una mayor capacidad.
Para las empresas, esto puede representar una forma rentable de incorporar un LLM a su negocio, al mismo tiempo que mantiene los costos más bajos y reduce las preocupaciones sobre privacidad y seguridad de datos al mantener la información internamente en lugar de enviarla a un tercero.
[content-egg module=Amazon products=”es-8418381140″ template=list]
¿Qué son los tokens?
Los LLM no dividen el lenguaje en palabras individuales, sino que lo dividen en fragmentos de texto. Estos fragmentos pueden ser caracteres individuales o frases de varias palabras. Estos fragmentos de texto se denominan tokens.
Cuando utilizas un LLM a través de una API, pagas por la cantidad de tokens utilizados. Para los LLM multimodales es ligeramente diferente.
La cantidad de esfuerzo para tomar una imagen como entrada se convierte en una cantidad de tokens. Por lo tanto, si bien no se trata de medir tokens, se te cobran tokens.
[content-egg module=Amazon products=”es-8412779878″ template=list]
Por lo tanto, los tokens pueden considerarse una unidad de moneda intercambiada por el trabajo realizado por un LLM y también una unidad que representa una cantidad de texto.
La regla general para estimar cuántos tokens utilizará un mensaje es 1 token = 4 caracteres. Por ejemplo, “Que la fuerza te acompañe” contiene 25 caracteres y requeriría ~6 tokens. Sin embargo, esto es solo una estimación, y el uso de entradas en otros idiomas podría requerir más tokens para la misma entrada.
Necesitará consultar la documentación del LLM de su elección para obtener más información sobre cómo funciona su Tokenizador específico.
[content-egg module=Amazon products=”es-B0CQSLD6HW” template=list]
¿Qué es un LLM?
Un modelo de lenguaje grande (LLM) es una forma de inteligencia artificial entrenada utilizando conjuntos masivos de datos para permitir que el modelo reconozca y genere texto en una amplia gama de tareas.
[content-egg module=Amazon products=”es-8419668850″ template=list]
Los LLM se basan en conceptos de aprendizaje automático que utilizan un tipo de red neuronal conocida como modelo transformador.
Los LLM más avanzados también son capaces de aceptar y generar imágenes, videos y audio como entradas para que el modelo los reconozca. Estos modelos se conocen como modelos de lenguaje grande multimodal (MLLM).
[content-egg module=Amazon template=list]