Meta Platforms publicó el jueves las primeras versiones de su último gran modelo lingüístico, Llama 3, y de un generador de imágenes que actualiza las imágenes en tiempo real mientras los usuarios teclean las instrucciones, en su carrera por alcanzar al líder del mercado de IA generativa, OpenAI.

Los modelos se integrarán en el asistente virtual Meta AI, que la empresa está presentando como el más sofisticado de sus homólogos de uso gratuito. El asistente ocupará un lugar más destacado en las aplicaciones de Meta para Facebook, Instagram, WhatsApp y Messenger, así como en un nuevo sitio web independiente que lo posiciona para competir más directamente con ChatGPT, el gran éxito de OpenAI respaldado por Microsoft.

El anuncio se produce en un momento en el que Meta se ha estado esforzando por impulsar los productos de IA generativa entre sus miles de millones de usuarios para desafiar la posición de liderazgo de OpenAI en esta tecnología, lo que ha supuesto una revisión de la infraestructura informática y la consolidación de equipos de investigación y de producto anteriormente distintos.

El gigante de las redes sociales equipó a Llama 3 con nuevas capacidades de codificación informática y esta vez la alimentó con imágenes, además de texto, aunque por ahora el modelo sólo producirá texto, dijo en una entrevista el director de productos de Meta, Chris Cox.

Un razonamiento más avanzado, como la capacidad de elaborar planes más largos de varios pasos, llegará en versiones posteriores, añadió. Las versiones cuyo lanzamiento está previsto para los próximos meses también serán capaces de "multimodalidad", lo que significa que podrán generar tanto texto como imágenes, dijo Meta en las entradas de su blog.

"El objetivo final es ayudar a quitarle cosas de encima, simplemente ayudar a hacerle la vida más fácil, ya sea interactuando con empresas, escribiendo algo o planificando un viaje", dijo Cox.

Cox dijo que la inclusión de imágenes en el entrenamiento de Llama 3 mejoraría una actualización que se lanzará este año a las gafas inteligentes Ray-Ban Meta, una asociación con el fabricante de gafas Essilor Luxoticca, que permite a Meta AI identificar objetos vistos por el usuario y responder a preguntas sobre ellos.

Meta también anunció una nueva asociación con Google, de Alphabet, para incluir resultados de búsqueda en tiempo real en las respuestas del asistente, complementando un acuerdo ya existente con Bing, de Microsoft.

El asistente Meta AI se expande a más de una docena de mercados fuera de EE.UU. con la actualización, incluyendo Australia, Canadá, Singapur, Nigeria y Pakistán. Meta está "trabajando todavía en la forma correcta de hacerlo en Europa", dijo Cox, donde las normas de privacidad son más estrictas y la próxima Ley de IA está a punto de imponer requisitos como la divulgación de los datos de entrenamiento de los modelos.

La voraz necesidad de datos de los modelos de IA generativa ha surgido como una importante fuente de tensión en el desarrollo de la tecnología.

Meta ha estado liberando modelos como Llama 3 para su uso comercial gratuito por parte de los desarrolladores como parte de su esfuerzo por ponerse al día, ya que el éxito de una potente opción gratuita podría obstaculizar los planes de sus rivales de obtener ingresos con su tecnología patentada. La estrategia también ha suscitado preocupaciones de seguridad por parte de críticos recelosos de lo que desarrolladores sin escrúpulos puedan utilizar el modelo para construir.

El consejero delegado de Meta, Mark Zuckerberg, asintió a esa competencia en un vídeo que acompañaba al anuncio, en el que calificaba a Meta AI como "el asistente de IA más inteligente que puede utilizar libremente".

Zuckerberg dijo que la versión más grande de Llama 3 se está entrenando actualmente con 400.000 millones de parámetros y ya obtiene una puntuación de 85 MMLU, citando las métricas utilizadas para transmitir la fuerza y la calidad del rendimiento de los modelos de IA. Las dos versiones más pequeñas que se están poniendo en marcha ahora tienen 8.000 millones de parámetros y 70.000 millones de parámetros, y esta última obtuvo una puntuación de alrededor de 82 MMLU, o comprensión lingüística multitarea masiva, dijo.

Los desarrolladores se han quejado de que la anterior versión Llama 2 del modelo no comprendía el contexto básico, confundiendo las consultas sobre cómo "matar" a un programa informático con las peticiones de instrucciones para cometer un asesinato. Su rival Google se ha topado con problemas similares y hace poco suspendió el uso de su herramienta de generación de imágenes Gemini AI después de que suscitara críticas por producir representaciones inexactas de figuras históricas.

Meta dijo que redujo esos problemas en Llama 3 utilizando "datos de alta calidad" para conseguir que el modelo reconociera los matices. No dio más detalles sobre los conjuntos de datos utilizados, aunque dijo que introdujo siete veces más datos en Llama 3 de los que utilizó para Llama 2 y que aprovechó datos "sintéticos", o creados por la IA, para reforzar áreas como la codificación y el razonamiento.

Cox dijo que no había "ningún cambio importante de postura" en cuanto a la forma en que la empresa obtenía sus datos de entrenamiento. (Reportaje de Katie Paul, Edición de Nick Zieminski)