Snowflake Inc. ha anunciado Snowflake Arctic, un gran modelo lingüístico (LLM) diseñado exclusivamente para ser el LLM de nivel empresarial más abierto del mercado. Con su exclusiva arquitectura de Mezcla de Expertos (MoE), Arctic ofrece inteligencia de primer nivel con una eficacia sin precedentes a escala. Está optimizado para cargas de trabajo empresariales complejas, superando varios puntos de referencia del sector en generación de código SQL, seguimiento de instrucciones y mucho más.

Además, Snowflake está liberando los pesos de Arctic bajo una licencia Apache 2.0 y los detalles de la investigación que condujo a cómo fue entrenado, estableciendo un nuevo estándar de apertura para la tecnología de IA empresarial. El LLM Arctic de Snowflake forma parte de la familia de modelos Arctic de Snowflake, una familia de modelos construida por Snowflake que también incluye los mejores modelos prácticos de inserción de texto para casos de uso de recuperación. El equipo de investigación de IA de Snowflake, que incluye una composición única de investigadores e ingenieros de sistemas, tardó menos de tres meses y gastó aproximadamente una octava parte del coste de entrenamiento de modelos similares al construir Arctic.

Entrenado utilizando instancias P5 de Amazon Elastic Compute Cloud (Amazon EC2), Snowflake está estableciendo una nueva línea de base para la rapidez con la que se pueden entrenar modelos abiertos de nivel empresarial, permitiendo en última instancia a los usuarios crear modelos personalizados rentables a escala. Como parte de este esfuerzo estratégico, el diseño diferenciado MoE de Arctic mejora tanto los sistemas de entrenamiento como el rendimiento de los modelos, con una composición de datos meticulosamente diseñada y centrada en las necesidades de la empresa. Arctic también ofrece resultados de alta calidad, activando 17 de los 480.000 millones de parámetros a la vez para lograr calidad con una eficiencia simbólica sin precedentes.

En un avance de eficiencia, Arctic activa aproximadamente un 50% menos de parámetros que DBRX, y un 75% menos que Llama 3 70B durante la inferencia o el entrenamiento. Además, supera a los principales modelos abiertos, como DBRX, Mixtral-8x7B y otros, en codificación (HumanEval+, MBPP+) y generación SQL (Spider), al tiempo que ofrece un rendimiento líder en comprensión general del lenguaje (MMLU).