Appen Limited ha anunciado el lanzamiento de dos nuevos productos que permitirán a los clientes lanzar grandes modelos lingüísticos (LLM) de alto rendimiento cuyas respuestas sean útiles, inofensivas y honestas para reducir el sesgo y la toxicidad. Estas soluciones son: AI Chat Feedback ? faculta a los expertos del dominio para evaluar una conversación en directo de varios turnos, permitiéndoles revisar, calificar y reescribir cada respuesta.

Benchmarking ? una solución diseñada para ayudar a los clientes a evaluar el rendimiento del modelo en varias dimensiones, como la precisión del modelo, la toxicidad, etc. El auge de los chatbots y asistentes basados en LLM ha acelerado la demanda de una IA conversacional más sofisticada que pueda dar soporte a múltiples tareas.

Es importante poner a prueba la comprensión contextual y la coherencia de un LLM en conversaciones complejas que se extienden a lo largo de varios turnos o diálogos, reflejando las aplicaciones del mundo real. Esto ayudará a identificar los puntos fuertes y débiles en el manejo de interacciones prolongadas, mejorando en última instancia la calidad de las experiencias de los usuarios y la utilidad práctica del modelo. AI Chat Feedback de Appen gestiona el flujo de datos de extremo a extremo a través de múltiples rondas de evaluación y proporciona a los clientes los datos necesarios para ayudar a mejorar los modelos.

La herramienta Benchmarking de Appen resuelve un punto de inflexión al que se enfrentan las empresas cuando están bajo presión para entrar rápidamente en el mercado de la IA: cómo determinar el LLM adecuado que se debe elegir para una aplicación empresarial específica. La selección del modelo tiene implicaciones estratégicas para muchas dimensiones de una aplicación, como la experiencia del usuario, la facilidad de mantenimiento y la rentabilidad. Con la solución Benchmarking, los clientes pueden evaluar el rendimiento de varios modelos a lo largo de dimensiones comúnmente utilizadas o totalmente personalizadas.

Combinada con una multitud curada de especialistas en formación de IA de Appen, la herramienta evalúa el rendimiento a lo largo de dimensiones demográficas de interés como el género, la etnia y el idioma. Un panel de control configurable permite la comparación eficaz de múltiples modelos a través de varias dimensiones de interés. Se ha demostrado que los comentarios humanos son fundamentales para el rendimiento de los modelos LLM.

La tecnología de primera clase de Appen se ve reforzada por su multitud global de más de 1 millón de especialistas en formación de IA que evalúan los conjuntos de datos en cuanto a precisión y sesgo. La herramienta AI Chat Feedback conecta directamente la salida de un LLM con los especialistas para que pueda aprender de datos de chat diversos y naturales. Appen aprovechó sus más de dos décadas de experiencia con plataformas de anotación intuitivas y eficientes para diseñar una interfaz de chat que demuestra familiaridad y facilidad.

Los especialistas chatean en directo con un modelo, ya sea de un cliente o de un tercero, y califican, marcan y aportan contexto a su evaluación. Este servicio de guante blanco se extiende a un personal dedicado al proyecto que analiza meticulosamente cada lote de datos, descubriendo casos extremos y optimizando la calidad de los datos.