(Añade detalles sobre el rendimiento de la IA en problemas matemáticos apartado 11)

12 de julio - El fabricante de chatGPT OpenAI está trabajando en un novedoso enfoque de sus modelos de inteligencia artificial en un proyecto cuyo nombre en código es Strawberry, según una persona familiarizada con el asunto y documentación interna revisada por Reuters.

El proyecto, sobre cuyos detalles no se ha informado anteriormente, llega en un momento en que la startup respaldada por Microsoft se apresura a demostrar que los tipos de modelos que ofrece son capaces de ofrecer capacidades de razonamiento avanzadas.

Equipos internos de OpenAI están trabajando en Strawberry, según una copia de un documento interno reciente de OpenAI visto por Reuters en mayo. Reuters no pudo averiguar la fecha exacta del documento, que detalla un plan sobre cómo OpenAI pretende utilizar Strawberry para realizar investigaciones. La fuente describió el plan a Reuters como un trabajo en curso. La agencia de noticias no pudo establecer lo cerca que está Strawberry de estar disponible públicamente.

Cómo funciona Strawberry es un secreto muy bien guardado incluso dentro de OpenAI, dijo la persona.

El documento describe un proyecto que utiliza modelos de Strawberry con el objetivo de permitir a la IA de la empresa no sólo generar respuestas a las consultas, sino planificar con suficiente antelación para navegar por Internet de forma autónoma y fiable para realizar lo que OpenAI denomina investigación profunda, según la fuente.

Esto es algo que ha eludido a los modelos de IA hasta la fecha, según las entrevistas con más de una docena de investigadores de IA.

Preguntado por Strawberry y los detalles de los que se informa en esta historia, un portavoz de la empresa OpenAI dijo en un comunicado: Queremos que nuestros modelos de IA vean y comprendan el mundo más como lo hacemos nosotros. La investigación continua de nuevas capacidades de IA es una práctica común en la industria, con la creencia compartida de que estos sistemas mejorarán su razonamiento con el tiempo.

El portavoz no respondió directamente a las preguntas sobre Strawberry.

El proyecto Strawberry se conocía anteriormente como Q*, del que Reuters informó el año pasado que ya se veía dentro de la empresa como un gran avance.

Dos fuentes describieron haber visto a principios de este año lo que el personal de OpenAI les dijo que eran demos de Q*, capaces de responder a complicadas preguntas de ciencias y matemáticas fuera del alcance de los modelos comerciales actuales.

Otra fuente informada del asunto dijo que OpenAI ha probado internamente IA que obtuvo una puntuación superior al 90% en un conjunto de datos MATH, una referencia de problemas matemáticos de campeonato. Reuters no pudo determinar si se trataba del proyecto "Strawberry".

El martes, en una reunión interna de todo el personal, OpenAI mostró una demostración de un proyecto de investigación que, según afirmaba, tenía nuevas habilidades de razonamiento similares a las humanas, según Bloomberg. Un portavoz de OpenAI confirmó la reunión, pero declinó dar detalles sobre su contenido. Reuters no pudo determinar si el proyecto demostrado era de fresa.

OpenAI espera que la innovación mejore drásticamente la capacidad de razonamiento de sus modelos de IA, dijo la persona familiarizada con el asunto, y añadió que Strawberry implica una forma especializada de procesar un modelo de IA después de haberlo preentrenado en conjuntos de datos muy grandes.

Los investigadores entrevistados por Reuters afirman que el razonamiento es clave para que la IA alcance una inteligencia de nivel humano o sobrehumano.

Aunque los grandes modelos lingüísticos ya pueden resumir textos densos y componer prosa elegante con mucha más rapidez que cualquier humano, la tecnología a menudo se queda corta en problemas de sentido común cuyas soluciones parecen intuitivas a las personas, como reconocer falacias lógicas y jugar al tres en raya. Cuando el modelo se encuentra con este tipo de problemas, a menudo alucina con información falsa.

Los investigadores de IA entrevistados por Reuters coinciden en general en que el razonamiento, en el contexto de la IA, implica la formación de un modelo que permita a la IA planificar con antelación, reflejar cómo funciona el mundo físico y resolver problemas desafiantes de varios pasos de forma fiable.

Mejorar el razonamiento en los modelos de IA se considera la clave para desbloquear la capacidad de los modelos para hacer de todo, desde realizar grandes descubrimientos científicos hasta planificar y crear nuevas aplicaciones de software. El director general de OpenAI, Sam Altman, afirmó a principios de este año que en la IA las áreas de progreso más importantes girarán en torno a la capacidad de razonamiento.

Otras empresas como Google, Meta y Microsoft también están experimentando con diferentes técnicas para mejorar el razonamiento en los modelos de IA, al igual que la mayoría de los laboratorios académicos que realizan investigaciones sobre IA. Sin embargo, los investigadores difieren sobre si los grandes modelos lingüísticos (LLM) son capaces de incorporar ideas y planificación a largo plazo en su forma de hacer predicciones. Por ejemplo, uno de los pioneros de la IA moderna, Yann LeCun, que trabaja en Meta, ha dicho con frecuencia que los LLM no son capaces de razonar como los humanos.

RETOS DE LA INTELIGENCIA ARTIFICIAL

Strawberry es un componente clave del plan de OpenAIs para superar esos retos, dijo la fuente familiarizada con el asunto. El documento visto por Reuters describía lo que Strawberry pretende hacer posible, pero no cómo.

En los últimos meses, la empresa ha estado señalando en privado a los desarrolladores y a otras partes externas que está a punto de lanzar una tecnología con capacidades de razonamiento significativamente más avanzadas, según cuatro personas que han escuchado los discursos de la empresa. Declinaron ser identificadas porque no están autorizadas a hablar de asuntos privados.

Strawberry incluye una forma especializada de lo que se conoce como post-entrenamiento de los modelos generativos de IA de OpenAI, o adaptación de los modelos base para perfeccionar su rendimiento de formas específicas después de que ya hayan sido entrenados en resmas de datos generalizados, dijo una de las fuentes.

La fase de post-entrenamiento del desarrollo de un modelo implica métodos como el ajuste fino, un proceso que se utiliza en casi todos los modelos lingüísticos actuales y que viene en muchos sabores, como hacer que los humanos den retroalimentación al modelo basándose en sus respuestas y alimentándolo con ejemplos de respuestas buenas y malas.

Strawberry tiene similitudes con un método desarrollado en Stanford en 2022 llamado "Razonador Autodidacta" o STaR, dijo una de las fuentes con conocimiento del asunto. El STaR permite a los modelos de IA arrancar por sí mismos hacia niveles de inteligencia superiores mediante la creación iterativa de sus propios datos de entrenamiento y, en teoría, podría utilizarse para conseguir que los modelos lingüísticos trasciendan la inteligencia de nivel humano, según declaró a Reuters uno de sus creadores, el profesor de Stanford Noah Goodman.

Creo que es a la vez emocionante y aterrador, si las cosas siguen avanzando en esa dirección tenemos algunas cosas serias en las que pensar como humanos, dijo Goodman. Goodman no está afiliado a OpenAI y no está familiarizado con Strawberry.

Entre las capacidades a las que OpenAI apunta con Strawberry está la realización de tareas de largo horizonte (LHT), dice el documento, refiriéndose a tareas complejas que requieren que un modelo planifique con antelación y realice una serie de acciones durante un largo periodo de tiempo, explicó la primera fuente.

Para ello, OpenAI está creando, entrenando y evaluando los modelos en lo que la empresa denomina un conjunto de datos de investigación profunda, según la documentación interna de OpenAI. Reuters no pudo determinar qué contiene ese conjunto de datos ni qué duración tendría un periodo prolongado.

OpenAI quiere específicamente que sus modelos utilicen estas capacidades para realizar investigaciones navegando por la web de forma autónoma con la ayuda de un CUA, o agente informático, que pueda emprender acciones basadas en sus hallazgos, según el documento y una de las fuentes. OpenAI también planea probar sus capacidades haciendo el trabajo de ingenieros de software y aprendizaje automático. (Reportaje de Anna Tong en San Francisco y Katie Paul en Nueva York; edición de Ken Li y Claudia Parsons)