Los datos, basados en cuestionarios de empleados de Databricks, llenan un vacío importante en los esfuerzos de la empresa por crear herramientas comercialmente utilizables para entrenar sistemas de IA que podrían ofrecer alternativas a OpenAI, respaldada por Microsoft.

Databricks dijo que pasó las últimas semanas recopilando 15.000 preguntas y respuestas de sus 5.000 empleados en 40 países y luego examinó la calidad de los datos, un esfuerzo que el director ejecutivo Ali Ghodsi estimó que costó a la empresa millones de dólares.

Databricks vende herramientas de software para construir sistemas de IA.

Ghodsi dijo a Reuters que la empresa está liberando los datos de entrenamiento gratuitos con la esperanza de que otras empresas los utilicen para crear sus propios sistemas de IA, posiblemente utilizando Databricks para ello.

El conjunto de datos gratuitos llegó después de que Databricks publicara el mes pasado Dolly, un modelo de lenguaje de gran tamaño de código abierto, la base tecnológica de los chatbots. Pero no pudo utilizarse en productos comerciales porque los datos utilizados para entrenar el modelo fueron generados por ChatGPT de OpenAI, cuyas condiciones de servicio prohíben utilizar sus datos para desarrollar sistemas comerciales de IA que puedan competir con OpenAI.

Utilizar los datos generados por la IA para entrenar otros sistemas de IA se ha convertido en algo habitual. Los nuevos chatbots publicados por la Universidad de Stanford y la Universidad de California Berkeley este año, por ejemplo, utilizaron esos datos generados por máquinas de ChatGPT, pero ambas dejaron claro que sus modelos no podían utilizarse con fines comerciales.

Ghodsi reconoce que el conjunto de datos dista mucho de ser perfecto porque está formado únicamente por la base de empleados de Databricks, que, según dijo, es mayoritariamente masculina. Los usuarios podrán examinar por sí mismos los datos de entrenamiento, algo que no pueden hacer modelos como ChatGPT o Bard de Alphabet Inc, cuyos datos de entrenamiento no se han hecho públicos.

"No estamos afirmando que se trate de un conjunto de datos imparcial", dijo Ghodsi. "Sólo estamos tratando de empujar a la comunidad a ir en esta dirección de más transparencia, y más de que todo el mundo sea dueño de sus propios modelos en lugar de sólo unos pocos en los que tenemos que confiar".