En su apogeo a principios de la década de 2000, Photobucket era el principal sitio de alojamiento de imágenes del mundo. La espina dorsal mediática de servicios antaño candentes como Myspace y Friendster, contaba con 70 millones de usuarios y representaba casi la mitad del mercado estadounidense de fotos en línea.

Hoy en día, sólo 2 millones de personas siguen utilizando Photobucket, según el rastreador analítico Similarweb. Pero la revolución de la IA generativa puede darle un nuevo aliento.

El director ejecutivo Ted Leonard, que dirige la empresa de 40 empleados desde Edwards, Colorado, declaró a Reuters que está en conversaciones con varias empresas tecnológicas para obtener la licencia de los 13.000 millones de fotos y vídeos de Photobucket y utilizarlos para entrenar modelos de IA generativa que puedan producir nuevos contenidos en respuesta a indicaciones de texto.

Ha hablado de tarifas de entre 5 céntimos y 1 dólar por foto y de más de 1 dólar por vídeo, dijo, con precios que varían mucho según el comprador y los tipos de imágenes buscados.

"Hemos hablado con empresas que nos han dicho 'necesitamos mucho más'", añadió Leonard, y un comprador le dijo que querían más de mil millones de vídeos, más de los que tiene su plataforma.

"Te rascas la cabeza y dices: ¿de dónde sacas eso?".

Photobucket declinó identificar a sus posibles compradores, alegando confidencialidad comercial. Las negociaciones en curso, de las que no se ha informado previamente, sugieren que la empresa podría estar sentada sobre contenidos por valor de miles de millones de dólares y dan una idea de un bullicioso mercado de datos que está surgiendo en la carrera por dominar la tecnología de IA generativa.

Gigantes tecnológicos como Google, Meta y OpenAI, respaldada por Microsoft, utilizaron inicialmente resmas de datos raspados de Internet de forma gratuita para entrenar modelos de IA generativa como ChatGPT, que pueden imitar la creatividad humana. Han afirmado que hacerlo es tanto legal como ético, aunque se enfrentan a demandas de una serie de titulares de derechos de autor por esta práctica.

Al mismo tiempo, estas empresas tecnológicas también están pagando silenciosamente por contenidos encerrados tras muros de pago y pantallas de inicio de sesión, dando lugar a un comercio oculto de todo tipo de contenidos, desde registros de chats hasta fotos personales olvidadas hace mucho tiempo de aplicaciones de redes sociales desvanecidas.

"Ahora mismo hay una fiebre por ir a por los titulares de derechos de autor que tienen colecciones privadas de material que no está disponible para ser raspado", dijo Edward Klaris, del bufete de abogados Klaris Law, que dice estar asesorando a propietarios de contenidos en acuerdos por valor de decenas de millones de dólares cada uno para licenciar archivos de fotos, películas y libros para el entrenamiento de IA.

Reuters habló con más de 30 personas con conocimiento de los acuerdos sobre datos de IA, incluidos ejecutivos actuales y anteriores de las empresas implicadas, abogados y consultores, para ofrecer la primera exploración en profundidad de este incipiente mercado, detallando los tipos de contenidos que se están comprando, los precios que se están materializando, además de las preocupaciones emergentes sobre el riesgo de que los datos personales se abran camino en los modelos de IA sin el conocimiento o el consentimiento explícito de las personas.

OpenAI, Google, Meta, Microsoft, Apple y Amazon declinaron hacer comentarios sobre acuerdos y discusiones específicos sobre datos para este artículo, aunque Microsoft y Google remitieron a Reuters a los códigos de conducta de los proveedores que incluyen disposiciones sobre privacidad de datos.

Google añadió que "tomaría medidas inmediatas, hasta la rescisión inclusive" de su acuerdo con un proveedor si descubriera una violación.

Muchas de las principales empresas de investigación de mercado afirman que ni siquiera han empezado a calcular el tamaño del opaco mercado de datos de IA, en el que las empresas no suelen revelar los acuerdos. Los investigadores que sí lo hacen, como Business Research Insights, cifran el mercado en unos 2.500 millones de dólares en la actualidad y prevén que podría crecer cerca de los 30.000 millones de dólares en una década.

LA FIEBRE DEL ORO DE LOS DATOS GENERATIVOS

La fiebre del oro de los datos se produce cuando los fabricantes de grandes modelos generativos de "cimientos" de IA se enfrentan a una presión cada vez mayor para dar cuenta de las cantidades masivas de contenido que introducen en sus sistemas, un proceso conocido como "entrenamiento" que requiere una potencia informática intensiva y que a menudo tarda meses en completarse.

Las empresas tecnológicas afirman que la tecnología tendría un coste prohibitivo si no pudieran utilizar vastos archivos de datos gratuitos de páginas web raspadas, como los proporcionados por el repositorio sin ánimo de lucro Common Crawl, que describen como "a disposición del público".

No obstante, su planteamiento ha provocado una oleada de demandas por derechos de autor y de presión normativa, al tiempo que ha impulsado a los editores a añadir código a sus sitios web para bloquear el scraping.

En respuesta, los creadores de modelos de IA han empezado a cubrir riesgos y a asegurar las cadenas de suministro de datos, tanto mediante acuerdos con los propietarios de los contenidos como a través de una floreciente industria de intermediarios de datos que ha surgido para satisfacer la demanda.

En los meses posteriores al debut de ChatGPT a finales de 2022, por ejemplo, empresas como Meta, Google, Amazon y Apple llegaron a acuerdos con el proveedor de imágenes de archivo Shutterstock para utilizar cientos de millones de imágenes, vídeos y archivos de música de su biblioteca para el entrenamiento, según una persona familiarizada con los acuerdos.

Los acuerdos con las grandes empresas tecnológicas oscilaban inicialmente entre 25 y 50 millones de dólares cada uno, aunque la mayoría se ampliaron posteriormente, según declaró a Reuters el director financiero de Shutterstock, Jarrod Yahes. Las empresas tecnológicas más pequeñas han seguido su ejemplo, estimulando una nueva "oleada de actividad" en los últimos dos meses, añadió.

Yahes declinó hacer comentarios sobre contratos individuales. El acuerdo con Apple, y el tamaño de los otros acuerdos, no se han hecho públicos previamente.

Un competidor de Shutterstock, Freepik, dijo a Reuters que había llegado a acuerdos con dos grandes empresas tecnológicas para licenciar la mayor parte de su archivo de 200 millones de imágenes a entre 2 y 4 céntimos por imagen. Hay otros cinco acuerdos similares en preparación, dijo su director general, Joaquín Cuenca Abela, declinando identificar a los compradores.

OpenAI, uno de los primeros clientes de Shutterstock, también ha firmado acuerdos de licencia con al menos cuatro organizaciones de noticias, entre ellas The Associated Press y Axel Springer. Thomson Reuters, propietaria de Reuters News, dijo por separado que ha llegado a acuerdos para licenciar el contenido de las noticias con el fin de ayudar a entrenar grandes modelos lingüísticos de IA, pero no reveló los detalles.

CONTENIDOS DE "ORIGEN ÉTICO

También está surgiendo una industria de empresas dedicadas a los datos de IA, que se aseguran los derechos de los contenidos del mundo real, como podcasts, vídeos de corta duración e interacciones con asistentes digitales, al tiempo que crean redes de trabajadores contratados a corto plazo para producir imágenes personalizadas y muestras de voz desde cero, algo parecido a una economía "gig" de datos al estilo de Uber.

Defined.ai, con sede en Seattle, concede licencias de datos a una serie de empresas como Google, Meta, Apple, Amazon y Microsoft, según declaró a Reuters su directora ejecutiva, Daniela Braga.

Las tarifas varían según el comprador y el tipo de contenido, pero Braga dijo que las empresas suelen estar dispuestas a pagar de 1 a 2 dólares por imagen, de 2 a 4 dólares por vídeo de formato corto y de 100 a 300 dólares por hora de películas más largas. La tarifa de mercado para el texto es de 0,001 dólares por palabra, añadió.

Las imágenes de desnudos, que requieren un tratamiento más delicado, se pagan entre 5 y 7 dólares, dijo.

Defined.ai reparte esas ganancias con los proveedores de contenidos, dijo Braga. Comercializa sus conjuntos de datos como "de origen ético", ya que obtiene el consentimiento de las personas cuyos datos utiliza y elimina la información de identificación personal, añadió.

Uno de los proveedores de la empresa, un empresario con sede en Brasil, dijo que paga a los propietarios de las fotos, los podcasts y los datos médicos que obtiene entre el 20% y el 30% del importe total de las transacciones.

Las imágenes más caras de su cartera son las que se utilizan para entrenar sistemas de IA que bloquean contenidos como la violencia gráfica prohibida por las empresas tecnológicas, dijo el proveedor, que habló a condición de que no se identificara a su empresa, citando la sensibilidad comercial.

Para satisfacer esas solicitudes, obtiene imágenes de escenas de crímenes, violencia en conflictos y cirugías -principalmente de la policía, fotoperiodistas autónomos y estudiantes de medicina, respectivamente-, a menudo en lugares de Sudamérica y África donde la distribución de imágenes gráficas es más común, dijo.

Dijo que ha recibido imágenes de fotógrafos freelance en Gaza desde el comienzo de la guerra allí en octubre, además de algunas de Israel al principio de las hostilidades.

Su empresa contrata a enfermeras acostumbradas a ver heridas violentas para que anonimicen y anoten las imágenes, que resultan perturbadoras para ojos no entrenados, añadió.

'ME PARECERÍA ARRIESGADO'

Aunque la concesión de licencias podría resolver algunos problemas legales y éticos, resucitar los archivos de antiguos nombres de Internet como Photobucket como combustible para los últimos modelos de IA plantea otros, sobre todo en torno a la privacidad de los usuarios, según muchos de los agentes del sector entrevistados.

Los sistemas de IA han sido sorprendidos regurgitando copias exactas de sus datos de entrenamiento, escupiendo, por ejemplo, la marca de agua de Getty Images, párrafos literales de artículos del New York Times e imágenes de personas reales. Eso significa que las fotos privadas de una persona o sus pensamientos íntimos publicados hace décadas podrían acabar en los resultados generativos de la IA sin previo aviso ni consentimiento explícito.

El director general de Photobucket, Leonard, afirma que se encuentra en un terreno legal sólido, citando una actualización de las condiciones de servicio de la empresa en octubre que le concede el "derecho sin restricciones" de vender cualquier contenido subido con el fin de entrenar sistemas de IA. Él ve la concesión de licencias de datos como una alternativa a la venta de anuncios.

"Necesitamos pagar nuestras facturas, y esto podría darnos la posibilidad de seguir dando soporte a las cuentas gratuitas", afirmó.

Braga, de Defined.ai, dijo que evita adquirir contenidos de empresas de "plataformas" como Photobucket y que prefiere obtener las fotos de las redes sociales de las personas influyentes que las crean, quienes, según ella, tienen un derecho más claro sobre los derechos de licencia.

"Me parecería muy arriesgado", dijo Braga sobre el contenido de plataformas. "Si hay alguna IA que genera algo que se parece a una foto de alguien que nunca aprobó eso, es un problema".

Photobucket no es la única plataforma que adopta la concesión de licencias. La empresa matriz de Tumblr, Automattic, dijo el mes pasado que estaba compartiendo contenidos con "empresas selectas de IA". En febrero, Reuters informó de que Reddit había llegado a un acuerdo con Google para poner sus contenidos a disposición del entrenamiento de los modelos de IA de este último.

Antes de su oferta pública inicial en marzo, Reddit reveló que su negocio de concesión de licencias de datos es objeto de una investigación de la Comisión Federal de Comercio de EE.UU. y reconoció que podría incurrir en infracciones de las normativas sobre privacidad y propiedad intelectual en evolución.

La FTC, que advirtió a las empresas en febrero contra el cambio retroactivo de las condiciones de servicio para el uso de la IA, declinó hacer comentarios sobre la investigación de Reddit o decir si estaba investigando otros acuerdos de datos de entrenamiento. (Reportaje de Katie Paul en Nueva York y Anna Tong en San Francisco; Reportaje adicional de Krystal Hu en Nueva York; Edición de Kenneth Li y Pravin Char)