Las prácticas ilegales de las grandes tecnológicas para entrenar a sus sistemas de inteligencia artificial - RED/ACCIÓN

Las prácticas ilegales de las grandes tecnológicas para entrenar a sus sistemas de inteligencia artificial

 Una iniciativa de Dircoms + RED/ACCION

Una nueva investigación de The New York Times halló que OpenAI transcribió más de un millón de horas de video de YouTube para alimentar a GPT-4. Una práctica que corrompe los términos y condiciones de la plataforma y que no respeta los derechos de autor.

¿De dónde salen todos los contenidos que se usan para entrenar a los sistemas de inteligencia artificial? Ninguna de las grandes empresas del sector dio una respuesta clara en este último año, en el cual las herramientas potenciadas por esta tecnología se popularizaron. Sin embargo, los reclamos por la transparencia y remuneración justa a quien corresponda son cada vez mayores. 

Una nueva investigación liderada por The New York Times viene a esclarecer esta cuestión, al menos parcialmente. Para alimentar a su inteligencia artificial OpenAI transcribió más de un millón de horas de video de YouTube. Una práctica que va en contra de las normas legales de la plataforma (y el equipo informático, liderado por Greg Brockhamm, presidente de la tecnológica, lo sabía). 

"Cuando un creador sube su trabajo a nuestra plataforma, tiene ciertas expectativas. Una de esas expectativas es que se van a cumplir las condiciones de los servicios", dijo Neal Mohan, CEO de YouTube, en una entrevista con Bloomberg la semana pasada. "Pero no permite que se descarguen cosas como transcripciones o fragmentos de vídeo", dejó en claro. 

En detalle, según informa Quartz, las condiciones de servicio de YouTube prohíben a cualquier usuario descargar sus contenidos, a menos que cuente con un permiso claro de la empresa. A su vez, YouTube también prohíbe utilizar sus contenidos para cualquier uso "independiente" de su servicio. Todas reglas infringidas directamente por OpenAI. 

La realidad es que en 2021 la empresa se dio cuenta de que habían agotado todos los textos confiables en inglés que había en internet y todavía necesitaban más contenido para que GPT4, el sistema que estaban desarrollando en aquel entonces, funcionara como ellos esperaban. Así, decidieron tomar contenido en video, una práctica que evidencia cómo muchas de estas grandes compañías estrucruran sus modelos. 

Google también siguió sus pasos. Usó transcripciones de YouTube pese a que esto violaba los derechos de autor. Además, tomó otras cartas en el asunto. Al experimentar la escasez de contenido, cambió sus condiciones de servicio para que pudiera aprovechar, por ejemplo, los Google Docs disponibles públicamente, reseñas de restaurantes en Google Maps y otros materiales en línea, y con ellos abastecer sus productos de inteligencia artificial.

"La única forma práctica de que existan estas herramientas es si se pueden entrenar con cantidades masivas de datos sin tener que licenciarlos", dijo para The New York Times Sy Damle, un abogado que representa a Andreessen Horowitz, una empresa de capital riesgo de Silicon Valley, sobre los modelos de inteligencia artificial. "Los datos necesarios son tan masivos que ni siquiera las licencias colectivas pueden funcionar", agregó durante su participación el año pasado en un debate público sobre la ley de derechos de autor.

Actualmente, OpenAI está sumergido en diferentes batallas legales. Una de ellas, quizás la más importante, es precisamente con The New York Times, que acusa a la empresa de usar sus contenidos para entrenar sus sistemas sin permiso. En esta línea, los escritores literarios el año pasado alzaron su voz de manera reiterativa en relación a esto, pidiendo una remuneración apropiada y una regulación que no extinga su trabajo (que de por sí ya es difícil de conseguir).

En otros ámbitos, como la industria de la música, estas cuestiones también están entrando en vigencia a medida que llegan nuevas herramientas. El pasado lanzamiento de Suno AI y el anuncio de Voice Engine de OpenAI, llevó a que varios artistas firmarán una carta abierta que pide a las empresas tecnológicas que dejen de utilizar la nueva tecnología para devaluar o crear herramientas que reemplacen a los artistas, así como la exigencia de una compensación justa por su trabajo.