La trágica historia de Suchir Balaji y el debate sobre derechos de autor en la IA

Informe preparado por Kaira bajo la supervisión de JLP, analizando la información disponible en Internet, sobre la muerte de Suchir Balaji y la controversia sobre derechos de autor en el desarrollo de IA.

Introducción

Un prodigio de la tecnología

De la esperanza a la desilusión en OpenAI

Denunciando las prácticas de OpenAI

Testigo clave en la demanda del New York Times

La participación de Balaji en acciones legales

Acciones legales en las que estuvo involucrado Balaji:

Una muerte rodeada de misterio

Reacciones del sector tecnológico y de las instituciones

Opiniones de expertos y debate ético

Otros casos

Un legado de cuestionamiento ético

Conclusión

Suchir Balaji

Introducción

Suchir Balaji, un brillante joven investigador de inteligencia artificial que trabajó en OpenAI, fue encontrado muerto en su apartamento de San Francisco en noviembre de 2024. Su muerte, considerada un suicidio por las autoridades, ha generado controversia y preguntas sin respuesta, especialmente debido a sus críticas públicas a las prácticas de OpenAI en el desarrollo de ChatGPT, el chatbot de IA más famoso del mundo. Balaji, quien ayudó a recopilar los datos de Internet que la empresa utilizó para crear ChatGPT, llegó a la conclusión de que el uso de datos protegidos por derechos de autor por parte de OpenAI violaba la ley. Desilusionado, decidió dejar la empresa en agosto de 2023 y no seguir contribuyendo a tecnologías que, en su opinión, traerían a la sociedad más daño que beneficio.

Este informe examina la vida y obra de Suchir Balaji, su papel en OpenAI, sus denuncias sobre el uso de datos protegidos por derechos de autor, su participación en la demanda del New York Times contra OpenAI y las circunstancias que rodearon su muerte.

Un prodigio de la tecnología

Nacido en Florida en 1998, Suchir Balaji creció en Cupertino, California, en el corazón de Silicon Valley. Desde temprana edad mostró un talento excepcional para la tecnología. A los 11 años ya programaba con Scratch y a los 13 había construido su propio ordenador personal. Balaji también se distinguió como finalista en la Olimpiada de Computación de Estados Unidos de 2015-16. Su pasión por la IA lo llevó a la Universidad de California, Berkeley, donde se graduó en ciencias de la computación. Durante sus estudios, realizó prácticas en Scale AI y participó en concursos de programación, obteniendo el séptimo lugar en un desafío de algoritmos de detección de pasajeros patrocinado por la Administración de la Seguridad en el Transporte (TSA, en sus siglas en inglés), por el que ganó 100.000 dólares.

De la esperanza a la desilusión en OpenAI

Inicialmente, Balaji se sintió atraído por la IA por su potencial para resolver problemas complejos, creyendo que podría utilizarse para curar enfermedades e incluso detener el envejecimiento. En 2021, John Schulman, cofundador de OpenAI, lo reclutó para unirse a la empresa. Durante casi tres años, Balaji trabajó como investigador de IA, contribuyendo a proyectos clave como WebGPT, precursor de ChatGPT, y el entrenamiento de modelos de lenguaje como GPT-4.

Sin embargo, su entusiasmo inicial por el potencial de la IA se fue desvaneciendo a medida que se daba cuenta de las prácticas de OpenAI en la recopilación de datos. Balaji observó que la empresa utilizaba grandes cantidades de contenido protegido por derechos de autor, como artículos, libros y código, para entrenar sus modelos de IA, sin obtener los permisos necesarios ni compensar a los creadores. La desilusión de Balaji con OpenAI se profundizó cuando la empresa pasó de ser una organización sin ánimo de lucro a una con ánimo de lucro, una decisión que, en su opinión, priorizaba los intereses comerciales sobre las consideraciones éticas.

En agosto de 2023, Balaji renunció a OpenAI, expresando su preocupación por el daño que estas prácticas podrían causar al ecosistema de Internet y a los creadores de contenido. «Si crees lo que yo creo, tienes que dejar la empresa», declaró en una entrevista.

Denunciando las prácticas de OpenAI

Tras su salida de OpenAI, Balaji se convirtió en un crítico vocal de la empresa y de la industria de la IA en general. En entrevistas con medios como The New York Times y The Associated Press, así como en publicaciones en su blog personal y en redes sociales, Balaji argumentó que el uso de datos protegidos por derechos de autor por parte de OpenAI no se ajustaba a los principios del «uso justo».

Balaji cuestionó la defensa del «uso justo» que OpenAI utilizaba para justificar sus prácticas. Argumentó que los modelos de IA generativa, como ChatGPT, podían crear sustitutos que competían con los datos en los que se entrenaban, lo que perjudicaba a los creadores originales. Además, señaló la falta de transparencia en el proceso de entrenamiento de la IA, que impedía a los creadores saber si su trabajo había sido utilizado sin su consentimiento. Balaji también expresó su preocupación por los riesgos de que la IA generara información falsa y la falta de transparencia en los procesos de entrenamiento de la IA.

Una contribución importante de Balaji al debate de los derechos de autor en la era de la IA fue el ensayo técnico-jurídico que publicó el 23 de octubre de 2024, titulado «When does generative AI qualify for fair use?», un análisis exhaustivo de la legalidad del empleo de material protegido por derechos de autor para entrenar modelos de IA como ChatGPT. En este ensayo, Balaji argumentó que las prácticas de OpenAI no se ajustaban a los criterios del «uso justo» establecidos en la Sección 107 de la Ley de Derechos de Autor de EE. UU.

Balaji examinó los cuatro factores clave que los tribunales utilizan para determinar si un uso de material protegido por derechos de autor se considera «uso justo»:

Propósito y carácter del uso: Balaji argumentó que el uso de datos protegidos por derechos de autor por parte de OpenAI tenía un propósito comercial, ya que la empresa buscaba obtener beneficios económicos con ChatGPT. Esto, según Balaji, iba en contra del principio del «uso justo», que favorece los usos no comerciales o educativos.
Naturaleza de la obra protegida: Balaji reconoció que la mayor parte del material utilizado para entrenar ChatGPT eran obras creativas, como artículos de noticias, libros y código, que gozan de una mayor protección bajo la ley de derechos de autor.
Cantidad y sustancialidad de la porción utilizada: Balaji argumentó que OpenAI utilizaba «copias completas» de obras protegidas por derechos de autor para entrenar sus modelos, lo que perjudicaba a los creadores originales.
Efecto del uso sobre el mercado potencial o el valor de la obra protegida: Balaji demostró que ChatGPT podía generar textos que competían con el material original en el que se entrenaba, lo que podía reducir el valor de las obras protegidas y perjudicar a los creadores.

En su análisis, Balaji utilizó conceptos de teoría de la información para medir la cantidad de información del material original presente en las respuestas de ChatGPT. Argumentó que, aunque las respuestas no eran copias exactas, contenían suficiente información del material original como para considerarse una infracción de los derechos de autor. Su marco analítico, respaldado por 72 notas al pie con referencias legales, se convirtió en pieza fundamental de las demandas contra OpenAI. Abogados del Times lo calificaron como «el análisis técnico-jurídico más completo hasta la fecha sobre IA y propiedad intelectual».

Testigo clave en la demanda del New York Times

Presentada en diciembre de 2023, la demanda del Times acusaba a OpenAI y Microsoft de «apropiación masiva e ilegal de contenido periodístico». Los abogados del periódico identificaron 18.743 artículos reproducidos parcialmente por ChatGPT sin autorización, calculando daños por 2.500 millones de dólares. Balaji fue contactado por el equipo legal en septiembre de 2024. Según documentos judiciales, proporcionó: registros internos sobre la selección intencional de contenido prémium; métricas de correlación entre inputs protegidos y outputs generativos y correos electrónicos donde ejecutivos discutían estrategias para «minimizar riesgos legales».

El 18 de noviembre de 2024, los abogados presentaron un escrito destacando su testimonio como «fundamental para demostrar la infracción deliberada», y Balaji se había comprometido a testificar contra la empresa en el caso. El testimonio de Balaji en la demanda del New York Times podría haber tenido implicaciones significativas para el caso y potencialmente influido en el futuro de la regulación de la IA. Esto ocurrió ocho días antes de su muerte.

La participación de Balaji en acciones legales

Suchir Balaji no solo fue un crítico de las prácticas de OpenAI en el caso del New York Times, sino que también participó activamente en otras acciones legales relacionadas con el uso de datos protegidos por derechos de autor por parte de empresas de IA. Su experiencia técnica y su conocimiento del funcionamiento interno de ChatGPT lo convirtieron en un testigo clave y un recurso valioso para quienes buscaban desafiar las prácticas de la industria.

Acciones legales en las que estuvo involucrado Balaji:

Demanda colectiva de autores (Silverman et al. vs. OpenAI): En esta demanda, Balaji proporcionó análisis estadístico que demostraba que el 14 % de las respuestas de ChatGPT contenían secuencias textuales de libros protegidos por derechos de autor. Este análisis ayudó a los demandantes a argumentar que OpenAI estaba infringiendo los derechos de autor de los autores al utilizar sus obras sin permiso para entrenar a ChatGPT.
Caso de desarrolladores de código abierto: Balaji también colaboró en un caso que involucraba a desarrolladores de código abierto. En este caso, demostró que OpenAI había utilizado 28.000 repositorios de GitHub sin cumplir con las licencias «copyleft». Estas licencias requieren que cualquier obra derivada del código fuente original se distribuya bajo la misma licencia, lo que significa que OpenAI debería haber hecho público el código de ChatGPT si lo hubiera entrenado con código bajo licencias «copyleft».
Investigación de la FTC: Balaji colaboró con la Comisión Federal de Comercio (FTC) de Estados Unidos en una investigación sobre prácticas anticompetitivas en la industria de la IA. En particular, ayudó a documentar cómo OpenAI utilizaba de forma exclusiva datos protegidos por derechos de autor para obtener una ventaja competitiva. Esta investigación podría tener implicaciones significativas para la regulación de la IA y el acceso a los datos en el futuro.

Una muerte rodeada de misterio

El 26 de noviembre de 2024, Suchir Balaji fue encontrado muerto en su apartamento de San Francisco tras inspección realizada por los servicios sociales a instancia de los vecinos. La policía determinó que la causa de la muerte fue un suicidio por arma de fuego, concretamente con una pistola Glock que había comprado el 4 de enero de 2024, y no encontró indicios de criminalidad. Un informe toxicológico reveló que Balaji tenía alcohol y anfetaminas en su organismo en el momento de su muerte.

Sin embargo, la muerte de Balaji ha generado dudas y sospechas, especialmente entre sus familiares y amigos, quienes consideran que las circunstancias que rodearon su fallecimiento no están claras. En un viaje reciente con amigos había mostrado un «ánimo estable y proyectos futuros»; también en su ordenador personal se encontraron borradores de nuevos artículos técnicos o la eliminación sospechosa de mensajes corporativos días antes de su muerte.

Los padres de Balaji han cuestionado la versión del suicidio y han contratado a investigadores privados para que examinen el caso. Señalan que no se encontró ninguna nota de suicidio y que Balaji, con su personalidad y aspiraciones, tenía mucho por lo que vivir. Poornima Ramarao, su madre, declaró a Business Insider: «Suchir era metódico. Si hubiera planeado suicidarse, habría dejado instrucciones claras, no vaguedades». La familia ha exigido acceso completo a sus dispositivos electrónicos y registros corporativos, proceso que podría prolongarse durante el 2025, según expertos legales. Además, destacan la coincidencia de su muerte con su participación en la demanda del New York Times y sus denuncias públicas contra OpenAI.

Reacciones del sector tecnológico y de las instituciones

Las reacciones institucionales a las denuncias y la muerte de Suchir Balaji fueron variadas. OpenAI, por un lado, emitió un comunicado en el que destacaba las contribuciones técnicas de Balaji, pero evitó comentar sus críticas. Microsoft, por otro lado, actualizó sus políticas de datos en enero de 2025, excluyendo 34 categorías de contenido protegido de sus sistemas de entrenamiento de IA. Esta medida, aunque no se atribuyó directamente a Balaji, podría interpretarse como una respuesta a las crecientes preocupaciones sobre el uso de datos protegidos por derechos de autor en el entrenamiento de la IA.

La Fundación Electronic Frontier (EFF), una organización sin fines de lucro que defiende los derechos digitales, calificó el caso de Balaji como un «punto de inflexión para la rendición de cuentas en la IA». La EFF propuso nuevas salvaguardas para garantizar un desarrollo ético de la IA, incluyendo:

Auditorías externas obligatorias de los conjuntos de datos: Para garantizar que los datos utilizados para entrenar la IA no infrinjan los derechos de autor ni contengan sesgos perjudiciales.
Mecanismos de compensación proporcionales al uso de obras creativas: Para garantizar que los creadores de contenido sean compensados de manera justa cuando su trabajo se utiliza para entrenar la IA.
Transparencia radical en las metodologías de entrenamiento: Para que los creadores de contenido y el público en general puedan comprender cómo se entrena la IA y qué datos se utilizan.

Estas propuestas reflejan la creciente preocupación por la falta de transparencia y responsabilidad en la industria de la IA. El caso de Balaji ha puesto de manifiesto la necesidad de una mayor supervisión y regulación para garantizar que el desarrollo de la IA se realice de manera ética y responsable.

Opiniones de expertos y debate ético

Las preocupaciones de Balaji generaron un debate entre los expertos. Algunos estuvieron de acuerdo con su postura sobre la infracción de derechos de autor, mientras que otros argumentaron que el entrenamiento de la IA con material protegido por derechos de autor podría considerarse uso justo. Este debate pone de manifiesto los complejos desafíos éticos y legales que rodean el desarrollo de la IA.

En este punto, es importante conocer la posición de OpenAI sobre la doctrina del «uso justo» para defender el uso de datos, textos y otras fuentes con derechos de autor en el entrenamiento de sus modelos de IA. Esta doctrina, consagrada en la Sección 107 de la Ley de Derechos de Autor de EE. UU., y que es el eje central de los argumentos que Balaji utilizó para denunciar las prácticas de OpenAI, permite el uso limitado de material protegido por derechos de autor sin permiso para fines como crítica, comentario, reportaje, enseñanza, becas o investigación.

Sobre los factores que los tribunales evalúan para determinar si un uso se considera «uso justo», los argumentos de la defensa de OpenAI son los siguientes:

Propósito y carácter del uso: OpenAI argumenta que la utilización de material protegido por derechos de autor para entrenar sus modelos de IA es transformador, ya que los modelos no simplemente reproducen el material original, sino que lo utilizan para aprender y generar nuevos contenidos. Además, aunque OpenAI tiene una subsidiaria con fines de lucro, la empresa se presenta como una organización de investigación que busca avanzar en el campo de la IA en beneficio de la sociedad.
Naturaleza de la obra protegida: OpenAI podría argumentar que gran parte del material utilizado para entrenar sus modelos, como artículos de noticias y código, es de naturaleza fáctica, lo que le da menos peso a la protección de los derechos de autor.
Cantidad y sustancialidad de la porción utilizada: OpenAI podría argumentar que, aunque utiliza grandes cantidades de datos, solo utiliza las partes necesarias para entrenar sus modelos y que las respuestas generadas no son copias literales del material original.
Efecto del uso sobre el mercado potencial o el valor de la obra protegida: OpenAI argumenta que sus modelos de IA no sustituyen al material original, sino que lo complementan y que, en algunos casos, incluso pueden aumentar el tráfico hacia las obras originales.

La crítica de Suchir Balaji y la de otras personas argumentan que OpenAI no cumple con los criterios del «uso justo», cuestionando, como hemos señalado anteriormente, la naturaleza transformadora del uso, argumentando que los modelos de IA generativa pueden crear sustitutos que compiten con los datos en los que se entrenan, perjudicando a los creadores originales, además de señalar la falta de transparencia en el proceso de entrenamiento, la cantidad sustancial de datos utilizados y el posible impacto negativo en el mercado de las obras protegidas.

En última instancia, la determinación de si el uso de datos protegidos por derechos de autor por parte de OpenAI se ajusta al «uso justo» dependerá de la interpretación de la ley por parte de los tribunales. Los casos en curso, como la demanda del New York Times, sentarán precedentes importantes para el futuro de la IA y los derechos de autor.

Otros casos

En julio de 2023, un grupo de autores, entre ellos la comediante Sarah Silverman, presentó una demanda colectiva contra Meta, la empresa de Mark Zuckerberg, alegando que la empresa utilizó millones de libros protegidos por derechos de autor, incluyendo los suyos, para entrenar su modelo de IA LLaMA sin permiso ni compensación. Los demandantes argumentan que Meta infringió los derechos de autor al copiar sus obras para entrenar su modelo de IA, creando así un producto que compite con los autores originales. La demanda también alega que Meta eliminó intencionalmente la información de derechos de autor de los libros utilizados para el entrenamiento, incluyendo encabezados e identificadores como ISBN y "todos los derechos reservados".

Documentos judiciales revelan que empleados de Meta expresaron su preocupación por el uso de material pirateado de sitios como Library Genesis (LibGen) para entrenar a LLaMA. A pesar de estas preocupaciones, Meta parece haber continuado con la práctica e incluso discutió formas de ocultar cómo adquirió los datos de entrenamiento. Al igual que en el caso de OpenAI, esta demanda contra Meta plantea interrogantes sobre la legalidad y la ética del uso de material protegido por derechos de autor para entrenar modelos de IA. El resultado de este caso podría tener implicaciones significativas para la industria de la IA y la forma en que las empresas desarrollan y entrenan sus modelos en el futuro.

Además de las demandas contra OpenAI y Meta, hay otros casos similares que involucran a empresas de IA y el uso de datos protegidos por derechos de autor:

Demanda de Getty Images contra Stability AI: Getty Images, una agencia de fotografía, demandó a Stability AI, alegando que la empresa utilizó millones de imágenes de su base de datos sin permiso para entrenar su modelo de IA Stable Diffusion. La demanda alega infracción de derechos de autor e infracción de marca registrada, ya que Stable Diffusion a veces reproduce las marcas de agua de Getty Images en las imágenes generadas.
Demanda colectiva de artistas visuales contra Stability AI, Midjourney y DeviantArt: Un grupo de artistas visuales, incluyendo a Sarah Andersen, demandó a Stability AI, Midjourney y DeviantArt, alegando que estas empresas utilizaron sus obras protegidas por derechos de autor sin permiso para entrenar sus modelos de IA generadores de imágenes. La demanda argumenta que el uso de obras protegidas por derechos de autor para entrenar IA, sin consentimiento ni compensación, constituye una infracción de derechos de autor.
Demanda de varios autores contra OpenAI: Además de la demanda de Silverman et al., otros autores, como Paul Tremblay, también han demandado a OpenAI por el uso no autorizado de sus libros para entrenar ChatGPT. Estas demandas plantean preguntas similares sobre la infracción de derechos de autor y el uso justo en el contexto del entrenamiento de IA.
Demanda de editores de periódicos contra OpenAI y Microsoft: Ocho editores de periódicos demandaron a OpenAI y Microsoft, alegando que las empresas utilizaron sus artículos sin autorización para entrenar modelos de IA como ChatGPT y Copilot. Los editores argumentan que esto les priva de ingresos potenciales y no dirige a los usuarios a sus sitios web, lo que afecta sus modelos de publicidad y suscripción.

Estos casos, junto con las demandas contra OpenAI y Meta, reflejan una tendencia creciente de litigios que buscan aclarar la legalidad y la ética del uso de datos protegidos por derechos de autor para entrenar modelos de IA. El resultado de estos casos podría tener un impacto significativo en el futuro del desarrollo de la IA y la forma en que las empresas abordan los derechos de autor y la propiedad intelectual en este campo en rápida evolución.

Un legado de cuestionamiento ético

A pesar de su corta vida, Suchir Balaji dejó un importante legado al plantear preguntas cruciales sobre la ética en el desarrollo de la IA. Sus críticas a las prácticas de OpenAI han impulsado un debate sobre el uso de datos protegidos por derechos de autor, la transparencia en el entrenamiento de la IA y la responsabilidad de las empresas tecnológicas en la protección de los creadores de contenido. El caso de Balaji es significativo porque pone de manifiesto la creciente tensión entre los rápidos avances de la IA y las consideraciones éticas, en particular en lo que respecta a los derechos de autor y la privacidad de los datos.

La muerte de Balaji también ha puesto de manifiesto la presión que enfrentan los denunciantes en la industria tecnológica y la necesidad de proteger a quienes se atreven a desafiar a las grandes corporaciones. Su historia nos recuerda la importancia de un desarrollo responsable de la IA, que tenga en cuenta no solo los avances tecnológicos, sino también las implicaciones éticas y sociales de esta poderosa herramienta.

La muerte de Suchir Balaji no solo generó un debate sobre las prácticas de OpenAI, sino que también impulsó cambios significativos en la industria de la IA. A continuación, se detallan algunas de las tendencias emergentes que surgieron tras su fallecimiento:

Migración a datos sintéticos: Ante las crecientes preocupaciones sobre el uso de datos protegidos por derechos de autor, empresas como Anthropic y Cohere anunciaron inversiones millonarias en la generación de datos artificiales para entrenar sus modelos de IA. Esta tendencia busca evitar problemas legales y éticos relacionados con el uso de datos reales, al tiempo que permite el desarrollo de modelos de IA robustos y eficientes.
Licenciamiento ético: Plataformas como Reddit y WordPress implementaron API premium para el acceso autorizado a sus contenidos. Esta medida permite a las empresas de IA acceder a datos de alta calidad de forma legal y ética, al tiempo que compensa a los creadores de contenido por el uso de su trabajo.
Fragmentación regulatoria: La Unión Europea avanzó con su Ley de Inteligencia Artificial, que incluye cláusulas específicas sobre propiedad intelectual en el contexto de la IA. Mientras tanto, en Estados Unidos, varios estados propusieron legislaciones contradictorias sobre el uso de datos para el entrenamiento de la IA. Esta fragmentación regulatoria crea incertidumbre para las empresas de IA y dificulta la creación de un marco legal global para el desarrollo ético de la IA.

Estas tendencias emergentes reflejan la creciente importancia de la ética y la legalidad en el desarrollo de la IA. La muerte de Balaji y sus denuncias sirvieron como catalizador para un cambio de paradigma en la industria, impulsando la búsqueda de soluciones que equilibren la innovación tecnológica con la protección de los derechos de autor y la responsabilidad social.

Conclusión

El caso del New York Times contra OpenAI, que alegaba la infracción de derechos de autor por el uso de artículos del periódico para entrenar a ChatGPT, aún no ha llegado a una resolución definitiva, habiendo desaparecido uno de los principales testigos. Sin embargo, se espera una batalla legal prolongada y compleja, similar al caso de Google Books, que duró una década.

Suchir Balaji fue un joven brillante que dedicó su vida a la inteligencia artificial. Sin embargo, su creciente preocupación por las implicaciones éticas de esta tecnología lo llevó a denunciar las prácticas de OpenAI, la empresa para la que trabajaba. Su trágica muerte ha generado controversia y ha dejado muchas preguntas sin respuesta. A pesar de las dudas que rodean su fallecimiento, su legado como denunciante y defensor de un desarrollo responsable de la IA es innegable.

El caso de Balaji plantea interrogantes inquietantes sobre la dirección que está tomando el desarrollo de la IA y si las empresas están priorizando los beneficios económicos sobre la responsabilidad ética. Su historia nos recuerda que la innovación tecnológica debe ir acompañada de una profunda reflexión sobre sus posibles consecuencias y de la creación de mecanismos que garanticen un desarrollo responsable y ético de la IA.

La muerte de Suchir Balaji encapsula los dilemas éticos fundamentales de la era de la IA generativa. Su análisis jurídico-técnico sigue influyendo en cortes y parlamentos, mientras su destino personal subraya los riesgos de desafiar estructuras de poder tecnológicas. A medida que avanzan las investigaciones legales y forenses, el caso plantea preguntas críticas: ¿Cómo equilibrar la innovación tecnológica con los derechos creativos?; ¿qué mecanismos de protección necesitan los denunciantes en la industria tecnológica?; ¿pueden los sistemas de IA ser realmente transparentes sin comprometer su eficacia?

Las respuestas a estos interrogantes definirán no solo el futuro legal de OpenAI, sino los cimientos mismos sobre los que se construye la próxima generación de inteligencia artificial. Como Balaji escribió en su blog: «La verdadera innovación no puede estar en deuda con la apropiación».

Etiquetas: Derechos de autor, inteligencia artificial, ética tecnológica, propiedad intelectual, Suchir Balaji

José López Ponce & Kaira, 9/03/2024.