![]() |
Fuente de la imagen: Alianza Europea de Inteligencia Artificial (M. Velasco, 2025) |
Resumen: La creciente prevalencia de los modelos de Inteligencia Artificial (IA) de propósito general ha impulsado la necesidad de una mayor transparencia en sus procesos de entrenamiento, especialmente en lo que respecta a los datos utilizados. La Regulación (UE) 2024/1689, conocida como la Ley de IA, establece un marco armonizado que requiere que los proveedores de estos modelos elaboren y hagan público un "Resumen" detallado del contenido utilizado para su entrenamiento. Este artículo explora los objetivos, el alcance y los componentes clave de este requisito, así como el papel de la Oficina de IA en la facilitación de su implementación. Se busca equilibrar la necesidad de transparencia para la protección de derechos (incluidos los derechos de autor y la privacidad de los datos) con la salvaguarda de los secretos comerciales y la información empresarial confidencial. Su aplicación contribuirá a un ecosistema de IA más responsable, competitivo y que respete los derechos fundamentales en la Unión Europea.
Palabras Clave: Ley de IA (AI Act), Modelos de IA de Propósito General, Transparencia, Contenido de Entrenamiento, Derechos de Autor, Protección de Datos, Oficina de IA, Regulación (UE) 2024/1689.
Abstract: The increasing prevalence of general-purpose Artificial Intelligence (AI) models has driven the need for greater transparency in their training processes, particularly with regard to the data used. Regulation (EU) 2024/1689, known as the AI Law, establishes a harmonized framework requiring providers of these models to prepare and make public a detailed "Summary" of the content used for their training. This article explores the objectives, scope, and key components of this requirement, as well as the role of the AI Office in facilitating its implementation. The Summary seeks to balance the need for transparency for the protection of rights (including copyright and data privacy) with the safeguarding of trade secrets and confidential business information. Its implementation will contribute to a more responsible, competitive, and fundamental rights-respecting AI ecosystem in the European Union.
Keywords: AI Act, General Purpose AI Models, Transparency, Training Content, Copyright, Data Protection, AI Office, Regulation (EU) 2024/1689.
1. Introducción
La rápida evolución de la Inteligencia Artificial (IA) ha llevado al desarrollo de modelos de propósito general, capaces de realizar una amplia gama de tareas. Sin embargo, la opacidad inherente a los datos masivos utilizados para su entrenamiento ha planteado preocupaciones significativas, particularmente en relación con los derechos de propiedad intelectual, la protección de datos y la competencia de mercado. En respuesta a esto, la Unión Europea ha implementado la Regulación (UE) 2024/1689, conocida como la Ley de IA, que entró en vigor el 1 de agosto de 2024. Esta ley establece reglas armonizadas para los proveedores de modelos de IA de propósito general, incluidas obligaciones para todos los proveedores y requisitos adicionales para aquellos que plantean riesgos sistémicos.
Una de las obligaciones estipulada en el Artículo 53(1)(d) de la Ley de IA, es la elaboración y publicación de un resumen suficientemente detallado del contenido utilizado para el entrenamiento de los modelos de IA de propósito general (el "Resumen"). Este requisito es aplicable a partir del 2 de agosto de 2025.
2. Objetivos del Resumen Público del Contenido de Entrenamiento
El objetivo principal del Resumen, según el Recital 107 de la Ley de IA, es aumentar la transparencia sobre el contenido utilizado para el entrenamiento de los modelos de IA de propósito general, incluyendo texto y datos protegidos por la ley, como los derechos de autor. Esta transparencia busca facilitar que las partes con intereses legítimos puedan ejercer y hacer valer sus derechos bajo la legislación de la Unión Europea. Los intereses legítimos abarcados son diversos:
• Derechos de Propiedad Intelectual, incluyendo Derechos de Autor y Derechos Conexos: El Resumen proporciona información necesaria para que los titulares de derechos obtengan conocimiento sobre el contenido utilizado, lo que facilita el ejercicio de su derecho a la propiedad intelectual y a un recurso efectivo para la aplicación de sus derechos.
• Derechos de los Interesados y Protección de Datos: La transparencia en los datos de entrenamiento puede facilitar los derechos de los interesados y apoyar la aplicación de las normas de protección de datos de la Unión, al resumir información relevante sobre datos raspados de internet o recogidos a través de interacciones con el modelo. Es importante destacar que esta información no reemplaza ni afecta las obligaciones de información a los interesados bajo la legislación de protección de datos.
• No Discriminación y Diversidad Cultural y Lingüística: La transparencia sobre las características generales del contenido de entrenamiento puede ayudar a los proveedores de aplicaciones downstream a evaluar la diversidad de los datos. Esto les permite implementar medidas de mitigación para asegurar el respeto de los derechos fundamentales a la no discriminación y la diversidad lingüística y cultural.
• Derecho a Recibir e Impartir Información y Libertad de Ciencia: Una mayor transparencia en los datos de entrenamiento facilita el derecho a recibir e impartir información y permite a los investigadores ejercer su libertad científica. Esto posibilita que las instituciones académicas evalúen críticamente las implicaciones, limitaciones y riesgos potenciales asociados con los datos utilizados por un modelo de IA de propósito general.
• Mercados Transparentes y Competitivos: La información sobre cómo se han utilizado los modelos de IA de propósito general públicamente disponibles para entrenar otros modelos, o si un modelo ha sido entrenado con datos de usuario de los propios productos y servicios del proveedor, puede ayudar a los usuarios y empresas a comprender mejor el uso de sus datos y modelos, evitando posibles efectos de "bloqueo" (lock-in effects).
3. El Template Proporcionado por la Oficina de IA
El Artículo 53(1)(d) exige que el Resumen se elabore según una plantilla proporcionada por la Oficina de IA (el "Template"). Este Template, desarrollado a partir de una consulta con múltiples partes interesadas que incluyó más de 430 respuestas, tiene un importante valor legal para la correcta implementación de la Ley de IA. Su objetivo es ayudar a los proveedores a cumplir con su obligación de manera simple, consistente y efectiva.
El Resumen debe ser generalmente exhaustivo en su alcance en lugar de técnicamente detallado. Cubre los datos utilizados en todas las etapas del entrenamiento del modelo, desde el pre-entrenamiento hasta el post-entrenamiento, incluyendo la alineación del modelo y el ajuste fino (fine-tuning). Esto incluye todas las fuentes y tipos de datos, protegidos o no por derechos de propiedad intelectual.
El Template se compone de tres secciones principales:
3.1. Información General
Esta sección requiere información que permita la identificación del proveedor y del modelo, así como detalles sobre las modalidades presentes en los datos de entrenamiento (ej. texto, imagen, audio, video) y el tamaño estimado de cada modalidad dentro de rangos amplios (ej. menos de 1 billón de tokens para texto, menos de 1 millón de imágenes). También se solicitan las características generales de los datos de entrenamiento, incluyendo la fecha más reciente de adquisición de datos y una descripción de las características lingüísticas, especialmente los idiomas oficiales de la UE.
3.2. Lista de Fuentes de Datos
Esta sección es importante para la transparencia y la facilitación de los derechos. Requiere la divulgación de las principales colecciones o conjuntos de datos. Las categorías de fuentes de datos incluyen:
• Conjuntos de datos disponibles públicamente: Aquellos compilados por terceros, disponibles gratuitamente y fácilmente descargables. Se requiere la lista de los conjuntos de datos "grandes" (aquellos donde una modalidad excede el 3% del tamaño total de los conjuntos de datos públicos para esa modalidad) y una descripción general de otros conjuntos de datos públicos no listados.
• Conjuntos de datos privados no disponibles públicamente obtenidos de terceros:
◦ Licenciados comercialmente por titulares de derechos: No se requiere una divulgación detallada, ya que los titulares de derechos son partes de los acuerdos de licencia.
◦ Obtenidos de otros terceros: Si son públicamente conocidos, se deben listar sus identificadores/nombres; de lo contrario, se debe proporcionar una descripción general de su contenido.
• Datos rastreados y raspados de fuentes en línea: Esta es una categoría clave, ya que gran parte del entrenamiento de los modelos de IA se basa en datos web. Se exige información sobre los rastreadores utilizados, su propósito, su comportamiento (ej. respeto de robots.txt, captchas), el período de recolección y una descripción exhaustiva del tipo de contenido y fuentes en línea raspadas (ej. noticias, blogs, redes sociales). Además, se requiere una lista resumida de los nombres de dominio más relevantes (ej. example.com), que representen el 10% superior de todos los nombres de dominio según el tamaño del contenido raspado. Para las PYMES, se reduce al 5% o 1.000 dominios.
• Datos de usuario: Información sobre datos de usuario recopilados a través de interacciones con el modelo de IA o con otros servicios o productos del proveedor.
• Datos sintéticos: Datos generados por modelos de IA para fines de entrenamiento, en particular para la destilación o alineación de modelos. Se exige el nombre de los modelos de IA de propósito general utilizados si están disponibles en el mercado, y una descripción general de los datos de entrenamiento de otros modelos de IA utilizados si se conoce.
• Otras fuentes de datos: Cualquier otra fuente no cubierta en las categorías anteriores, como datos fuera de línea o medios autodigitalizados.
3.3. Aspectos Relevantes del Procesamiento de Datos
Esta sección se centra en las medidas implementadas por el proveedor:
• Respeto de la reserva de derechos de la excepción o limitación de minería de texto y datos (TDM): Esto incluye la descripción de las medidas implementadas para cumplir con las reservas de derechos de la excepción TDM, como los protocolos de opt-out honrados.
• Eliminación de contenido ilegal: Descripción de las medidas tomadas para evitar o eliminar contenido ilegal bajo la ley de la Unión de los datos de entrenamiento (ej. listas negras, clasificadores basados en modelos), sin revelar detalles específicos sobre las prácticas comerciales internas o secretos comerciales.
4. Equilibrio entre Transparencia y Secretos Comerciales
La elaboración del Template ha implicado un delicado equilibrio entre la necesidad de transparencia y la protección de los secretos comerciales y la información empresarial confidencial de los proveedores. La Comisión, al estar obligada por la Carta de los Derechos Fundamentales, ha implementado este equilibrio requiriendo la divulgación de información más específica sólo cuando es necesario para permitir el ejercicio significativo de los derechos protegidos por la legislación de la Unión. El objetivo es proporcionar información relevante sobre los datos de entrenamiento sin comprometer la información comercialmente sensible sobre las fuentes de datos y la forma precisa en que los proveedores curan y entrenan sus modelos. Esto se refleja en los diferentes niveles de detalle requeridos según el tipo de datos, por ejemplo, menos detalle para datos licenciados y más para conjuntos de datos públicos "grandes".
5. Implementación y Cumplimiento
Los proveedores deben asegurarse de que la información incluida en el Resumen se reporte de buena fe, de manera precisa y exhaustiva. Aunque se permite cierta flexibilidad, la Oficina de IA tiene poderes de aplicación bajo la Ley de IA para verificar el cumplimiento. El incumplimiento puede ser sancionado con multas de hasta el 3% de la facturación global anual del proveedor o 15.000.000 EUR, lo que sea más alto. Es importante señalar que la Oficina de IA supervisará el cumplimiento de la obligación del resumen sin realizar una evaluación obra por obra de si se ha utilizado contenido específico para el entrenamiento.
El Resumen debe actualizarse cuando el proveedor entrene su modelo con datos adicionales que requieran una actualización materialmente significativa, con una frecuencia de al menos seis meses. Debe hacerse público a más tardar cuando el modelo se coloque en el mercado de la Unión, en el sitio web oficial del proveedor y en todos los canales de distribución pública. Para los modelos ya en el mercado antes del 2 de agosto de 2025, los proveedores tienen hasta el 2 de agosto de 2027 para hacer público el Resumen correspondiente.
6. Conclusión
El requisito de un Resumen Público del Contenido de Entrenamiento para modelos de IA de propósito general, establecido por la Ley de IA de la UE, representa un paso hacia una mayor transparencia y rendición de cuentas en el sector de la inteligencia artificial. Al proporcionar una visión general del contenido de entrenamiento, desde las modalidades generales hasta las fuentes específicas y los aspectos de procesamiento de datos, la Ley de IA busca empoderar a los titulares de derechos, proteger la privacidad de los datos, fomentar la equidad y la diversidad, apoyar la investigación científica y promover mercados competitivos. Aunque se ha buscado un equilibrio con la protección de los secretos comerciales, esta iniciativa es clave para establecer la confianza y la responsabilidad en el despliegue de la IA.
Este sistema de transparencia puede ser visto como una "etiqueta nutricional" para la IA. Así como una etiqueta nutricional en los alimentos nos informa sobre sus ingredientes, valores calóricos y alérgenos, el Resumen Público del Contenido de Entrenamiento proporciona información esencial sobre los "ingredientes" que dan forma a un modelo de IA. Permite a los usuarios, desarrolladores downstream, reguladores y titulares de derechos comprender lo que "alimenta" al modelo, evaluando su origen, posibles sesgos o riesgos, y asegurando el cumplimiento de las normativas vigentes, sin revelar la "receta secreta" completa de su preparación.
5. Recursos Generativos utilizados en la redacción de este artículo
Teniendo en cuenta que se ha seguido la estructura de un artículo científico, formato conocido por la IAG, para la elaboración de este contenido se ha utilizado IAG en la fase de búsqueda de información, así como en la mejora de la redacción y adaptación de esta redacción a un lenguaje coloquial. Asimismo, antes de editarlo se ha pasado el filtro de plagio (9% de coincidencias) y de lenguaje IAG (11% de coincidencias), considerando ambos ratios razonables y asumibles.
8. Fuentes
Communication to the Commission (2025). Approval of the content of the draft Communication from the Commission – Explanatory Notice and Template for the Public Summary of Training Content for general-purpose AI models required by Article 53 (1)(d) of Regulation (EU) 2024/1689 (AI Act).