Nous avons jusqu’à présent connu une discussion considérable (et augmentée) sur la violation de l’IA et du droit d’auteur, en particulier en termes de la façon dont la recherche à l’exception de la recherche en tant que TDM et utilisation équitable s’appliquent et si de nouveaux modèles à l’exception sont nécessaires. Une question sur laquelle il y a eu peu de discussions est de savoir si le droit de reproduction est truguré lorsqu’un module d’IA est formé à l’aide du contenu protégé par le droit d’auteur. Il est essentiel de répondre à cette question avant de discuter des défenses aux réclamations ou rémunération de violation du droit d’auteur pour l’utilisation du contenu protégé dans le processus d’apprentissage de l’IA. Si le processus d’apprentissage de l’IA ne se traduit pas par des copies (non incitées) des œuvres utilisées pendant la formation de l’IA, nous n’avons pas besoin de discuter des exceptions du droit d’auteur, et que nous ne pouvons pas du tout parler de la rémunération des bons détenteurs.
Qu’est-ce que / qui est le problème juridique?
Il est clair que le contenu protégé est utilisé dans le processus de formation de l’IA, le droit de reproduction est déclenché à différentes étapes. Premièrement, il pourrait être déclenché lors de la compilation de contenu (textes, chansons, etc.) dans des ensembles de données de formation, mais pas dans tous les cas (rez-de-chaussée, certains données de formation ne contiennent que des hyperliens vers le contenu en ligne plus que des copies du contenu). Cependant, bien que ceci que les créateurs / compilateurs de données puissent être libles pour une reproduction directe non autorisée, les développeurs d’IA (c’est-à-dire ceux qui forment le module) ne compilent souvent pas les ensembles de données de formation préexistants. Dans un tel cas, les développeurs d’IA pourraient être en train de ne pas faire de copies des données sur les données de formation, du moins pas des copies permanentes ou durables (bien qu’elles puissent faire au moins des copies temporaires des données de données préexistantes dans le cadre du processus de formation, qui est couvert par une utilisation équitable ou des exceptions de copie temporaire disponibles dans de nombreuses juridictions).
Deuxièmement, le droit de reproduction pourrait être déclenché à un stade de sortie si la sortie AI reproduit une partie substantielle des travaux contenus dans l’ensemble de données de formation. Cependant, dans les modèles d’IA génératifs actuels, cela se produit relativement rarement (sur l’instance de la «mémorisation») et les sociétés d’IA s’efforcent de minimiser ou d’éliminer l’instance de «mémorisation» de recherche pour éviter les allégations de violation du droit d’auteur avec les sorties d’IA.
La question la plus controversée est de savoir si la reproduction se produit au stade de la formation de l’IA, je lorsque le module AI est exposé de manière itérative aux données de formation quels changent et éventuels déterminent les paramètres de l’algorithme. Les développeurs d’IA et certains chercheurs, en particulier aux États-Unis, soutiennent que ce processus de formation n’est pas ou ne conduit à la copie. On peut dire que les modèles d’IA ne stockent pas de copies des données de formation. Ils leur «ingétent» ou leur «apprennent» le contenu dans leurs paramètres. Le commentateur de thèse soutienne que les modèles ne traitent que du texte ou un autre contenu à l’aide de jetons (séquences communes de caractères) et apprennent les relations statistiques ci-dessous. Ils conçoivent que l’utilisation des données protégées par le droit d’auteur dans la formation d’IA ne déclenche pas le droit de reproduction. Un autre groupe de chercheurs suggère que peut-être le processus de formation de l’IA implique une sorte de copie temporaire, mais des copies de thèse sont très probablement courantes par des exceptions, par exemple une utilisation équitable ou une copie temporaire.[1]
Proposition: interprétation expansive du droit de reproduction
Ce que je soutiens, c’est que même si les modules d’IA ne stockent pas des copies des données de formation, la soi-disant «ingestion» ou «l’apprentissage» du contenu protégé en modules d’IA doit être considéré comme équivalent à la copie de ce contenu. Il est peut-être vrai que les modules d’IA ne stockent pas de copies de toutes les œuvres sur lesquelles ils se sont entraînés d’une manière que nous connaissons (rez-de-chaussée dans les fichiers et les dossiers). Le contenu est plutôt désintégré et «ingéré» dans les paramètres de l’algorithme d’une manière nouvelle que nous n’avons pas auparavant. Cependant, je soutiens que cette «ingestion» ou «apprentissage» du contenu et de son «intégration» dans des paramètres algorithmiques est une nouvelle forme de stockage du contenu. Même si de manière désintégrée, le contenu a été intégré dans le modèle, dans ses paramètres, à certains fins de réutilisation. À savoir, il sera utilisé pour créer de nouveaux contenus. Parfois, ce nouveau contenu (sorties AI) est entièrement différente du contenu individuel sur lequel il est formé, dans d’autres cas, il pourrait être très similaire au contenu de son ensemble de données de formation – à la fois en termes d’idées et d’expression. Cela dépendra de la façon dont les développeurs d’IA ont conçu et formé l’algorithme. Alors que GPT4, qui est un module derrière Chatgpt, est conçu de manière à éviter les sorties similaires à l’ensemble de données d’entraînement, le prochain projet Rembrandt a été conçu pour produire des illustrations qui sont très similaires en style aux peintures Rembrandt sur lesquelles il est.
Rationnel de cette proposition
Il existe au moins trois raisons qui soutiennent l’extension du droit de reproduction à l’utilisation du contenu protégé dans le processus d’apprentissage de l’IA (et l’intégration de ce contenu dans les modèles d’IA). Premièrement, historiquement, les droits des auteurs, des éditeurs et des autres titulaires de droite se sont développés avec l’émergence de nouvelles technologies: de la réimpression, ils se sont étendus à la traduction, à la performance, à la diffusion et à la communication sur Internet; De la couverture de copies analogiques, le droit de reproduction s’est étendu aux copies numériques (essentiellement 1 et 0s). Il a été reconnu que les droits ont des intérêts légitimes pour contrôler l’utilisation de leurs œuvres dans le contexte des nouvelles technologies. L’utilisation des travaux dans la formation d’IA est un autre nouveau type d’utilisation, résultant de la nouvelle technologie d’IA, et il n’y a aucune bonne raison pour laquelle les détenteurs de droits ne devraient pas être en mesure de contrôler ces utilisations précieuses commerciales qui ont le potentiel d’affecter considérablement l’intérêt de diverses manières (y compris la perte possible d’emplois créatifs).
Deuxièmement, cette interprétation du droit de reproduction permettrait aux auteurs d’exercer leurs droits à l’ère de l’IA. À savoir, seulement s’il est reconnu que la reproduction se produit le processus de formation de l’IA, ils seront en mesure de concéder une licence sur la recherche de leur contenu et de faire respecter leurs droits. Si nous concluons que la formation de l’IA n’entraîne pas à la copie, que nous ne pouvons pas parler de la rémunération du bon titulaire (et que nous n’avons pas besoin de parler d’exceptions, d’opt-outs, etc.).
De plus, reconnaître que les modèles d’IA contiennent ce qui équivaut à des copies des œuvres permettrait aux droits d’exercer leur droit à des modèles formés à leur propre juridiction, mais donc avec des modèles d’IA formés à une autre juridiction, tant que ce modèle d’IA est offert dans leur juridiction. Par exemple, l’algorithme de diffusion stable qui s’est formé aux États-Unis sur des milliards d’images protégés par le droit d’auteur. Si nous convenons que le modèle de diffusion stable formé contient des équivalents de copie de ces images, alors les offres du modèle d’IA formé dans une autre juridiction (par exemple le Royaume-Uni ou l’UE) pourraient sans doute constituer la communication publique des copies de thèse intégrées au public au Royaume-Uni et déclencheraient la communication publique directement en vertu des lois sur le copyte du Royaume-Uni ou de l’UE.
Enfin, cette solution s’alignerait sur les approches politiques internationales les plus récentes. La loi de l’UE AI (article 53 (1) (c)) exige déjà que tous les modules d’IA offerts dans l’UE respectent la loi sur le droit d’auteur de l’UE. Le Royaume-Uni envisage actuellement une solution similaire. Reconnaître que les modules d’IA contiennent ce qui équivaut à des copies des données de formation mettrait en œuvre cette approche de politique générale dans le cadre du droit d’auteur et la rendrait exécutable.
Notes finales
Il est importé pour souligner que la révision des droits de reproduction (et de communication publique) pour inclure l’utilisation des travaux dans le processus de formation de l’IA est une, mais pas la seule, la mesure nécessaire pour réinitialiser l’équilibre de la loi sur le droit d’auteur dans la nouvelle ère de l’IA. Si nous décidons d’élargir les bons détenteurs de bons détenteurs de cette manière, nous aurons besoin de penser comment (re) établir l’équilibre des différents intérêts. Certaines juridictions qui n’ont pas encore à l’exception de qui pourrait s’appliquer dans le contexte de l’IA devra discuter si et quelles exceptions supplémentaires sont nécessaires (par exemple en Australie). Les juridictions qui ont déjà certaines exceptions (utilisation équitable ou TDM) doivent réévaluer leur convalescence dans le contexte de l’IA et beaucoup y travaillent actuellement (par exemple le Royaume-Uni). En outre, il y aura (ou est) un besoin de mécanismes de licence et d’application efficaces pour garantir que les détenteurs de droits peuvent bénéficier de ces droits et reçoivent une partie du bénéfice que les industries de l’IA génèrent. Finall, nous net meesures pour nous assurer que les revenus qui coulent des industries de l’IA dans les industries créatifs sont distribués de manière égale, c’est-à-dire qu’elle ne reste pas entre les mains de grands détenteurs de droite secondaire (par exemple, un grand éditeur, des maisons de disques), mais atteint des créateurs individuels.
Pour une discussion plus importante sur cette question, veuillez vérifier: Matulionyte, Rita, reconceptualiser la reproduction directement à l’ère de l’IA (02 décembre 2024). Disponible chez SSRN: ou
——————————————————————————————————————————
[1] Par exemple Pamela Samuelson, «Generative Ai rencontre le droit d’auteur» (2023) 381 Science 158, 159; Matthew Lindberg, «Appliquer la loi sur le droit d’auteur au générateur d’images de l’intelligence artificielle dans le contexte d’Anderson c. Stabilité Ai, Ltd» (2024) 15 Cybaris 37, 60-61