Éditeurs contre le passé : l'hystérie de l'IA efface-t-elle l'histoire en ligne ?
Les principaux éditeurs d'actualités, dont **The New York Times** et **The Guardian**, bloquent l'**Internet Archive** de l'exploration de leurs sites, invoquant des préoccupations concernant le scraping par l'IA. Cette décision menace d'effacer un enregistrement historique crucial sur lequel les journalistes, les chercheurs et le public s'appuient depuis près de trois décennies.
Imaginez qu'un éditeur de journaux annonce qu'il n'autorisera plus les bibliothèques à conserver des copies de son journal.
C'est effectivement ce qui a commencé à se produire en ligne ces derniers mois. L'**Internet Archive** — la plus grande bibliothèque numérique du monde — conserve des journaux depuis sa mise en ligne au milieu des années 1990. La mission de l'Archive est de préserver le web et de le rendre accessible au public. À cette fin, l'organisation exploite la **Wayback Machine**, qui contient désormais plus d'un billion de pages web archivées et est utilisée quotidiennement par les journalistes, les chercheurs et les tribunaux.
Mais ces derniers mois, **The New York Times** a commencé à bloquer l'Archive de l'exploration de son site web, en utilisant des mesures techniques qui vont au-delà des règles traditionnelles robots.txt du web. Cela risque de couper un enregistrement sur lequel les historiens et les journalistes s'appuient depuis des décennies. D'autres journaux, dont **The Guardian**, semblent suivre le mouvement.
Depuis près de trois décennies, les historiens, les journalistes et le public s'appuient sur l'**Internet Archive** pour préserver les sites d'actualités tels qu'ils apparaissaient en ligne. Ces pages archivées sont souvent le seul enregistrement fiable de la manière dont les articles ont été initialement publiés. Dans de nombreux cas, les articles sont modifiés, changés ou supprimés — parfois ouvertement, parfois non. L'**Internet Archive** devient souvent la seule source pour voir ces changements. Lorsque les grands éditeurs bloquent les robots d'exploration de l'Archive, cet enregistrement historique commence à disparaître.
**The Times** affirme que cette décision est motivée par des préoccupations concernant le scraping de contenu d'actualités par les entreprises d'IA. Les éditeurs cherchent à contrôler l'utilisation de leur travail, et plusieurs — dont le Times — poursuivent désormais des entreprises d'IA pour déterminer si l'entraînement de modèles sur du matériel protégé par le droit d'auteur viole la loi. Il existe un argument solide selon lequel un tel entraînement relève de l'usage loyal.
Quel que soit l'issue de ces procès, bloquer les archivistes à but non lucratif est la mauvaise réponse. Des organisations comme l'**Internet Archive** ne construisent pas de systèmes d'IA commerciaux. Elles préservent un enregistrement de notre histoire. Couper cette préservation dans le but de contrôler l'accès à l'IA pourrait essentiellement brûler des décennies de documentation historique pour une lutte que les bibliothèques comme l'Archive n'ont pas commencée et qu'elles n'ont pas demandée.
Si les éditeurs ferment la porte à l'Archive, ils ne limitent pas seulement les bots. Ils effacent l'enregistrement historique.
### L'archivage et la recherche sont légaux
Rendre le matériel consultable est un usage loyal bien établi. Les tribunaux reconnaissent depuis longtemps qu'il est souvent impossible de créer un index consultable sans faire de copies du matériel sous-jacent. C'est pourquoi, lorsque **Google** a copié des livres entiers afin de créer une base de données consultable, les tribunaux ont correctement reconnu cela comme un usage loyal clair. La copie servait un objectif transformateur : permettre la découverte, la recherche et de nouvelles perspectives sur les œuvres créatives.
L'**Internet Archive** fonctionne sur le même principe. Tout comme les bibliothèques physiques conservent des journaux pour les lecteurs futurs, l'Archive préserve l'enregistrement historique du web. Les chercheurs et les journalistes s'y fient chaque jour. Selon le personnel de l'Archive, **Wikipedia** à lui seul renvoie à plus de 2,6 millions d'articles de presse conservés à l'Archive, couvrant 249 langues. Et ce n'est qu'un exemple. D'innombrables blogueurs, chercheurs et reporters dépendent de l'Archive comme d'un enregistrement stable et faisant autorité de ce qui a été publié en ligne.
Les mêmes principes juridiques qui protègent les moteurs de recherche doivent également protéger les archives et les bibliothèques. Même si les tribunaux imposent des limites à l'entraînement de l'IA, la loi protégeant la recherche et l'archivage web est déjà bien établie.
L'**Internet Archive** préserve l'enregistrement historique du web depuis près de trente ans. Si les grands éditeurs commencent à bloquer cette mission, les futurs chercheurs pourraient constater que d'énormes pans de cet enregistrement historique ont simplement disparu. Il existe de véritables litiges concernant l'entraînement de l'IA qui doivent être résolus devant les tribunaux. Mais sacrifier le registre public pour mener ces batailles serait une erreur profonde, et potentiellement irréversible.