Verlage gegen die Vergangenheit: Löscht KI-Hysterie die Online-Geschichte?
Große Nachrichtenverlage, darunter **The New York Times** und **The Guardian**, blockieren das **Internet Archive** am Crawling ihrer Websites und berufen sich dabei auf Bedenken wegen KI-Scraping. Dieser Schritt droht, ein entscheidendes historisches Dokument zu löschen, auf das sich Journalisten, Forscher und die Öffentlichkeit seit fast drei Jahrzehnten verlassen.
Stellen Sie sich vor, ein Zeitungsverlag kündigt an, dass er Bibliotheken nicht mehr erlauben wird, Exemplare seiner Zeitung aufzubewahren.
Das ist im Grunde das, was in den letzten Monaten online passiert ist. Das **Internet Archive** – die weltweit größte digitale Bibliothek – archiviert Zeitungen, seit es Mitte der 1990er Jahre online ging. Die Mission des Archivs ist es, das Web zu erhalten und der Öffentlichkeit zugänglich zu machen. Zu diesem Zweck betreibt die Organisation die **Wayback Machine**, die inzwischen mehr als eine Billion archivierte Webseiten enthält und täglich von Journalisten, Forschern und Gerichten genutzt wird.
Doch in den letzten Monaten begann **The New York Times**, das Archiv am Crawling ihrer Website zu blockieren, indem sie technische Maßnahmen einsetzte, die über die traditionellen robots.txt-Regeln des Webs hinausgehen. Das birgt die Gefahr, eine Aufzeichnung abzuschneiden, auf die sich Historiker und Journalisten seit Jahrzehnten verlassen. Andere Zeitungen, darunter **The Guardian**, scheinen diesem Beispiel zu folgen.
Seit fast drei Jahrzehnten verlassen sich Historiker, Journalisten und die Öffentlichkeit auf das **Internet Archive**, um Nachrichtenseiten so zu erhalten, wie sie online erschienen sind. Diese archivierten Seiten sind oft die einzige verlässliche Aufzeichnung darüber, wie Geschichten ursprünglich veröffentlicht wurden. In vielen Fällen werden Artikel bearbeitet, geändert oder entfernt – manchmal offen, manchmal nicht. Das **Internet Archive** wird oft zur einzigen Quelle, um diese Änderungen zu sehen. Wenn große Verlage die Crawler des Archivs blockieren, beginnt diese historische Aufzeichnung zu verschwinden.
**The Times** gibt an, dass der Schritt auf Bedenken hinsichtlich KI-Unternehmen zurückzuführen ist, die Nachrichten-Inhalte scrapen. Verlage streben die Kontrolle darüber an, wie ihre Arbeit genutzt wird, und mehrere – darunter die Times – verklagen derzeit KI-Unternehmen wegen der Frage, ob das Training von Modellen auf urheberrechtlich geschütztem Material gegen das Gesetz verstößt. Es gibt starke Argumente dafür, dass ein solches Training "fair use" ist.
Unabhängig vom Ausgang dieser Klagen ist die Blockierung von gemeinnützigen Archivaren die falsche Reaktion. Organisationen wie das **Internet Archive** bauen keine kommerziellen KI-Systeme. Sie bewahren eine Aufzeichnung unserer Geschichte. Die Abschaltung dieser Archivierung im Bestreben, den KI-Zugang zu kontrollieren, könnte im Wesentlichen jahrzehntelange historische Dokumentation über einen Kampf hinweg verbrennen, den Bibliotheken wie das Archiv nicht begonnen und nicht gewollt haben.
Wenn Verlage das Archiv aussperren, schränken sie nicht nur Bots ein. Sie löschen die historische Aufzeichnung.
### Archivierung und Suche sind legal
Material durchsuchbar zu machen, ist ein etablierter "fair use". Gerichte haben lange anerkannt, dass es oft unmöglich ist, einen durchsuchbaren Index zu erstellen, ohne Kopien des zugrunde liegenden Materials anzufertigen. Deshalb erkannten Gerichte zu Recht an, dass es "fair use" war, als **Google** ganze Bücher kopierte, um eine durchsuchbare Datenbank zu erstellen. Die Kopie diente einem transformativen Zweck: der Ermöglichung von Entdeckung, Forschung und neuen Einblicken in kreative Werke.
Das **Internet Archive** arbeitet nach demselben Prinzip. So wie physische Bibliotheken Zeitungen für zukünftige Leser aufbewahren, bewahrt das Archiv die historische Aufzeichnung des Webs. Forscher und Journalisten verlassen sich täglich darauf. Laut Mitarbeitern des Archivs verlinkt **Wikipedia** allein auf mehr als 2,6 Millionen Nachrichtenartikel, die im Archiv archiviert sind und 249 Sprachen umfassen. Und das ist nur ein Beispiel. Unzählige Blogger, Forscher und Reporter sind auf das Archiv als stabile, maßgebliche Aufzeichnung dessen angewiesen, was online veröffentlicht wurde.
Dieselbe rechtlichen Grundsätze, die Suchmaschinen schützen, müssen auch Archive und Bibliotheken schützen. Selbst wenn Gerichte Grenzen für das KI-Training setzen, ist das Gesetz zum Schutz von Suchmaschinen und Web-Archivierung bereits gut etabliert.
Das **Internet Archive** bewahrt die historische Aufzeichnung des Webs seit fast dreißig Jahren. Wenn große Verlage diese Mission zu blockieren beginnen, könnten zukünftige Forscher feststellen, dass riesige Teile dieser historischen Aufzeichnung einfach verschwunden sind. Es gibt reale Streitigkeiten über das KI-Training, die vor Gericht gelöst werden müssen. Aber die Opferung der öffentlichen Aufzeichnung, um diese Kämpfe zu führen, wäre ein tiefgreifender und möglicherweise irreversibler Fehler.