Editoras vs. o Passado: A Histeria da IA está Apagando a História Online?
Grandes editoras de notícias, incluindo **The New York Times** e **The Guardian**, estão bloqueando o **Internet Archive** de rastrear seus sites, citando preocupações com o scraping de IA. Essa medida ameaça apagar um registro histórico crucial do qual jornalistas, pesquisadores e o público dependem há quase três décadas.
Imagine uma editora de jornal anunciando que não permitirá mais que bibliotecas guardem cópias de seu periódico.
É essencialmente o que começou a acontecer online nos últimos meses. O **Internet Archive** — a maior biblioteca digital do mundo — preserva jornais desde que entrou online em meados da década de 1990. A missão do Archive é preservar a web e torná-la acessível ao público. Para esse fim, a organização opera a **Wayback Machine**, que agora contém mais de um trilhão de páginas da web arquivadas e é usada diariamente por jornalistas, pesquisadores e tribunais.
Mas, nos últimos meses, o **The New York Times** começou a bloquear o Archive de rastrear seu site, usando medidas técnicas que vão além das regras tradicionais de robots.txt da web. Isso corre o risco de interromper um registro do qual historiadores e jornalistas dependem há décadas. Outros jornais, incluindo **The Guardian**, parecem estar seguindo o exemplo.
Por quase três décadas, historiadores, jornalistas e o público confiaram no **Internet Archive** para preservar sites de notícias como apareciam online. Essas páginas arquivadas são frequentemente o único registro confiável de como as histórias foram originalmente publicadas. Em muitos casos, artigos são editados, alterados ou removidos — às vezes abertamente, às vezes não. O **Internet Archive** muitas vezes se torna a única fonte para ver essas mudanças. Quando grandes editoras bloqueiam os crawlers do Archive, esse registro histórico começa a desaparecer.
O **Times** afirma que a medida é motivada por preocupações sobre empresas de IA que fazem scraping de conteúdo de notícias. As editoras buscam controle sobre como seu trabalho é usado, e várias — incluindo o Times — estão agora processando empresas de IA sobre se o treinamento de modelos com material protegido por direitos autorais viola a lei. Há um forte argumento de que tal treinamento é uso justo.
Independentemente do resultado desses processos, bloquear arquivistas sem fins lucrativos é a resposta errada. Organizações como o **Internet Archive** não estão construindo sistemas comerciais de IA. Elas estão preservando um registro de nossa história. Desligar essa preservação na tentativa de controlar o acesso à IA poderia essencialmente queimar décadas de documentação histórica por causa de uma luta que bibliotecas como o Archive não iniciaram e não pediram.
Se as editoras fecharem o Archive, elas não estarão apenas limitando bots. Elas estarão apagando o registro histórico.
### Arquivamento e Busca São Legais
Tornar material pesquisável é um uso justo bem estabelecido. Tribunais reconhecem há muito tempo que é frequentemente impossível construir um índice pesquisável sem fazer cópias do material subjacente. É por isso que, quando o **Google** copiou livros inteiros para criar um banco de dados pesquisável, os tribunais corretamente o reconheceram como um claro uso justo. A cópia serviu a um propósito transformador: possibilitar descoberta, pesquisa e novas percepções sobre obras criativas.
O **Internet Archive** opera sob o mesmo princípio. Assim como bibliotecas físicas preservam jornais para leitores futuros, o Archive preserva o registro histórico da web. Pesquisadores e jornalistas dependem dele todos os dias. De acordo com a equipe do Archive, apenas a **Wikipedia** lista mais de 2,6 milhões de artigos de notícias preservados no Archive, abrangendo 249 idiomas. E esse é apenas um exemplo. Inúmeros blogueiros, pesquisadores e repórteres dependem do Archive como um registro estável e confiável do que foi publicado online.
Os mesmos princípios legais que protegem os mecanismos de busca também devem proteger arquivos e bibliotecas. Mesmo que os tribunais imponham limites ao treinamento de IA, a lei que protege a busca e o arquivamento da web já está bem estabelecida.
O **Internet Archive** preserva o registro histórico da web há quase trinta anos. Se as principais editoras começarem a bloquear essa missão, futuros pesquisadores podem descobrir que grandes porções desse registro histórico simplesmente desapareceram. Existem disputas reais sobre o treinamento de IA que devem ser resolvidas nos tribunais. Mas sacrificar o registro público para lutar essas batalhas seria um erro profundo e possivelmente irreversível.