出版社対過去:AIパニックはオンラインの歴史を消し去るのか?
ニューヨーク・タイムズやガーディアンを含む主要なニュース出版社が、AIによるスクレイピングへの懸念を理由に、インターネット・アーカイブによるサイトのクロールをブロックしています。この動きは、ジャーナリスト、研究者、そして一般市民が約30年間にわたり頼ってきた、重要な歴史的記録を消し去る危険性があります。
新聞出版社が、図書館が自社の新聞のコピーを保管することを今後許可しないと発表したと想像してみてください。
それが、過去数ヶ月間にオンラインで実際に起こり始めていることです。世界最大のデジタルライブラリである**Internet Archive**は、1990年代半ばにオンラインになって以来、新聞を保存してきました。Archiveの使命は、ウェブを保存し、一般にアクセス可能にすることです。そのために、同組織は**Wayback Machine**を運営しており、現在1兆ページ以上のウェブページがアーカイブされており、ジャーナリスト、研究者、裁判所によって毎日利用されています。
しかし、ここ数ヶ月で**The New York Times**は、ウェブの従来のrobots.txtルールを超える技術的な手段を用いて、Archiveによる自社ウェブサイトのクロールをブロックし始めました。これは、歴史家やジャーナリストが数十年にわたって頼ってきた記録へのアクセスを遮断するリスクがあります。**The Guardian**を含む他の新聞も、これに追随しているようです。
約30年間、歴史家、ジャーナリスト、そして一般市民は、ニュースサイトがオンラインに掲載された当時の姿を保存するために**Internet Archive**に頼ってきました。アーカイブされたページは、記事がどのように最初に公開されたかの唯一の信頼できる記録であることがよくあります。多くの場合、記事は編集され、変更され、削除されます。時には公然と、時にはそうでない場合もあります。**Internet Archive**は、これらの変更を確認するための唯一の情報源となることがよくあります。主要な出版社がArchiveのクローラーをブロックすると、その歴史的記録は消え始めます。
**The Times**は、この動きはAI企業によるニュースコンテンツのスクレイピングへの懸念から来ていると述べています。出版社は自社の作品がどのように使用されるかについて管理を求めており、Timesを含むいくつかの出版社は現在、AI企業に対して、著作権で保護された資料をトレーニングモデルに使用することが法律に違反するかどうかを巡って訴訟を起こしています。そのようなトレーニングはフェアユースであるという強力な主張があります。
これらの訴訟の結果がどうであれ、非営利のアーキビストをブロックすることは間違った対応です。**Internet Archive**のような組織は、商用のAIシステムを構築しているわけではありません。彼らは私たちの歴史の記録を保存しているのです。AIへのアクセスを制御しようとして、その保存を停止することは、ライブラリのようなArchiveが始めず、求めてもいない戦いのために、数十年分の歴史的文書を実質的に焼き尽くすことになりかねません。
出版社がArchiveを締め出すなら、彼らはボットを制限しているだけではありません。彼らは歴史的記録を消し去っているのです。
### アーカイブと検索は合法である
資料を検索可能にすることは、確立されたフェアユースです。裁判所は、基となる資料のコピーを作成せずに検索可能なインデックスを構築することがしばしば不可能であることを長年認識してきました。だからこそ、**Google**が検索可能なデータベースを作成するために書籍全体をコピーしたとき、裁判所はそれを明確なフェアユースとして正しく認識しました。そのコピーは変容的な目的を果たしました。つまり、創造的な作品に関する発見、研究、そして新しい洞察を可能にしたのです。
**Internet Archive**は同じ原則に基づいて運営されています。物理的な図書館が将来の読者のために新聞を保存するのと同じように、Archiveはウェブの歴史的記録を保存しています。研究者やジャーナリストは毎日それに頼っています。Archiveのスタッフによると、**Wikipedia**だけでも、Archiveで保存されている260万件以上のニュース記事にリンクしており、249言語に及びます。そしてそれはほんの一例です。数え切れないほどのブロガー、研究者、レポーターが、オンラインで公開されたものの安定した権威ある記録としてArchiveに依存しています。
検索エンジンを保護するのと同じ法的原則が、アーカイブや図書館も保護しなければなりません。たとえ裁判所がAIトレーニングに制限を課したとしても、検索とウェブアーカイブを保護する法律はすでに確立されています。
**Internet Archive**は、約30年間、ウェブの歴史的記録を保存してきました。主要な出版社がその使命をブロックし始めると、将来の研究者は、その歴史的記録の大部分が単に消滅したことに気づくかもしれません。AIトレーニングに関する実際の論争があり、裁判所で解決される必要があります。しかし、それらの戦いを戦うために公記録を犠牲にすることは、深刻で、おそらく取り返しのつかない間違いとなるでしょう。