robots.txt はサイト内をクロールする再のルールを記述したファイルです。
自動でクロールを行う際は、このファイルを確認してアクセスを制御したり、クロールしてもらうためのURLを記載します。
しかし、robots.txtを無視したクロールを行うことも可能です。
これが、新聞業界では問題になっています。
背景には自然言語を扱うAI、生成AIの進歩があります。
生成AIに質問を投げかけると回答を得ることができます。
生成AIは情報源としてサイトをクロールし、記事をAIの学習データとして使用します。
この時に、robots.txtが無視されていることで、サイトへの訪問者減り、利益の減少につながっているようです。