【簡単】ChatGPTから学習を防ぐ、クロールを防止する方法

ChatGPT 学習禁止 著作権 クロール禁止
  • URLをコピーしました!

AIによる著作権侵害が問題化していますが、それはイラストや音楽のクリエイティブ作品に限らず、情報や文章にも該当します。その為、ChatGPTにサイトを勝手に学習されたくない、という場合。
ChatGPTの開発元「OpenAI」が公式に発表している、クローリング制限をする方法があります。今回はそちらを紹介いたします。

目次(Tapでジャンプ)

ChatGPTはどこから学習しているのか

Webスクレイピングでクローラーが情報収集を行っている

ChatGPTの学習データは膨大な量が必要ですので、Web上の記事などから「スクレイピング」という手法を用いてクローラー(ロボット)が情報を収集しています。

スクレイピングとは スクレイピングとは、Webサイトのコンテンツの中から特定の情報だけを抽出・取集する技術・行為です。 「ウェブスクレイピング」とも呼ばれています。

https://www.f5.com/

では、そのクローラーがサイトに訪れないようにする方法はあるのでしょうか?

ChatGPTに学習されないようにするには?クローラーのアクセスを禁止するには

https://platform.openai.com/docs/gptbot

ChatGPTの学習(アクセス)を禁止するには、実はOpenAIが公式に発表している方法があります。

ただし、WebサーバーのファイルマネージャーやFTPソフトを用いて直接サーバーファイルを触る必要がありますのでご注意ください。

GPTBotのアクセス制限方法(robots.txt使用)

STEP
robots.txtを作成する
User-agent: GPTBot
Disallow: /

上記の内容でrobots.txtファイルを作成、もしくは既存のrobots.txtに追記します。

STEP
サイトのルートディレクトリにアップロード

GPTBotにアクセスされたくないサイトのルートディレクトリにアップロードします。これで完了です。

こちらの内容は、サイトのrobots.txt(Webクローラーに対してクロールの指示を行うファイル)に、GPTBotがアクセスしないように指示する事で、GPTBotの学習を防ぐ仕組みです。

ChatGPTから学習を防ぐ、クロールを防止する方法 まとめ

当記事がご参考になりましたら幸いです。

  • URLをコピーしました!
  • URLをコピーしました!

この記事の著者情報

ぷいのアバター ぷい 編集長

PUIZU編集長のぷいです。幅広い情報発信を行っています。

目次<small>(Tapでジャンプ)</small>