7 février 2026
ComputaSYS
Blog
0

Protéger le contenu d’un site web contre l’aspiration massive de données par les modèles d’IA, c’est un choix qui a été effectué par de nombreux propriétaires de sites web. Mais, comment s’y prendre ? Comment obtenir une liste exhaustive des robots IA ?

Si vous lisez cet article, c’est probablement que vous êtes déjà convaincu que c’est la bonne décision. En réalité, je pense que cela dépend du contexte et du contenu présent sur votre site web. S’il s’agit d’un site vitrine utilisé pour votre société, vous avez tout intérêt à ce que les IA vous rendent visite. À l’inverse, s’il s’agit d’une base de connaissances, vous n’apprécierez surement pas que ChatGPT, Gemini et consorts viennent pomper votre travail. Cela pose des questions en matière de propriété intellectuelle et de consommation de ressources serveur.

Sur GitHub, un projet nommé ai.robots.txt apporte une réponse à tous ceux qui veulent une réponse à cette question : comment bloquer tous les robots IA ? Il s’agit d’une liste contenant tous les types de robots d’indexation liés à l’IA, quel que soit leur objectif. Une liste qui a pour objectif d’être la plus complète et la plus exhaustive possible. Actuellement, une centaine de robots IA sont référencés dans cette liste.

Cette liste est implémentable de différentes façons, que ce soit directement au niveau du fichier robots.txt ou en allant bloquer les requêtes au niveau du serveur Web ou du reverse proxy.

Méthode 1 : utiliser le fichier robots.txt

C’est probablement la méthode la plus simple et la plus respectueuse des standards : elle consiste à utiliser le fichier robots.txt. Ce fichier, placé à la racine de votre site web, donne des instructions aux agents utilisateurs (user-agent). Il s’applique à tous les robots d’une façon générale, et pas uniquement à ceux liés à l’IA.

Note : à chaque fois qu’un utilisateur (un client web) consulte une page web, il se présente avec un user-agent permettant de l’identifier. Il en existe une multitude, à commencer par chaque navigateur web qui dispose d’une chaine user-agent identifiable.

Le fichier robots.txt est un fichier texte public positionné à la racine des sites web. Les robots d’exploration des moteurs de recherche, comme Google, le consultent avant d’explorer un site. Ils donnent des directives sur ce qui peut être exploré (puis indexé) ou non.

Pour bloquer les IA, vous devez donc identifier leur “User-Agent” spécifique et ajouter une instruction pour leur indiquer qu’ils ne sont pas les bienvenus. Par exemple, le robot d’OpenAI se nomme GPTBot, il est notamment utilisé par ChatGPT.

Voici un exemple de configuration pour bloquer les principaux acteurs :

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Le robots.txt est indicatif. Autrement dit, des robots peu scrupuleux peuvent l’ignorer, alors que des robots respectueux (éduqués, pourrait-on dire) vont respecter les règles. C’est pourquoi il peut s’avérer utile de coupler cette approche avec des méthodes plus robustes au niveau du serveur.

Méthode 2 : blocage des robots IA au niveau du serveur web

Pour une protection plus active, vous pouvez configurer votre serveur web pour rejeter les requêtes provenant de ces agents avant même qu’ils n’accèdent au contenu. Ce type de configuration peut s’appliquer à un serveur Web Apache2, Nginx ou encore Caddy.

Configuration pour Apache (.htaccess)

Si vous utilisez Apache, vous pouvez modifier le fichier de configuration de votre site web ou directement le fichier .htaccess qui est lu dynamiquement. Cette méthode permet de renvoyer un code d’erreur (403 Forbidden, pour un accès internet) lorsqu’un robot IA tente d’accéder à une page.

En vous basant sur une liste communautaire comme celle fournie par le projet ai.robots.txt, vous pouvez ajouter des règles de réécriture pour rejeter les robots AI. Voici d’ailleurs les trois directives à inclure pour bloquer l’ensemble des robots IA présents dans cette liste (code source sur cette page). Cette configuration s’appuie sur le module rewrite d’Apache2.

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (AddSearchBot|AI2Bot|AI2Bot\-DeepResearchEval|Ai2Bot\-Dolma|aiHitBot|amazon\-kendra|Amazonbot|AmazonBuyForMe|Andibot|Anomura|anthropic\-ai|Applebot|Applebot\-Extended|atlassian\-bot|Awario|bedrockbot|bigsur\.ai|Bravebot|Brightbot\ 1\.0|BuddyBot|Bytespider|CCBot|Channel3Bot|ChatGLM\-Spider|ChatGPT\ Agent|ChatGPT\-User|Claude\-SearchBot|Claude\-User|Claude\-Web|ClaudeBot|Cloudflare\-AutoRAG|CloudVertexBot|cohere\-ai|cohere\-training\-data\-crawler|Cotoyogi|Crawl4AI|Crawlspace|Datenbank\ Crawler|DeepSeekBot|Devin|Diffbot|DuckAssistBot|Echobot\ Bot|EchoboxBot|FacebookBot|facebookexternalhit|Factset_spyderbot|FirecrawlAgent|FriendlyCrawler|Gemini\-Deep\-Research|Google\-CloudVertexBot|Google\-Extended|Google\-Firebase|Google\-NotebookLM|GoogleAgent\-Mariner|GoogleOther|GoogleOther\-Image|GoogleOther\-Video|GPTBot|iAskBot|iaskspider|iaskspider/2\.0|IbouBot|ICC\-Crawler|ImagesiftBot|imageSpider|img2dataset|ISSCyberRiskCrawler|Kangaroo\ Bot|KlaviyoAIBot|KunatoCrawler|laion\-huggingface\-processor|LAIONDownloader|LCC|LinerBot|Linguee\ Bot|LinkupBot|Manus\-User|meta\-externalagent|Meta\-ExternalAgent|meta\-externalfetcher|Meta\-ExternalFetcher|meta\-webindexer|MistralAI\-User|MistralAI\-User/1\.0|MyCentralAIScraperBot|netEstate\ Imprint\ Crawler|NotebookLM|NovaAct|OAI\-SearchBot|omgili|omgilibot|OpenAI|Operator|PanguBot|Panscient|panscient\.com|Perplexity\-User|PerplexityBot|PetalBot|PhindBot|Poggio\-Citations|Poseidon\ Research\ Crawler|QualifiedBot|QuillBot|quillbot\.com|SBIntuitionsBot|Scrapy|SemrushBot\-OCOB|SemrushBot\-SWA|ShapBot|Sidetrade\ indexer\ bot|Spider|TavilyBot|TerraCotta|Thinkbot|TikTokSpider|Timpibot|TwinAgent|VelenPublicWebCrawler|WARDBot|Webzio\-Extended|webzio\-extended|wpbot|WRTNBot|YaK|YandexAdditional|YandexAdditionalBot|YouBot|ZanistaBot) [NC]
RewriteRule !^/?robots\.txt$ – [F]

Configuration pour Nginx

Dans le cas où vous utilisez le serveur web Nginx, vous pouvez créer un fichier de configuration pour inclure les bonnes règles. Par exemple, créez le fichier nginx-block-ai-bots.conf, puis insérez la configuration fournie sur le dépôt GitHub du projet mentionné dans cet article.

set $block 0;

if ($http_user_agent ~* “(AddSearchBot|AI2Bot|AI2Bot\-DeepResearchEval|Ai2Bot\-Dolma|aiHitBot|amazon\-kendra|Amazonbot|AmazonBuyForMe|Andibot|Anomura|anthropic\-ai|Applebot|Applebot\-Extended|atlassian\-bot|Awario|bedrockbot|bigsur\.ai|Bravebot|Brightbot\ 1\.0|BuddyBot|Bytespider|CCBot|Channel3Bot|ChatGLM\-Spider|ChatGPT\ Agent|ChatGPT\-User|Claude\-SearchBot|Claude\-User|Claude\-Web|ClaudeBot|Cloudflare\-AutoRAG|CloudVertexBot|cohere\-ai|cohere\-training\-data\-crawler|Cotoyogi|Crawl4AI|Crawlspace|Datenbank\ Crawler|DeepSeekBot|Devin|Diffbot|DuckAssistBot|Echobot\ Bot|EchoboxBot|FacebookBot|facebookexternalhit|Factset_spyderbot|FirecrawlAgent|FriendlyCrawler|Gemini\-Deep\-Research|Google\-CloudVertexBot|Google\-Extended|Google\-Firebase|Google\-NotebookLM|GoogleAgent\-Mariner|GoogleOther|GoogleOther\-Image|GoogleOther\-Video|GPTBot|iAskBot|iaskspider|iaskspider/2\.0|IbouBot|ICC\-Crawler|ImagesiftBot|imageSpider|img2dataset|ISSCyberRiskCrawler|Kangaroo\ Bot|KlaviyoAIBot|KunatoCrawler|laion\-huggingface\-processor|LAIONDownloader|LCC|LinerBot|Linguee\ Bot|LinkupBot|Manus\-User|meta\-externalagent|Meta\-ExternalAgent|meta\-externalfetcher|Meta\-ExternalFetcher|meta\-webindexer|MistralAI\-User|MistralAI\-User/1\.0|MyCentralAIScraperBot|netEstate\ Imprint\ Crawler|NotebookLM|NovaAct|OAI\-SearchBot|omgili|omgilibot|OpenAI|Operator|PanguBot|Panscient|panscient\.com|Perplexity\-User|PerplexityBot|PetalBot|PhindBot|Poggio\-Citations|Poseidon\ Research\ Crawler|QualifiedBot|QuillBot|quillbot\.com|SBIntuitionsBot|Scrapy|SemrushBot\-OCOB|SemrushBot\-SWA|ShapBot|Sidetrade\ indexer\ bot|Spider|TavilyBot|TerraCotta|Thinkbot|TikTokSpider|Timpibot|TwinAgent|VelenPublicWebCrawler|WARDBot|Webzio\-Extended|webzio\-extended|wpbot|WRTNBot|YaK|YandexAdditional|YandexAdditionalBot|YouBot|ZanistaBot)”) {
set $block 1;
}

if ($request_uri = “/robots.txt”) {
set $block 0;
}

if ($block) {
return 403;
}

Cette configuration détecte et bloque l’accès à votre site pour une vaste liste de robots d’IA et de scrapers en analysant leur User-Agent et en leur renvoyant une erreur 403. Elle inclut toutefois une exception permettant à ces robots de consulter le fichier robots.txt pour lire les règles d’indexation, avant d’être rejetés.

Vous n’avez ensuite qu’à appeler ce fichier de configuration dans le bloc server{} correspondant à votre site web. Une ligne comme celle-ci devra être intégrée :

server {
[…]
include /chemin/vers/fichier/nginx-block-ai-bots.conf;
}

Méthode 3 : blocage via le reverse proxy

Si vous utilisez un reverse proxy en frontal de votre serveur ou de vos serveurs web, vous pouvez appliquer le blocage directement à cet emplacement. Cela évitera que la requête du bot IA n’atteigne votre serveur Web. Là encore, le projet ai.robots.txt donne des instructions pour appliquer cette configuration sur plusieurs reverse proxy, dont HAProxy et Traefik.

Voici, par exemple, comment configurer HAProxy pour bloquer les robots IA via une ACL (liste de contrôle d’accès) qui lit la liste dans un fichier externe. Dans la section frontend de votre configuration, ajoutez :

acl ai_robot hdr_sub(user-agent) -i -f /etc/haproxy/haproxy-block-ai-bots.txt
http-request deny if ai_robot

Le fichier haproxy-block-ai-bots.txt contiendra simplement une liste de noms de robots, un par ligne.

Si vous utilisez Traefik, il y a un middleware (plugin) pour automatiquement ajouter des règles dans le fichier robots.txt à la volée. De ce fait, la requête n’est pas bloquée, mais les règles sont ajoutées automatiquement sur tous les services web où le middleware est associé.

Conclusion

Le blocage des robots IA est un sujet chaud, car cela pose plein de questions, y compris en matière de respect des droits d’auteur. Plutôt que d’utiliser la liste évoquée dans cet article, vous pouvez aussi bloquer les robots IA directement au niveau de Cloudflare, si vous utilisez ce service. Gardez à l’esprit que les robots IA ont toujours moyen de contourner vos restrictions, mais cela sera un comportement volontaire (ignorer les règles du robots.txt, modifier la chaine User-Agent, etc.).

Terminons par une question importante : le blocage des robots IA nuit-il à mon référencement (SEO) ? Non, si vous ciblez spécifiquement les robots d’entraînement (comme GPTBot) et non les robots d’indexation classiques (comme Googlebot). Autrement dit, ciblez bien les robots IA (ChatGPT, Claude, Gemini, etc…) et pas ceux utilisés par Google et Bing pour référencer votre site web. Dans le cas présent, vous serez uniquement pénalisé vis-à-vis des IA qui ne vont pas forcément driver du trafic vers votre site web.

Ingénieur système et réseau, cofondateur d’IT-Connect et Microsoft MVP “Cloud and Datacenter Management”. Je souhaite partager mon expérience et mes découvertes au travers de mes articles. Généraliste avec une attirance particulière pour les solutions Microsoft et le scripting. Bonne lecture.

Source link