Bescherm je content en blokkeer AI-bots

De slag om AI is al even aan de gang en bijna ieder groot tech-bedrijf doet er wel iets mee.
Maar hoe komen ze eigenlijk aan de data waarmee ze AI-modellen trainen? Goede vraag! Dit is gewoon je eigen data!

AI-Bots indexeren en crawlen websites, net als GoogleBot, BingBot en andere, maar in plaats van je content vindbaar te maken via zoekmachines, scrapen ze zoveel mogelijk content voor de training van AI-Modellen. Sommige AI-Bots doen dit vanaf zoveel I.P.-adressen tegelijk dat het verkeer bijna te vergelijken is met een DDoS-aanval!

Gelukkig kun je actie ondernemen en zorgen dat jouw content hier niet voor wordt gebruikt.
Voeg de volgende User-Agents toe aan je robots.txt bestand op je website:

User-agent: AdsBot-Google User-agent: Amazonbot User-agent: anthropic-ai User-agent: Applebot User-agent: AwarioRssBot User-agent: AwarioSmartBot User-agent: Bytespider User-agent: CCBot User-agent: ChatGPT-User User-agent: ClaudeBot User-agent: Claude-Web User-agent: cohere-ai User-agent: DataForSeoBot User-agent: FacebookBot User-agent: FriendlyCrawler User-agent: Google-Extended User-agent: GoogleOther User-agent: GPTBot User-agent: img2dataset User-agent: ImagesiftBot User-agent: magpie-crawler User-agent: Meltwater User-agent: omgili User-agent: omgilibot User-agent: peer39_crawler User-agent: peer39_crawler/1.0 User-agent: PerplexityBot User-agent: PiplBot User-agent: Seekr User-agent: YouBot Disallow: /

En voeg een ai.txt bestand toe met de volgende inhoud:

User-Agent: * Disallow: / Disallow: *

Er zullen natuurlijk nieuwe AI-bots bijkomen, in het log van je website kun je zien welke dit zijn. De user-agent van deze nieuwe kun je gewoon toevoegen!

Heb je iets gehad aan dit artikel of kom je er niet uit en kunnen wij je helpen?
Laat het ons weten!

Geef een reactie Reactie annuleren