De slag om AI is al even aan de gang en bijna ieder groot tech-bedrijf doet er wel iets mee.
Maar hoe komen ze eigenlijk aan de data waarmee ze AI-modellen trainen? Goede vraag! Dit is gewoon je eigen data!
AI-Bots indexeren en crawlen websites, net als GoogleBot, BingBot en andere, maar in plaats van je content vindbaar te maken via zoekmachines, scrapen ze zoveel mogelijk content voor de training van AI-Modellen. Sommige AI-Bots doen dit vanaf zoveel I.P.-adressen tegelijk dat het verkeer bijna te vergelijken is met een DDoS-aanval!
Gelukkig kun je actie ondernemen en zorgen dat jouw content hier niet voor wordt gebruikt.
Voeg de volgende User-Agents toe aan je robots.txt bestand op je website:
User-agent: AdsBot-Google
User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: FriendlyCrawler
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GPTBot
User-agent: img2dataset
User-agent: ImagesiftBot
User-agent: magpie-crawler
User-agent: Meltwater
User-agent: omgili
User-agent: omgilibot
User-agent: peer39_crawler
User-agent: peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: PiplBot
User-agent: Seekr
User-agent: YouBot
Disallow: /
En voeg een ai.txt bestand toe met de volgende inhoud:
User-Agent: *
Disallow: /
Disallow: *
Er zullen natuurlijk nieuwe AI-bots bijkomen, in het log van je website kun je zien welke dit zijn. De user-agent van deze nieuwe kun je gewoon toevoegen!
Heb je iets gehad aan dit artikel of kom je er niet uit en kunnen wij je helpen?
Laat het ons weten!