
Im Internet nehmen KI-Bots zunehmend zu, die Websites crawlen und Inhalte potenziell für das Training von Modellen verwenden. Wer dies verhindern möchte, kann versuchen, den Zugriff solcher Bots technisch zu beschränken oder zu unterbinden.
Obwohl das Sperren von KI-Bots auf den ersten Blick einfach erscheint, gestaltet sich dies in der Praxis häufig schwierig und kann mit Kosten verbunden sein. Im Folgenden werden einige in der Praxis verwendete Methoden vorgestellt und deren Wirksamkeit erläutert.
Methode 1: robots.txt
Der erste Schritt führt natürlich gleich zur "robots.txt"-Datei, die im Root-Verzeichnis jeder Website liegen sollte. In dieser Datei sind Regeln festgelegt, wie sich Bots auf der Website verhalten sollen und welche Inhalte oder Bereiche für sie gesperrt sind.
Die großen Bots von Google, Bing und vielen anderen lesen die "robots.txt"-Datei vor dem Crawlen und prüfen, was ihnen nicht gestattet ist.
Aber funktioniert das auch für KI-Bots?
Zunächst einmal kann es nicht schaden, den Inhalt der "robots.txt" um die folgenden Inhalte zu erweitern, um den großen KI-Bots schon einmal den Zugriff auf die Website einzuschränken:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Amazonbot
Disallow: /
Es ist einfach, aber wie wirkungsvoll ist es?
Auf einen großen Erfolg sollte man sich nicht verlassen, da die Regeln in der "robots.txt" freiwillig sind. Bots sind nicht verpflichtet, diese Vorgaben zu beachten, und können sie ignorieren.
Diese Methode ist in der Praxis weitgehend wirkungslos, da ein Großteil der KI-Bots freiwillige Regeln wie die "robots.txt" ignoriert. Zudem existieren zahlreiche Bots, für die derartige Vorgaben keinerlei Relevanz haben.
Methode 2: Meta-Tags
Weiterhin besteht die Möglichkeit, eine Seitenregel durch Meta Tags umzusetzen. Dazu muss in die entsprechenden Seiten oder in jede Seite der Website ein Meta Tag eingefügt werden, das sich speziell an die KI-Bots richtet und ungefähr so aussehen kann:
<meta name="robots" content="noai, noimageai, nosnippet">
Dies verbietet die Nutzung der Seite ausdrücklich für KI-Zwecke, für die Bildgenerierung und auch für die Erstellung von Snippets. An dieser Stelle muss ich darauf hinweisen, dass Googlebot und andere diese Regelung dahingehend verstehen, dass sie keine Snippets von der Seite in den Suchergebnissen anzeigen dürfen.
Es sollte sich um diese Art von Snippets handeln, die beispielsweise bei Google eingeblendet werden, um schnelle Antworten zu geben und dabei die Quellseite zu verlinken:
Das bedeutet, dass die Website dadurch an Sichtbarkeit verlieren könnte. Wer die maximale Auffindbarkeit bei Google und anderen Suchmaschinen sicherstellen möchte, sollte das zuvor genannte Meta-Tag daher besser nicht einsetzen.
Methode 3: CDN und CAPTCHA
Die letzte Methode, die am effektivsten bei der Beseitigung von Bot-Traffic auf der Website ist, besteht darin, die Bots auf DNS-Level oder durch CAPTCHA auszusperren.
Das ist mit Abstand der beste Weg, um jeglichen Bot-Traffic auf der Website zu reduzieren.
Anbieter wie Cloudflare, Fastly oder Akamai verfügen über Technologien, die auf Grundlage bekannter Bot-IP-Adressen entscheiden können, ob ein Besucher auf der Website eher ein Mensch oder ein Bot ist.
Wenn es sich um einen Bot handelt, wird zusätzlich geprüft, ob es sich um einen guten oder eher bösen Bot handelt. Das bedeutet, dass Bots einer Suchmaschine in der Regel passieren können. Alle anderen werden entweder ganz geblockt oder müssen ein CAPTCHA lösen, das für Bots schwer zu lösen ist.
Fazit
Bot-Traffic stellt seit jeher ein erhebliches Problem dar. Bots durchsuchen das Internet, kopieren Inhalte und sammeln personenbezogene Daten wie E-Mail-Adressen, Postadressen oder Namen, um daraus Listen zu erstellen, die anschließend auf dem Schwarzmarkt gehandelt werden.
Hinzu kommen zunehmend KI-Bots, die das Internet durchsuchen, um Textinhalte und Bilder zu sammeln, welche anschließend zur Verbesserung von KI-Technologien genutzt werden. Dies kann bei vielen Websitebetreibern zu Bedenken führen.
Es besteht die Möglichkeit, die zuvor beschriebenen Maßnahmen umzusetzen, um automatisierten Zugriff einzuschränken. Als besonders wirksam gelten dabei Lösungen auf DNS-Ebene sowie CAPTCHA-Systeme. Diese Funktionen sind jedoch häufig nur im Rahmen kostenpflichtiger Dienste verfügbar.
Bei Cloudflare beginnen entsprechende Funktionen bei etwa 10 USD pro Monat, während vergleichbare Lösungen bei anderen Anbietern teilweise deutlich höhere Kosten verursachen können.
Indem man die Bots gezielt aussperrt, hilft man, den Schaden durch KI-generierte Texte im Internet einzudämmen, auch wenn hierfür monatliche Kosten anfallen.
All-Inklusive WordPress-Betreuung
Mit der All-Inklusive Betreuung bleibt Ihre Website technisch auf dem neuesten Stand, wird inhaltlich gepflegt und kontinuierlich optimiert — ganz ohne Aufwand für Sie.