News
Stefan Kellenberger 1 Min. Lesezeit

AI-Crawler im Hosting-Alltag: zulassen oder blockieren?

GPTBot, ClaudeBot, PerplexityBot und Google-Extended durchstreifen die Webserver-Logs. Wir erklären, wann eine llms.txt sinnvoll ist und wie Sie selektiv blockieren.

Seit 2023 ist eine neue Generation von Crawlern unterwegs: GPTBot von OpenAI, ClaudeBot von Anthropic, PerplexityBot, Google-Extended und Applebot-Extended. Sie sammeln Inhalte für das Training und das Live-Suchen ihrer AI-Modelle. In den Logfiles unserer Kunden sind diese Crawler inzwischen ein nennenswerter Anteil des nicht-menschlichen Traffics.

Die Frage ob zulassen oder blockieren ist keine technische, sondern eine strategische:

Für Marketing-Websites ist eine Indexierung in AI-Tools wertvoll – wer in ChatGPT genannt wird, wenn jemand nach KMU-Hosting Schweiz fragt, hat einen Lead-Gewinn.

Für Premium-Content (Newsletter-Inhalte, kostenpflichtige Artikel) sollte explizit blockiert werden, damit AI-Modelle den Content nicht kostenlos reproduzieren.

Für Shop-Produktseiten ist eine differenzierte Strategie sinnvoll: Produktbeschreibungen ja, Preise und Lagerbestände nein.

Technisch läuft die Steuerung über zwei Dateien: robots.txt mit User-agent-spezifischen Allow/Disallow-Regeln, und llms.txt im llmstxt.org-Format mit einer kuratierten Markdown-Übersicht der wichtigsten Inhalte. Letzteres ist die für AI-Modelle freundlichere Variante – ein vorgefertigter Crawler-Snack statt einer Site-Erkundung.

Wir haben für cyberdine.ch beides eingerichtet und beraten Kunden gerne, was für deren Use-Case sinnvoll ist.