Seit 2023 ist eine neue Generation von Crawlern unterwegs: GPTBot von OpenAI, ClaudeBot von Anthropic, PerplexityBot, Google-Extended und Applebot-Extended. Sie sammeln Inhalte für das Training und das Live-Suchen ihrer AI-Modelle. In den Logfiles unserer Kunden sind diese Crawler inzwischen ein nennenswerter Anteil des nicht-menschlichen Traffics.
Die Frage ob zulassen oder blockieren ist keine technische, sondern eine strategische:
Für Marketing-Websites ist eine Indexierung in AI-Tools wertvoll – wer in ChatGPT genannt wird, wenn jemand nach KMU-Hosting Schweiz fragt, hat einen Lead-Gewinn.
Für Premium-Content (Newsletter-Inhalte, kostenpflichtige Artikel) sollte explizit blockiert werden, damit AI-Modelle den Content nicht kostenlos reproduzieren.
Für Shop-Produktseiten ist eine differenzierte Strategie sinnvoll: Produktbeschreibungen ja, Preise und Lagerbestände nein.
Technisch läuft die Steuerung über zwei Dateien: robots.txt mit User-agent-spezifischen Allow/Disallow-Regeln, und llms.txt im llmstxt.org-Format mit einer kuratierten Markdown-Übersicht der wichtigsten Inhalte. Letzteres ist die für AI-Modelle freundlichere Variante – ein vorgefertigter Crawler-Snack statt einer Site-Erkundung.
Wir haben für cyberdine.ch beides eingerichtet und beraten Kunden gerne, was für deren Use-Case sinnvoll ist.