← Zpět na blog

Kompletní průvodce robots.txt pro weby, které chtějí být dostupné pro AI chatboty, ale ne pro nežádoucí roboty

Jak nastavit robots.txt tak, abyste byli viditelní ve vyhledávačích i AI asistentech, ale omezili trénovací crawlery a nežádoucí roboty. Praktické příklady, nejčastější chyby a kontrolní seznam.

1. Co je robots.txt a proč ho řešit

robots.txt je jednoduchý textový soubor umístěný v kořeni webu, typicky na adrese:

https://www.vasedomena.cz/robots.txt

Jeho úkolem je sdělit robotům, crawlerům a vyhledávačům, kam na webu smějí a kam nemají chodit. Google popisuje robots.txt jako nástroj, který říká crawlerům, které URL mohou navštívit; primárně slouží k řízení crawlování a zátěže serveru, ne jako bezpečnostní mechanismus.

Důležitá věc: robots.txt není zámek. Je to dohoda. Seriózní roboti ji respektují, škodliví roboti ji mohou ignorovat. Soukromá data, administrace, neveřejné dokumenty nebo zákaznické informace nikdy nechráníte přes robots.txt; k tomu patří přihlášení, hesla, firewall, omezení IP adres nebo správné nastavení CMS/serveru. MDN výslovně upozorňuje, že robots.txt se nemá používat ke skrývání citlivých částí webu.

2. Vyhledávače vs. AI chatboti: v čem je rozdíl

U klasických vyhledávačů, jako je Google nebo Bing, bývá cíl jasný: robot projde web, uloží si informace do indexu a stránka se pak může zobrazit ve výsledcích vyhledávání.

U moderních AI systémů je situace složitější. Jeden provozovatel může mít více robotů s různým účelem:

  • vyhledávací crawler – pomáhá zobrazit nebo citovat váš obsah v AI odpovědích,
  • training crawler – sbírá veřejný obsah pro trénování nebo zlepšování modelů,
  • user-triggered agent – přijde na web až ve chvíli, kdy konkrétní uživatel požádá chatbota, aby stránku otevřel.

Například OpenAI rozlišuje mimo jiné GPTBot, OAI-SearchBot a ChatGPT-User; každý má jiný účel a lze ho v robots.txt řídit samostatně. Anthropic podobně uvádí, že ClaudeBot slouží pro budoucí trénovací datasety, zatímco Claude-User se používá pro uživatelsky vyvolané požadavky v Claude.

Prakticky to znamená: neblokujte bezmyšlenkovitě všechny AI roboty, pokud chcete být dohledatelní v AI odpovědích. Často dává smysl povolit roboty pro vyhledávání a uživatelské dotazy, ale blokovat roboty určené pro trénování modelů.

3. Základní syntaxe robots.txt

Nejjednodušší pravidlo vypadá takto:

User-agent: *
Disallow:

Význam:

  • User-agent: * znamená „platí pro všechny roboty”.
  • Prázdné Disallow: znamená „nic nezakazuji”.

Úplné zablokování celého webu by vypadalo takto:

User-agent: *
Disallow: /

Toto na produkčním webu používejte velmi opatrně. Blokuje crawling celého webu pro roboty, kteří pravidla respektují. Pokud omylem zablokujete Googlebot nebo Bingbot, můžete poškodit viditelnost ve vyhledávání.

Blokování konkrétní sekce:

User-agent: *
Disallow: /admin/
Disallow: /kosik/
Disallow: /interni/

Povolení konkrétní sekce uvnitř blokované části:

User-agent: *
Disallow: /media/
Allow: /media/verejne/

Doporučené přidání sitemap:

Sitemap: https://www.vasedomena.cz/sitemap.xml

4. Doporučený přístup pro běžný firemní nebo obsahový web

Pro většinu webů je rozumná strategie:

  1. Nechat Google a Bing bez blokace, aby neutrpěla SEO viditelnost.
  2. Povolit AI roboty, které pomáhají s dohledatelností a citacemi.
  3. Blokovat trénovací crawlery, pokud nechcete, aby váš obsah byl používán pro trénování modelů.
  4. Blokovat citlivé a technické části webu, například administraci, interní vyhledávání, košík, parametrové filtry.
  5. Nespoléhat na robots.txt jako na zabezpečení.

5. Konkrétní příklady robots.txt

Varianta A: Web chce být dostupný pro Google, Bing a AI odpovědi, ale nechce trénování modelů

Toto je dobrý výchozí vzor pro weby, které chtějí být viditelné ve vyhledávačích i AI asistentech, ale chtějí omezit použití obsahu pro trénování.

# robots.txt pro běžný veřejný web

# 1) Běžné vyhledávače: povoleno
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# 2) OpenAI: povolit vyhledávání a uživatelské dotazy, blokovat trénovací crawler
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: GPTBot
Disallow: /

# 3) Anthropic / Claude: povolit uživatelské dotazy, blokovat trénovací crawler
User-agent: Claude-User
Allow: /

User-agent: ClaudeBot
Disallow: /

# 4) Perplexity: povolit vyhledávací crawler
User-agent: PerplexityBot
Allow: /

# 5) Google AI: neblokovat Googlebot, ale omezit Google-Extended
User-agent: Google-Extended
Disallow: /

# 6) Common Crawl: často používaný jako zdroj veřejných datasetů
User-agent: CCBot
Disallow: /

# 7) Obecná pravidla pro ostatní roboty
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /ucet/
Disallow: /search
Disallow: /*?s=
Allow: /

# 8) Sitemap
Sitemap: https://www.vasedomena.cz/sitemap.xml

Poznámky:

  • GPTBot je vhodné řešit samostatně od ChatGPT-User a OAI-SearchBot, protože OpenAI je rozlišuje podle účelu.
  • ClaudeBot a Claude-User také nemají stejný účel; Anthropic uvádí, že ClaudeBot souvisí s budoucími trénovacími datasety, zatímco Claude-User podporuje uživatelské dotazy.
  • Google-Extended není totéž co Googlebot. Google dokumentuje své crawlery samostatně a seznam user-agent tokenů průběžně aktualizuje.
  • Perplexity uvádí PerplexityBot jako crawler pro zobrazování a odkazování webů ve výsledcích Perplexity; podle jejich dokumentace může trvat až 24 hodin, než se změny projeví.
  • CCBot je crawler Common Crawl; Common Crawl uvádí, že ho lze blokovat přes User-agent: CCBot a doporučuje ověřovat pravost crawleru, protože user-agent lze podvrhnout.

Varianta B: Web chce maximální AI viditelnost

Tuto variantu použijte, pokud vám nevadí širší přístup AI crawlerů a chcete maximalizovat šanci, že vás AI asistenti najdou, přečtou a případně ocitují.

# Maximálně otevřený veřejný web

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /ucet/
Disallow: /interni/
Allow: /

Sitemap: https://www.vasedomena.cz/sitemap.xml

Tato varianta je vhodná například pro:

  • magazíny,
  • dokumentace,
  • produktové katalogy,
  • veřejné znalostní báze,
  • weby, které chtějí získávat návštěvnost z AI odpovědí.

Není vhodná pro weby, které chtějí striktně omezit využití obsahu pro trénování AI.

Varianta C: Web chce AI chatbotům povolit jen veřejný obsah a blokovat obchodní nebo interní sekce

# Povolení veřejného obsahu, blokace citlivějších částí

User-agent: OAI-SearchBot
Allow: /blog/
Allow: /napoveda/
Allow: /produkty/
Disallow: /admin/
Disallow: /ucet/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /interni/
Disallow: /api/

User-agent: ChatGPT-User
Allow: /blog/
Allow: /napoveda/
Allow: /produkty/
Disallow: /admin/
Disallow: /ucet/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /interni/
Disallow: /api/

User-agent: Claude-User
Allow: /blog/
Allow: /napoveda/
Allow: /produkty/
Disallow: /admin/
Disallow: /ucet/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /interni/
Disallow: /api/

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: *
Disallow: /admin/
Disallow: /ucet/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /interni/
Disallow: /api/
Allow: /

Sitemap: https://www.vasedomena.cz/sitemap.xml

Tato varianta je vhodná pro e-shopy, SaaS weby, poradenské firmy a weby s kombinací veřejného obsahu a neveřejných funkcí.

Varianta D: Blokace nežádoucích robotů, bez poškození Google a Bingu

Některé weby mají problém s agresivními crawlery, SEO scrapery, datovými boty nebo nástroji, které zvyšují zátěž serveru. Pak můžete cíleně blokovat konkrétní user-agenty:

# Zachovat Google a Bing
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Povolit vybrané AI asistenty
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

# Blokovat vybrané datové/trénovací crawlery
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# Příklad blokace konkrétních nežádoucích robotů
User-agent: BadBot
Disallow: /

User-agent: Scrapy
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

# Obecná pravidla pro zbytek
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /kosik/
Disallow: /ucet/
Allow: /

Sitemap: https://www.vasedomena.cz/sitemap.xml

Pozor: blokování SEO nástrojů jako AhrefsBot nebo SemrushBot může ovlivnit externí SEO reporting, monitoring odkazů nebo práci agentur. Není to chyba, jen důsledek.

6. Příklad s moderními Content-Signal direktivami

Vedle klasických pravidel Allow a Disallow se začínají objevovat modernější signály pro AI použití obsahu. Cloudflare představilo Content Signals Policy, která definuje signály jako search, ai-input a ai-train; cílem je umožnit webům vyjádřit, zda obsah smí být použit pro vyhledávání, vstup do AI systému nebo trénování.

Příklad:

# Content Signals Policy
# search: povoluje použití obsahu pro vyhledávání a zobrazování výsledků
# ai-input: povoluje použití obsahu jako vstupu pro AI odpovědi
# ai-train: povoluje použití obsahu pro trénování modelů

Content-Signal: search=yes, ai-input=yes, ai-train=no

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-User
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /kosik/
Disallow: /ucet/
Allow: /

Sitemap: https://www.vasedomena.cz/sitemap.xml

Praktický výklad:

Content-Signal: search=yes, ai-input=yes, ai-train=no

znamená přibližně:

  • search=yes – souhlasím s použitím obsahu pro vyhledávání,
  • ai-input=yes – souhlasím, aby AI systém použil stránku při odpovědi uživateli,
  • ai-train=no – nesouhlasím s použitím obsahu pro trénování modelů.

Důležité: Content Signals jsou zatím signál, ne univerzálně vynutitelný standard. Dokumentace Cloudflare uvádí, že tato politika se vkládá do robots.txt, ale zároveň upozorňuje, že Google Search Console může u novějších direktiv hlásit „Syntax not understood”. Proto je vhodné brát Content-Signal jako doplněk, ne náhradu klasických User-agent pravidel.

7. Co s OpenClaw a podobnými AI agenty

U názvu „OpenClaw” je potřeba opatrnost. Ve veřejně dohledatelných zdrojích se OpenClaw popisuje spíše jako samo-hostovaný agent/gateway nebo framework, ne jako jeden centrálně provozovaný crawler s univerzálním user-agentem pro celý web.

To znamená:

  • nemusí existovat jeden spolehlivý řádek typu User-agent: OpenClawBot,
  • agent může přistupovat přes běžný prohlížeč, automatizovaný browser nebo vlastní konfiguraci konkrétního uživatele,
  • robots.txt může pomoci jen u agentů, kteří ho respektují.

Pro lokální nebo samo-hostované agenty proto nestačí jen robots.txt. Pokud chcete chránit neveřejné části webu, použijte skutečné zabezpečení:

  • přihlášení,
  • omezení přístupu podle role,
  • ochranu administrace,
  • rate limiting,
  • WAF nebo bot management,
  • zákaz přístupu k API endpointům bez autorizace.

8. Jak do toho zapadá noindex

robots.txt řídí hlavně crawlování – tedy zda robot smí URL navštívit.
noindex řídí hlavně indexování – tedy zda se stránka smí objevit ve výsledcích vyhledávání.

Typický meta tag v HTML:

<meta name="robots" content="noindex, follow">

Význam:

  • noindex – stránku neukládat do indexu,
  • follow – odkazy na stránce může robot následovat.

Důležité pravidlo: pokud stránku zablokujete v robots.txt, robot se na ni nemusí dostat a neuvidí její noindex. Google výslovně uvádí, že pokud je stránka blokovaná přes robots.txt, crawler nikdy neuvidí noindex pravidlo a stránka se přesto může objevit ve výsledcích, například pokud na ni vedou odkazy z jiných webů.

Správné použití:

Chci, aby stránka nebyla v Google, ale robot ji může navštívit
Použijte noindex, ne Disallow.

<meta name="robots" content="noindex, follow">

Chci, aby robot na danou část webu vůbec nechodil
Použijte robots.txt.

User-agent: *
Disallow: /interni/

Chci chránit soukromou stránku
Nepoužívejte jen robots.txt ani jen noindex. Použijte přihlášení nebo serverové omezení přístupu.

9. Jak do toho zapadá sitemap.xml

sitemap.xml je mapa webu pro vyhledávače a crawlery. Říká jim, jaké důležité URL na webu existují.

Typické umístění:

https://www.vasedomena.cz/sitemap.xml

Typický záznam v robots.txt:

Sitemap: https://www.vasedomena.cz/sitemap.xml

Příklad jednoduché sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.vasedomena.cz/</loc>
    <lastmod>2026-05-09</lastmod>
  </url>
  <url>
    <loc>https://www.vasedomena.cz/blog/</loc>
    <lastmod>2026-05-01</lastmod>
  </url>
</urlset>

Praktický rozdíl:

  • robots.txt říká: „sem smíš / sem nesmíš”.
  • sitemap.xml říká: „tady jsou důležité stránky, které stojí za procházení”.
  • noindex říká: „tuto konkrétní stránku neukládej do indexu”.

10. Jak zjistit, jestli jsou AI chatboti blokováni

Krok 1: Otevřete svůj robots.txt

Do prohlížeče zadejte:

https://www.vasedomena.cz/robots.txt

Hledejte řádky jako:

User-agent: GPTBot
Disallow: /

nebo:

User-agent: ClaudeBot
Disallow: /

nebo obecnou blokaci:

User-agent: *
Disallow: /

Pokud vidíte Disallow: / u konkrétního AI bota, daný bot má zakázaný celý web.

Krok 2: Zkontrolujte, zda omylem neblokujete Google nebo Bing

Nebezpečné příklady:

User-agent: Googlebot
Disallow: /
User-agent: Bingbot
Disallow: /
User-agent: *
Disallow: /

Pokud je toto na produkčním webu bez jasného důvodu, pravděpodobně si škodíte.

Bing navíc upozorňuje, že pokud má Bingbot vlastní specifickou sekci, ignoruje obecná pravidla v sekci User-agent: *, takže je nutné v jeho specifické sekci zopakovat pravidla, která pro něj mají platit.

Krok 3: Použijte ověřovací nástroje

Praktické možnosti:

  • Google Search Console – kontrola dostupnosti URL a problémy s indexací.
  • Bing Webmaster Tools – kontrola Bing crawlování a ověření Bingbot provozu.
  • Serverové logy – nejpřesnější způsob, jak zjistit, kdo na web skutečně chodí.
  • Cloudflare / hostingový firewall / WAF – přehled bot provozu, blokací a pravidel.
  • Online robots.txt testery – vhodné pro rychlou kontrolu syntaxe, ale nespoléhejte na ně jako na jediný zdroj pravdy.

U Bingbotu Microsoft doporučuje ověřování přes reverse DNS a forward IP lookup, protože samotný text user-agentu může kdokoli podvrhnout. Stejný princip platí i obecně: user-agent v logu není důkaz identity.

11. Kde robots.txt najít a upravit

WordPress

Nejčastější možnosti:

  • SEO plugin, například Yoast SEO, Rank Math nebo All in One SEO,
  • soubor v kořenovém adresáři webu přes FTP/SFTP,
  • hostingový správce souborů,
  • nastavení serveru nebo CDN, například Cloudflare.

Pozor u WordPressu: některé weby nemají fyzický soubor robots.txt, ale generují ho dynamicky. V takovém případě může úprava probíhat přes plugin nebo šablonu.

Shoptet, Shopify, Webflow, Wix a jiné platformy

U uzavřenějších platforem záleží na tom, co dovolují:

  • některé umožňují editaci robots.txt přímo v administraci,
  • některé umožňují jen částečné úpravy,
  • některé generují robots.txt automaticky.

U e-shopových platforem si dejte pozor, abyste neblokovali:

/product/

nebo jiné cesty, kde jsou důležité produktové stránky. Naopak často dává smysl blokovat:

/cart/
/checkout/
/account/
/search

Vlastní web na serveru

Soubor obvykle vytvoříte nebo upravíte v kořenovém adresáři webu:

/public_html/robots.txt

nebo:

/var/www/html/robots.txt

Po úpravě ověřte v prohlížeči, že adresa https://www.vasedomena.cz/robots.txt vrací aktuální obsah a HTTP stav 200.

12. Jak ověřit, že chatbotům přístup opravdu funguje

1. Ověřte syntaxi

Zkontrolujte, zda máte vždy správnou dvojici:

User-agent: NazevBota
Allow: /

nebo:

User-agent: NazevBota
Disallow: /

Nepoužívejte české popisky mimo komentáře. Komentáře začínají znakem #.

Správně:

# Povolit ChatGPT uživatelské požadavky
User-agent: ChatGPT-User
Allow: /

Špatně:

Povolit ChatGPT:
User-agent: ChatGPT-User
Allow: /

2. Otestujte konkrétní URL

Ověřte nejen homepage, ale i důležité typy stránek: /, /blog/nazev-clanku/, /produkt/nazev-produktu/, /kategorie/nazev-kategorie/, /napoveda/.

3. Sledujte serverové logy

V logu hledejte například:

GPTBot
OAI-SearchBot
ChatGPT-User
ClaudeBot
Claude-User
PerplexityBot
CCBot
Googlebot
Bingbot

Sledujte:

  • jestli robot dostává stav 200,
  • jestli nedostává 403 nebo 401,
  • jestli ho neblokuje firewall,
  • jestli se nezacykluje na parametrových URL,
  • jestli neleze do košíku, filtrace nebo interního vyhledávání.

4. Ověřte, zda blokaci nezpůsobuje Cloudflare nebo firewall

I když robots.txt říká Allow: /, bot může být blokován jinde:

  • Cloudflare Bot Fight Mode,
  • WAF pravidla,
  • rate limiting,
  • blokace podle země,
  • blokace datacenter,
  • ochrana proti DDoS,
  • špatně nastavený hosting.

Proto při řešení problému vždy kontrolujte nejen robots.txt, ale i bezpečnostní vrstvy.

13. Nejčastější chyby

Chyba 1: Blokace celého webu

User-agent: *
Disallow: /

Toto je v pořádku na testovacím webu. Na produkčním webu je to často katastrofa pro SEO.

Chyba 2: Snaha odstranit stránku z Googlu přes robots.txt

Špatně:

User-agent: Googlebot
Disallow: /stara-stranka/

Lepší pro odstranění z indexu:

<meta name="robots" content="noindex, follow">

A stránku v robots.txt neblokovat, aby Google mohl noindex přečíst.

Chyba 3: Blokace CSS a JavaScriptu

Nevhodné:

User-agent: *
Disallow: /assets/
Disallow: /js/
Disallow: /css/

Vyhledávače a AI crawlery pak nemusí správně pochopit stránku. Blokujte jen to, co opravdu nechcete crawlovat.

Chyba 4: Víra, že robots.txt ochrání neveřejný obsah

Neochrání. Pokud stránka nemá být veřejná, musí být za přihlášením nebo jiným skutečným omezením přístupu.

Chyba 5: Blokace všech AI botů bez rozlišení účelu

Například:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

Tím můžete současně blokovat trénovací použití, vyhledávací viditelnost i uživatelsky vyvolané návštěvy. Lepší je rozhodnout se podle účelu jednotlivých botů.

14. Doporučená finální konfigurace pro většinu webů

Toto je praktický kompromis: zachovává SEO, umožňuje AI asistentům pracovat s veřejným obsahem, ale omezuje použití pro trénování.

# Veřejný web: SEO + AI viditelnost, omezení AI trénování

# Google Search
User-agent: Googlebot
Allow: /

# Bing Search
User-agent: Bingbot
Allow: /

# OpenAI search / user access
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# OpenAI training crawler
User-agent: GPTBot
Disallow: /

# Anthropic user access
User-agent: Claude-User
Allow: /

# Anthropic training crawler
User-agent: ClaudeBot
Disallow: /

# Perplexity search visibility
User-agent: PerplexityBot
Allow: /

# Google AI opt-out, bez blokace Googlebotu
User-agent: Google-Extended
Disallow: /

# Common Crawl dataset crawler
User-agent: CCBot
Disallow: /

# Obecná pravidla
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /kosik/
Disallow: /cart/
Disallow: /checkout/
Disallow: /ucet/
Disallow: /account/
Disallow: /interni/
Disallow: /api/
Disallow: /search
Disallow: /*?s=
Allow: /

# Sitemap
Sitemap: https://www.vasedomena.cz/sitemap.xml

15. Krátký kontrolní seznam

Před nasazením si projděte toto:

  • robots.txt je dostupný na /robots.txt.
  • Neobsahuje omylem User-agent: * + Disallow: /.
  • Googlebot a Bingbot nejsou blokovaní.
  • AI user-agenty jsou rozdělené podle účelu.
  • Citlivé sekce jsou chráněné skutečným zabezpečením, ne jen robots.txt.
  • Důležité stránky nejsou blokované.
  • sitemap.xml je uvedená v robots.txt.
  • Stránky, které nemají být v indexu, používají noindex.
  • Neprivátní stránky s noindex nejsou současně blokované přes robots.txt.
  • Po úpravě jste ověřili web v Google Search Console, Bing Webmaster Tools a serverových lozích.

Shrnutí

robots.txt je základní komunikační soubor mezi vaším webem a roboty. Pro SEO a AI viditelnost je dnes potřeba uvažovat jemněji než jen „povolit vše” nebo „zakázat vše”. Nejlepší praxe je ponechat přístup Google a Bingu, rozlišit AI roboty podle účelu, povolit ty, které pomáhají s vyhledáváním a uživatelskými dotazy, a podle potřeby blokovat ty, které slouží pro trénování nebo masové datové sběry.

robots.txt řeší crawling, noindex řeší indexování a sitemap.xml pomáhá robotům najít důležité stránky. Teprve dohromady tvoří rozumný základ technického SEO a kontroly AI přístupu.

Budu se divit pokud to někdo dočetl až sem. Jednoduchá odpověď tedy je, pokud máte web na kterém chcete co nejvíce lidí, tak robots.txt co nejdříve zkontrolujte, zda je tam vše povoleno a roboti vyjmenováni. Starší robots.txt vůbec toto neuvádějí. Třeba na cloudflare jsou často tyto boti defaultně vypnutí. Nadruhou stranu, pokud máte web a chcete částečně omezit konkurenci aby vám vykrádala například popisky pomocí web scrapingu a velkých LLM modelů tak to zakažte, bot pak uživateli napíše že se tam nemůže dostat. Nezabráníte tím ale třeba web scrapingu pomocí scriptů a nebo menším lokálním modelům. Ve většině případů na své weby roboty pouštějte.

Třeba na tomto webu je to zde https://www.adadev.cz/robots.txt a mám to pro boty zakázané. Takže když dáte do Chat GPT link tohoto článku a řeknete shrň mi to, tak by měl napsat že se mu nechce. Má to svůj důvod, nechci. Článek je tak dlouhej protože věřím že informace by se měli předávat komplexně pro pochopení problematiky.