1. Co je robots.txt a proč ho řešit
robots.txt je jednoduchý textový soubor umístěný v kořeni webu, typicky na adrese:
https://www.vasedomena.cz/robots.txt
Jeho úkolem je sdělit robotům, crawlerům a vyhledávačům, kam na webu smějí a kam nemají chodit. Google popisuje robots.txt jako nástroj, který říká crawlerům, které URL mohou navštívit; primárně slouží k řízení crawlování a zátěže serveru, ne jako bezpečnostní mechanismus.
Důležitá věc: robots.txt není zámek. Je to dohoda. Seriózní roboti ji respektují, škodliví roboti ji mohou ignorovat. Soukromá data, administrace, neveřejné dokumenty nebo zákaznické informace nikdy nechráníte přes robots.txt; k tomu patří přihlášení, hesla, firewall, omezení IP adres nebo správné nastavení CMS/serveru. MDN výslovně upozorňuje, že robots.txt se nemá používat ke skrývání citlivých částí webu.
2. Vyhledávače vs. AI chatboti: v čem je rozdíl
U klasických vyhledávačů, jako je Google nebo Bing, bývá cíl jasný: robot projde web, uloží si informace do indexu a stránka se pak může zobrazit ve výsledcích vyhledávání.
U moderních AI systémů je situace složitější. Jeden provozovatel může mít více robotů s různým účelem:
- vyhledávací crawler – pomáhá zobrazit nebo citovat váš obsah v AI odpovědích,
- training crawler – sbírá veřejný obsah pro trénování nebo zlepšování modelů,
- user-triggered agent – přijde na web až ve chvíli, kdy konkrétní uživatel požádá chatbota, aby stránku otevřel.
Například OpenAI rozlišuje mimo jiné GPTBot, OAI-SearchBot a ChatGPT-User; každý má jiný účel a lze ho v robots.txt řídit samostatně. Anthropic podobně uvádí, že ClaudeBot slouží pro budoucí trénovací datasety, zatímco Claude-User se používá pro uživatelsky vyvolané požadavky v Claude.
Prakticky to znamená: neblokujte bezmyšlenkovitě všechny AI roboty, pokud chcete být dohledatelní v AI odpovědích. Často dává smysl povolit roboty pro vyhledávání a uživatelské dotazy, ale blokovat roboty určené pro trénování modelů.
3. Základní syntaxe robots.txt
Nejjednodušší pravidlo vypadá takto:
User-agent: *
Disallow:
Význam:
User-agent: *znamená „platí pro všechny roboty”.- Prázdné
Disallow:znamená „nic nezakazuji”.
Úplné zablokování celého webu by vypadalo takto:
User-agent: *
Disallow: /
Toto na produkčním webu používejte velmi opatrně. Blokuje crawling celého webu pro roboty, kteří pravidla respektují. Pokud omylem zablokujete Googlebot nebo Bingbot, můžete poškodit viditelnost ve vyhledávání.
Blokování konkrétní sekce:
User-agent: *
Disallow: /admin/
Disallow: /kosik/
Disallow: /interni/
Povolení konkrétní sekce uvnitř blokované části:
User-agent: *
Disallow: /media/
Allow: /media/verejne/
Doporučené přidání sitemap:
Sitemap: https://www.vasedomena.cz/sitemap.xml
4. Doporučený přístup pro běžný firemní nebo obsahový web
Pro většinu webů je rozumná strategie:
- Nechat Google a Bing bez blokace, aby neutrpěla SEO viditelnost.
- Povolit AI roboty, které pomáhají s dohledatelností a citacemi.
- Blokovat trénovací crawlery, pokud nechcete, aby váš obsah byl používán pro trénování modelů.
- Blokovat citlivé a technické části webu, například administraci, interní vyhledávání, košík, parametrové filtry.
- Nespoléhat na
robots.txtjako na zabezpečení.
5. Konkrétní příklady robots.txt
Varianta A: Web chce být dostupný pro Google, Bing a AI odpovědi, ale nechce trénování modelů
Toto je dobrý výchozí vzor pro weby, které chtějí být viditelné ve vyhledávačích i AI asistentech, ale chtějí omezit použití obsahu pro trénování.
# robots.txt pro běžný veřejný web
# 1) Běžné vyhledávače: povoleno
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# 2) OpenAI: povolit vyhledávání a uživatelské dotazy, blokovat trénovací crawler
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: GPTBot
Disallow: /
# 3) Anthropic / Claude: povolit uživatelské dotazy, blokovat trénovací crawler
User-agent: Claude-User
Allow: /
User-agent: ClaudeBot
Disallow: /
# 4) Perplexity: povolit vyhledávací crawler
User-agent: PerplexityBot
Allow: /
# 5) Google AI: neblokovat Googlebot, ale omezit Google-Extended
User-agent: Google-Extended
Disallow: /
# 6) Common Crawl: často používaný jako zdroj veřejných datasetů
User-agent: CCBot
Disallow: /
# 7) Obecná pravidla pro ostatní roboty
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /ucet/
Disallow: /search
Disallow: /*?s=
Allow: /
# 8) Sitemap
Sitemap: https://www.vasedomena.cz/sitemap.xml
Poznámky:
GPTBotje vhodné řešit samostatně odChatGPT-UseraOAI-SearchBot, protože OpenAI je rozlišuje podle účelu.ClaudeBotaClaude-Usertaké nemají stejný účel; Anthropic uvádí, žeClaudeBotsouvisí s budoucími trénovacími datasety, zatímcoClaude-Userpodporuje uživatelské dotazy.Google-Extendednení totéž coGooglebot. Google dokumentuje své crawlery samostatně a seznam user-agent tokenů průběžně aktualizuje.- Perplexity uvádí
PerplexityBotjako crawler pro zobrazování a odkazování webů ve výsledcích Perplexity; podle jejich dokumentace může trvat až 24 hodin, než se změny projeví. CCBotje crawler Common Crawl; Common Crawl uvádí, že ho lze blokovat přesUser-agent: CCBota doporučuje ověřovat pravost crawleru, protože user-agent lze podvrhnout.
Varianta B: Web chce maximální AI viditelnost
Tuto variantu použijte, pokud vám nevadí širší přístup AI crawlerů a chcete maximalizovat šanci, že vás AI asistenti najdou, přečtou a případně ocitují.
# Maximálně otevřený veřejný web
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /ucet/
Disallow: /interni/
Allow: /
Sitemap: https://www.vasedomena.cz/sitemap.xml
Tato varianta je vhodná například pro:
- magazíny,
- dokumentace,
- produktové katalogy,
- veřejné znalostní báze,
- weby, které chtějí získávat návštěvnost z AI odpovědí.
Není vhodná pro weby, které chtějí striktně omezit využití obsahu pro trénování AI.
Varianta C: Web chce AI chatbotům povolit jen veřejný obsah a blokovat obchodní nebo interní sekce
# Povolení veřejného obsahu, blokace citlivějších částí
User-agent: OAI-SearchBot
Allow: /blog/
Allow: /napoveda/
Allow: /produkty/
Disallow: /admin/
Disallow: /ucet/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /interni/
Disallow: /api/
User-agent: ChatGPT-User
Allow: /blog/
Allow: /napoveda/
Allow: /produkty/
Disallow: /admin/
Disallow: /ucet/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /interni/
Disallow: /api/
User-agent: Claude-User
Allow: /blog/
Allow: /napoveda/
Allow: /produkty/
Disallow: /admin/
Disallow: /ucet/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /interni/
Disallow: /api/
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: *
Disallow: /admin/
Disallow: /ucet/
Disallow: /kosik/
Disallow: /checkout/
Disallow: /interni/
Disallow: /api/
Allow: /
Sitemap: https://www.vasedomena.cz/sitemap.xml
Tato varianta je vhodná pro e-shopy, SaaS weby, poradenské firmy a weby s kombinací veřejného obsahu a neveřejných funkcí.
Varianta D: Blokace nežádoucích robotů, bez poškození Google a Bingu
Některé weby mají problém s agresivními crawlery, SEO scrapery, datovými boty nebo nástroji, které zvyšují zátěž serveru. Pak můžete cíleně blokovat konkrétní user-agenty:
# Zachovat Google a Bing
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Povolit vybrané AI asistenty
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Blokovat vybrané datové/trénovací crawlery
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
# Příklad blokace konkrétních nežádoucích robotů
User-agent: BadBot
Disallow: /
User-agent: Scrapy
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
# Obecná pravidla pro zbytek
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /kosik/
Disallow: /ucet/
Allow: /
Sitemap: https://www.vasedomena.cz/sitemap.xml
Pozor: blokování SEO nástrojů jako AhrefsBot nebo SemrushBot může ovlivnit externí SEO reporting, monitoring odkazů nebo práci agentur. Není to chyba, jen důsledek.
6. Příklad s moderními Content-Signal direktivami
Vedle klasických pravidel Allow a Disallow se začínají objevovat modernější signály pro AI použití obsahu. Cloudflare představilo Content Signals Policy, která definuje signály jako search, ai-input a ai-train; cílem je umožnit webům vyjádřit, zda obsah smí být použit pro vyhledávání, vstup do AI systému nebo trénování.
Příklad:
# Content Signals Policy
# search: povoluje použití obsahu pro vyhledávání a zobrazování výsledků
# ai-input: povoluje použití obsahu jako vstupu pro AI odpovědi
# ai-train: povoluje použití obsahu pro trénování modelů
Content-Signal: search=yes, ai-input=yes, ai-train=no
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-User
Allow: /
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /kosik/
Disallow: /ucet/
Allow: /
Sitemap: https://www.vasedomena.cz/sitemap.xml
Praktický výklad:
Content-Signal: search=yes, ai-input=yes, ai-train=no
znamená přibližně:
search=yes– souhlasím s použitím obsahu pro vyhledávání,ai-input=yes– souhlasím, aby AI systém použil stránku při odpovědi uživateli,ai-train=no– nesouhlasím s použitím obsahu pro trénování modelů.
Důležité: Content Signals jsou zatím signál, ne univerzálně vynutitelný standard. Dokumentace Cloudflare uvádí, že tato politika se vkládá do robots.txt, ale zároveň upozorňuje, že Google Search Console může u novějších direktiv hlásit „Syntax not understood”. Proto je vhodné brát Content-Signal jako doplněk, ne náhradu klasických User-agent pravidel.
7. Co s OpenClaw a podobnými AI agenty
U názvu „OpenClaw” je potřeba opatrnost. Ve veřejně dohledatelných zdrojích se OpenClaw popisuje spíše jako samo-hostovaný agent/gateway nebo framework, ne jako jeden centrálně provozovaný crawler s univerzálním user-agentem pro celý web.
To znamená:
- nemusí existovat jeden spolehlivý řádek typu
User-agent: OpenClawBot, - agent může přistupovat přes běžný prohlížeč, automatizovaný browser nebo vlastní konfiguraci konkrétního uživatele,
robots.txtmůže pomoci jen u agentů, kteří ho respektují.
Pro lokální nebo samo-hostované agenty proto nestačí jen robots.txt. Pokud chcete chránit neveřejné části webu, použijte skutečné zabezpečení:
- přihlášení,
- omezení přístupu podle role,
- ochranu administrace,
- rate limiting,
- WAF nebo bot management,
- zákaz přístupu k API endpointům bez autorizace.
8. Jak do toho zapadá noindex
robots.txt řídí hlavně crawlování – tedy zda robot smí URL navštívit.
noindex řídí hlavně indexování – tedy zda se stránka smí objevit ve výsledcích vyhledávání.
Typický meta tag v HTML:
<meta name="robots" content="noindex, follow">
Význam:
noindex– stránku neukládat do indexu,follow– odkazy na stránce může robot následovat.
Důležité pravidlo: pokud stránku zablokujete v robots.txt, robot se na ni nemusí dostat a neuvidí její noindex. Google výslovně uvádí, že pokud je stránka blokovaná přes robots.txt, crawler nikdy neuvidí noindex pravidlo a stránka se přesto může objevit ve výsledcích, například pokud na ni vedou odkazy z jiných webů.
Správné použití:
Chci, aby stránka nebyla v Google, ale robot ji může navštívit
Použijte noindex, ne Disallow.
<meta name="robots" content="noindex, follow">
Chci, aby robot na danou část webu vůbec nechodil
Použijte robots.txt.
User-agent: *
Disallow: /interni/
Chci chránit soukromou stránku
Nepoužívejte jen robots.txt ani jen noindex. Použijte přihlášení nebo serverové omezení přístupu.
9. Jak do toho zapadá sitemap.xml
sitemap.xml je mapa webu pro vyhledávače a crawlery. Říká jim, jaké důležité URL na webu existují.
Typické umístění:
https://www.vasedomena.cz/sitemap.xml
Typický záznam v robots.txt:
Sitemap: https://www.vasedomena.cz/sitemap.xml
Příklad jednoduché sitemap:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.vasedomena.cz/</loc>
<lastmod>2026-05-09</lastmod>
</url>
<url>
<loc>https://www.vasedomena.cz/blog/</loc>
<lastmod>2026-05-01</lastmod>
</url>
</urlset>
Praktický rozdíl:
robots.txtříká: „sem smíš / sem nesmíš”.sitemap.xmlříká: „tady jsou důležité stránky, které stojí za procházení”.noindexříká: „tuto konkrétní stránku neukládej do indexu”.
10. Jak zjistit, jestli jsou AI chatboti blokováni
Krok 1: Otevřete svůj robots.txt
Do prohlížeče zadejte:
https://www.vasedomena.cz/robots.txt
Hledejte řádky jako:
User-agent: GPTBot
Disallow: /
nebo:
User-agent: ClaudeBot
Disallow: /
nebo obecnou blokaci:
User-agent: *
Disallow: /
Pokud vidíte Disallow: / u konkrétního AI bota, daný bot má zakázaný celý web.
Krok 2: Zkontrolujte, zda omylem neblokujete Google nebo Bing
Nebezpečné příklady:
User-agent: Googlebot
Disallow: /
User-agent: Bingbot
Disallow: /
User-agent: *
Disallow: /
Pokud je toto na produkčním webu bez jasného důvodu, pravděpodobně si škodíte.
Bing navíc upozorňuje, že pokud má Bingbot vlastní specifickou sekci, ignoruje obecná pravidla v sekci User-agent: *, takže je nutné v jeho specifické sekci zopakovat pravidla, která pro něj mají platit.
Krok 3: Použijte ověřovací nástroje
Praktické možnosti:
- Google Search Console – kontrola dostupnosti URL a problémy s indexací.
- Bing Webmaster Tools – kontrola Bing crawlování a ověření Bingbot provozu.
- Serverové logy – nejpřesnější způsob, jak zjistit, kdo na web skutečně chodí.
- Cloudflare / hostingový firewall / WAF – přehled bot provozu, blokací a pravidel.
- Online robots.txt testery – vhodné pro rychlou kontrolu syntaxe, ale nespoléhejte na ně jako na jediný zdroj pravdy.
U Bingbotu Microsoft doporučuje ověřování přes reverse DNS a forward IP lookup, protože samotný text user-agentu může kdokoli podvrhnout. Stejný princip platí i obecně: user-agent v logu není důkaz identity.
11. Kde robots.txt najít a upravit
WordPress
Nejčastější možnosti:
- SEO plugin, například Yoast SEO, Rank Math nebo All in One SEO,
- soubor v kořenovém adresáři webu přes FTP/SFTP,
- hostingový správce souborů,
- nastavení serveru nebo CDN, například Cloudflare.
Pozor u WordPressu: některé weby nemají fyzický soubor robots.txt, ale generují ho dynamicky. V takovém případě může úprava probíhat přes plugin nebo šablonu.
Shoptet, Shopify, Webflow, Wix a jiné platformy
U uzavřenějších platforem záleží na tom, co dovolují:
- některé umožňují editaci
robots.txtpřímo v administraci, - některé umožňují jen částečné úpravy,
- některé generují
robots.txtautomaticky.
U e-shopových platforem si dejte pozor, abyste neblokovali:
/product/
nebo jiné cesty, kde jsou důležité produktové stránky. Naopak často dává smysl blokovat:
/cart/
/checkout/
/account/
/search
Vlastní web na serveru
Soubor obvykle vytvoříte nebo upravíte v kořenovém adresáři webu:
/public_html/robots.txt
nebo:
/var/www/html/robots.txt
Po úpravě ověřte v prohlížeči, že adresa https://www.vasedomena.cz/robots.txt vrací aktuální obsah a HTTP stav 200.
12. Jak ověřit, že chatbotům přístup opravdu funguje
1. Ověřte syntaxi
Zkontrolujte, zda máte vždy správnou dvojici:
User-agent: NazevBota
Allow: /
nebo:
User-agent: NazevBota
Disallow: /
Nepoužívejte české popisky mimo komentáře. Komentáře začínají znakem #.
Správně:
# Povolit ChatGPT uživatelské požadavky
User-agent: ChatGPT-User
Allow: /
Špatně:
Povolit ChatGPT:
User-agent: ChatGPT-User
Allow: /
2. Otestujte konkrétní URL
Ověřte nejen homepage, ale i důležité typy stránek: /, /blog/nazev-clanku/, /produkt/nazev-produktu/, /kategorie/nazev-kategorie/, /napoveda/.
3. Sledujte serverové logy
V logu hledejte například:
GPTBot
OAI-SearchBot
ChatGPT-User
ClaudeBot
Claude-User
PerplexityBot
CCBot
Googlebot
Bingbot
Sledujte:
- jestli robot dostává stav
200, - jestli nedostává
403nebo401, - jestli ho neblokuje firewall,
- jestli se nezacykluje na parametrových URL,
- jestli neleze do košíku, filtrace nebo interního vyhledávání.
4. Ověřte, zda blokaci nezpůsobuje Cloudflare nebo firewall
I když robots.txt říká Allow: /, bot může být blokován jinde:
- Cloudflare Bot Fight Mode,
- WAF pravidla,
- rate limiting,
- blokace podle země,
- blokace datacenter,
- ochrana proti DDoS,
- špatně nastavený hosting.
Proto při řešení problému vždy kontrolujte nejen robots.txt, ale i bezpečnostní vrstvy.
13. Nejčastější chyby
Chyba 1: Blokace celého webu
User-agent: *
Disallow: /
Toto je v pořádku na testovacím webu. Na produkčním webu je to často katastrofa pro SEO.
Chyba 2: Snaha odstranit stránku z Googlu přes robots.txt
Špatně:
User-agent: Googlebot
Disallow: /stara-stranka/
Lepší pro odstranění z indexu:
<meta name="robots" content="noindex, follow">
A stránku v robots.txt neblokovat, aby Google mohl noindex přečíst.
Chyba 3: Blokace CSS a JavaScriptu
Nevhodné:
User-agent: *
Disallow: /assets/
Disallow: /js/
Disallow: /css/
Vyhledávače a AI crawlery pak nemusí správně pochopit stránku. Blokujte jen to, co opravdu nechcete crawlovat.
Chyba 4: Víra, že robots.txt ochrání neveřejný obsah
Neochrání. Pokud stránka nemá být veřejná, musí být za přihlášením nebo jiným skutečným omezením přístupu.
Chyba 5: Blokace všech AI botů bez rozlišení účelu
Například:
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
Tím můžete současně blokovat trénovací použití, vyhledávací viditelnost i uživatelsky vyvolané návštěvy. Lepší je rozhodnout se podle účelu jednotlivých botů.
14. Doporučená finální konfigurace pro většinu webů
Toto je praktický kompromis: zachovává SEO, umožňuje AI asistentům pracovat s veřejným obsahem, ale omezuje použití pro trénování.
# Veřejný web: SEO + AI viditelnost, omezení AI trénování
# Google Search
User-agent: Googlebot
Allow: /
# Bing Search
User-agent: Bingbot
Allow: /
# OpenAI search / user access
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# OpenAI training crawler
User-agent: GPTBot
Disallow: /
# Anthropic user access
User-agent: Claude-User
Allow: /
# Anthropic training crawler
User-agent: ClaudeBot
Disallow: /
# Perplexity search visibility
User-agent: PerplexityBot
Allow: /
# Google AI opt-out, bez blokace Googlebotu
User-agent: Google-Extended
Disallow: /
# Common Crawl dataset crawler
User-agent: CCBot
Disallow: /
# Obecná pravidla
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /kosik/
Disallow: /cart/
Disallow: /checkout/
Disallow: /ucet/
Disallow: /account/
Disallow: /interni/
Disallow: /api/
Disallow: /search
Disallow: /*?s=
Allow: /
# Sitemap
Sitemap: https://www.vasedomena.cz/sitemap.xml
15. Krátký kontrolní seznam
Před nasazením si projděte toto:
robots.txtje dostupný na/robots.txt.- Neobsahuje omylem
User-agent: *+Disallow: /. - Googlebot a Bingbot nejsou blokovaní.
- AI user-agenty jsou rozdělené podle účelu.
- Citlivé sekce jsou chráněné skutečným zabezpečením, ne jen
robots.txt. - Důležité stránky nejsou blokované.
sitemap.xmlje uvedená vrobots.txt.- Stránky, které nemají být v indexu, používají
noindex. - Neprivátní stránky s
noindexnejsou současně blokované přesrobots.txt. - Po úpravě jste ověřili web v Google Search Console, Bing Webmaster Tools a serverových lozích.
Shrnutí
robots.txt je základní komunikační soubor mezi vaším webem a roboty. Pro SEO a AI viditelnost je dnes potřeba uvažovat jemněji než jen „povolit vše” nebo „zakázat vše”. Nejlepší praxe je ponechat přístup Google a Bingu, rozlišit AI roboty podle účelu, povolit ty, které pomáhají s vyhledáváním a uživatelskými dotazy, a podle potřeby blokovat ty, které slouží pro trénování nebo masové datové sběry.
robots.txt řeší crawling, noindex řeší indexování a sitemap.xml pomáhá robotům najít důležité stránky. Teprve dohromady tvoří rozumný základ technického SEO a kontroly AI přístupu.
Budu se divit pokud to někdo dočetl až sem. Jednoduchá odpověď tedy je, pokud máte web na kterém chcete co nejvíce lidí, tak robots.txt co nejdříve zkontrolujte, zda je tam vše povoleno a roboti vyjmenováni. Starší robots.txt vůbec toto neuvádějí. Třeba na cloudflare jsou často tyto boti defaultně vypnutí. Nadruhou stranu, pokud máte web a chcete částečně omezit konkurenci aby vám vykrádala například popisky pomocí web scrapingu a velkých LLM modelů tak to zakažte, bot pak uživateli napíše že se tam nemůže dostat. Nezabráníte tím ale třeba web scrapingu pomocí scriptů a nebo menším lokálním modelům. Ve většině případů na své weby roboty pouštějte.
Třeba na tomto webu je to zde https://www.adadev.cz/robots.txt a mám to pro boty zakázané. Takže když dáte do Chat GPT link tohoto článku a řeknete shrň mi to, tak by měl napsat že se mu nechce. Má to svůj důvod, nechci. Článek je tak dlouhej protože věřím že informace by se měli předávat komplexně pro pochopení problematiky.