Se você tem um site ou mesmo se quer desenvolver um, precisa entender o que é robots.txt, um arquivo essencial para ajudar a rankear seu site nos buscadores de forma estratégica. É necessário ter atenção aos detalhes do seu projeto, pois, por mais que as diretrizes técnicas de SEO sejam similares, cada canal digital deve contar com táticas particulares, suprindo suas próprias necessidades. Afinal, cada empresa tem seu próprio cenário, público e outras especificidades.
Índice do Conteúdo:
O que é robots.txt?
Robots.txt é um arquivo no formato texto (bloco de notas) que trabalha como um filtro para os robôs ou crawlers dos mecanismos de busca. Ele avisa aos crawlers quais páginas e diretórios não devem ser indexados, ou seja, devem excluídos do processo de rastreamento, evitando que algum conteúdo restrito fique disponível na busca orgânica (ou SERP). O Robots.txt deve estar localizado na pasta raiz do site para ser facilmente encontrado pelos crawlers.
Os principais comandos indicados no arquivo robots.txt:
- User-agent: Lista quais robôs devem seguir as regras indicadas. Exemplo: Googlebot (Crawler do Google)
- Disallow: Orienta os crawlers sobre quais páginas não devem ser incluídas no índice.
- Allow: Indica qual página ou diretório pode ter seu conteúdo indexado, mas eles são, por definição, sempre permitidos.
- Sitemap: Indica o caminho para o sitemap.xml.
Cuidados com o arquivo robots.txt
Como veremos abaixo em exemplos reais de robots.txt, é muito fácil acessar o conteúdo de arquivos robots.txt de qualquer site, inclusive de concorrentes. Assim, cuidado com o que é incluído nesse arquivo. Evite colocar arquivos confidenciais.
Aplicação de Robots.txt
Exemplo: o webmaster não deseja que o conteúdo do diretório/docs seja indexado pelos robots, então, bloqueou o acesso ao diretório /docs com o comando “Disallow: /docs” no arquivo robots.txt. Dentro desse diretório, porém, existe um sub-diretório chamado “public”, que deve ter seu conteúdo indexado. Para que isso aconteça, basta usar no arquivo robots.txt a instrução “Allow: /docs/public/”.
Exemplos reais de Robots.txt
Para olhar exemplos de arquivos robots.txt, saia navegando pela internet e inclua o arquivo /robots.txt na raiz dos sites visitados para verificar se eles utilizam o arquivo robots.txt. Veja abaixo alguns exemplos:
- Google – www.google.com.br/robots.txt – alguns sites interessantes listados
- Facebook – www.facebook.com/robots.txt – Veja como este sitemap utiliza áreas separadas para cada Bot (mas sem necessidade, visto que os comandos parecem ser os mesmos para todos)