O arquivo robots.txt diz o que deve ou não ser indexado nos motores de busca, isto é, o que será, ou não será, salvo e disponibilizado como resultado de pesquisa para o público. Saiba mais:
- Localização do arquivo robots.txt
- Comandos
- Como bloquear robôs e motores de busca de rastreamento
- Como bloquear acesso de robôs em pasta e diretórios específicos
Localização do arquivo robots.txt
O arquivo robots.txt precisa estar sempre na pasta raiz do documento.
Você pode criar um arquivo em branco e nomeá-lo robots.txt. Isso reduzirá os erros do site e permitirá que todos os mecanismos de pesquisa classifiquem o que quiserem.
Comandos
User-agent
O comando User-agent determina qual robô de busca você está se referindo. Para conhecer o nome de cada User-agent, acesse o Web Robots Database
Disallow
O comando Disallow descreve quais páginas, diretórios ou sites não devem ser incluídos nos resultados de busca.
Allow
O comando Allow informa para os robôs de busca quais as páginas e diretórios do site você deseja que sejam indexadas.
O uso desse comando é recomendado quando você bloqueia uma pasta ou diretório através do Disallow e deseja indexar apenas um arquivo ou pasta específico que está dentro da pasta/diretório bloqueado.
Como bloquear robôs e motores de busca de rastreamento
Se você deseja desativar a visita dos bots no site e impedir a indexação, use o código:
User-agent: *
Disallow: /
Como bloquear acesso de robôs em pasta e diretórios específicos
Você também pode evitar que robôs rastreiem partes do seu site, permitindo que eles rastreiem outras seções.
O exemplo a seguir solicitará aos motores de busca e aos robôs que não rastreiem a pasta cgi-bin e outras pastas do site:
User-agent: *
Disallow: /cgi-bin/
Disallow: /nome-da-pasta/
Disallow: /nome-da-pasta-2/