Filed Under (Editores Web) by Dany on February-10-2008

Existe um arquivo específico que é procurado pelos motores de busca para saber quais são as partes do que não devem ser indexados. É o “robots.txt“. Ele deve ser colocar no directório raiz do e é o primeiro arquivo que os bots de busca procuram num . Você pode escolher os directórios e arquivos que deseja excluir dos motores de busca. O uso mais comum é evitar indexação de páginas de logins ou que possuam arquivos privados.

Este é um exemplo de um arquivo que impediria a indexação do inteiro por todos os motres de busca:
User-agent: *
Disallow: /

O asterisco significa “tudo”, ou seja, todos os bots de busca devem seguir as regras abaixo.

Um exemplo prático seria evitar a indexação de pastas do seu que tem programas ou partes privadas. O exemplo abaixo evitaria a indexação de quatro directórios.

User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /login/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa

O sinal # serve para comentários como informar o motivo da exclusão. O comentário não influencia em nada o bot, porém serve para facilitar o entendimento do motivo da exclusão para quem administra o .

Se um não tiver este arquivo os motores de busca iram indexar normalmente o seu . Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total:
User-agent: *
Disallow:

Pode criar regras específicas para cada bot de busca. Para isto basta trocar o asterisco do User-agent pelo nome do bot. Cada bot ou spider tem um nome específico. Eles também são conhecidos como agentes. O agente do é o Googlebot, o do Yahoo! é o Slurp e o do  MSN é o MSNBot. Existem bots também para imagens por exemplo. O do é o Googlebot-Image, o do Yahoo é o yahoo-mmcrawler e o do MSN o psbot. Um exemplo para excluir a indexação do seria:
User-agent: Googlebot
Disallow: /

Com isto, nada do seria indexado pelo , mas outros motores poderiam indexá-lo normalmente.

O Robots.txt é extremamente útil, pois permite a remoção automatizada de páginas ou do conteúdo do . Ele também é bastante flexível permitindo que várias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os bots.



Post a comment
Name: 
Email: 
URL: 
Comments: