Semanas atrás tive que bloquear em um site a indexação de algumas páginas que já existiam e de outras que seriam criadas pelo o CMS do mesmo.

robotsBom, eu não quis programar o header do site com um condicional para que as páginas que deveriam ser bloqueadas tivessem “noindex” na meta robots:

<meta name="robots" content="noindex">

E não era possível ficar bloqueando manualmente todas as páginas no robots.txt:

Disallow: /pagina-nao-indexar-numero-999.php

Fui pesquisar e encontrei no Yahoo! uma solução: o asterisco no robots.txt.

Faz de conta que o Sr.Cliente, dono daquela fábrica de ferramentas multi-uso, que vem em kits com zilhões de pecinhas junto ( parece lego[bb] ) invocou que não quer mais saber de ver nos resultados do Google qualquer um daqueles 5000 modelos que tenham no nome do modelo o código: “ESSENÃO“.

Hey, estou dando um exemplo ( um faz de conta[bb] mesmo ) e você, como desenvolvedor, sabe muito bem que do cliente pode vir quase qualquer coisa, até mesmo o pedido ( ordem ) de ter algumas páginas de produtos fora do alcance das search engines.

Pois bem, use o asterisco da mesma forma que você o usa para pesquisar um arquivo no seu pc, use-o como um coringa:

Disallow: /*ESSENÃO*.php

Com a linha acima, por exemplo, a indexação estará desabilitada para arquivos como:

furadeiraESSENÃOplusplus.php
listadafuradeiraESSENÃOplusplus.php

Você também pode desabilitar a indexação para arquivos que estão na raiz e em outros diretórios desta forma:

Disallow: /*ESSENÃO*

Os arquivos, por exemplo, bloqueados para a indexação com a regra acima são:

/qualquercoisaESSENÃO.jsp
/modelos2007/qualquercoisaESSENÃOqualquercoisa.php
/modelos2007/qualquercoisaESSENÃOqualquercoisa.asp
/modelos2006/qualquercoisaESSENÃO.txt

Bom, o asterisco no robots.txt me foi útil no momento que precisei e talvez um dia seja para você também ;]

Leave a Reply