O uso do asterisco no robots.txt
June 8th, 2008
Semanas atrás tive que bloquear em um site a indexação de algumas páginas que já existiam e de outras que seriam criadas pelo o CMS do mesmo.
Bom, eu não quis programar o header do site com um condicional para que as páginas que deveriam ser bloqueadas tivessem “noindex” na meta robots:
<meta name="robots" content="noindex">
E não era possível ficar bloqueando manualmente todas as páginas no robots.txt:
Disallow: /pagina-nao-indexar-numero-999.php
Fui pesquisar e encontrei no Yahoo! uma solução: o asterisco no robots.txt.
Faz de conta que o Sr.Cliente, dono daquela fábrica de ferramentas multi-uso, que vem em kits com zilhões de pecinhas junto ( parece lego ) invocou que não quer mais saber de ver nos resultados do Google qualquer um daqueles 5000 modelos que tenham no nome do modelo o código: “ESSENÃO“.
Hey, estou dando um exemplo ( um faz de conta mesmo ) e você, como desenvolvedor, sabe muito bem que do cliente pode vir quase qualquer coisa, até mesmo o pedido ( ordem ) de ter algumas páginas de produtos fora do alcance das search engines.
Pois bem, use o asterisco da mesma forma que você o usa para pesquisar um arquivo no seu pc, use-o como um coringa:
Disallow: /*ESSENÃO*.php
Com a linha acima, por exemplo, a indexação estará desabilitada para arquivos como:
furadeiraESSENÃOplusplus.php
listadafuradeiraESSENÃOplusplus.php
Você também pode desabilitar a indexação para arquivos que estão na raiz e em outros diretórios desta forma:
Disallow: /*ESSENÃO*
Os arquivos, por exemplo, bloqueados para a indexação com a regra acima são:
/qualquercoisaESSENÃO.jsp
/modelos2007/qualquercoisaESSENÃOqualquercoisa.php
/modelos2007/qualquercoisaESSENÃOqualquercoisa.asp
/modelos2006/qualquercoisaESSENÃO.txt
Bom, o asterisco no robots.txt me foi útil no momento que precisei e talvez um dia seja para você também ;]
Tiago Dias ou tigo di, tanto faz, tu escolhe =]

April 24th, 2010 at 5:27 am
Tigo, tem um detalhe:
Se estas páginas como mencionado no exemplo “já estiverem indexadas no google” e o seu cliente não quiser mais que elas apareçam, o robots não irá desindexá-las.
O robots como você mostrou na configuração só estará dizendo ao “boot” não chegue até esta página!
Significa que o boot foi ordenado a “não entrar neste diretório”.
E se ele apenas não entrou no diretório desabilitado as páginas que continham index follow continuarão lá do mesmo modo.
Portanto o robots não desindexa uma página que já foi indexada.
A forma de desindexar é atraves do atributo noindex nofollow mesmo! Repare que até usando gwt ele recomenda que se você quiser solicitar a remoção de uma página via painel, ela deve estar “qualificada para a remoção”.