Semanas atrás tive que bloquear em um site a indexação de algumas páginas que já existiam e de outras que seriam criadas pelo o CMS do mesmo.

robotsBom, eu não quis programar o header do site com um condicional para que as páginas que deveriam ser bloqueadas tivessem “noindex” na meta robots:

<meta name="robots" content="noindex">

E não era possível ficar bloqueando manualmente todas as páginas no robots.txt:

Disallow: /pagina-nao-indexar-numero-999.php

Fui pesquisar e encontrei no Yahoo! uma solução: o asterisco no robots.txt.

Faz de conta que o Sr.Cliente, dono daquela fábrica de ferramentas multi-uso, que vem em kits com zilhões de pecinhas junto ( parece lego[bb] ) invocou que não quer mais saber de ver nos resultados do Google qualquer um daqueles 5000 modelos que tenham no nome do modelo o código: “ESSENÃO“.

Hey, estou dando um exemplo ( um faz de conta[bb] mesmo ) e você, como desenvolvedor, sabe muito bem que do cliente pode vir quase qualquer coisa, até mesmo o pedido ( ordem ) de ter algumas páginas de produtos fora do alcance das search engines.

Pois bem, use o asterisco da mesma forma que você o usa para pesquisar um arquivo no seu pc, use-o como um coringa:

Disallow: /*ESSENÃO*.php

Com a linha acima, por exemplo, a indexação estará desabilitada para arquivos como:

furadeiraESSENÃOplusplus.php
listadafuradeiraESSENÃOplusplus.php

Você também pode desabilitar a indexação para arquivos que estão na raiz e em outros diretórios desta forma:

Disallow: /*ESSENÃO*

Os arquivos, por exemplo, bloqueados para a indexação com a regra acima são:

/qualquercoisaESSENÃO.jsp
/modelos2007/qualquercoisaESSENÃOqualquercoisa.php
/modelos2007/qualquercoisaESSENÃOqualquercoisa.asp
/modelos2006/qualquercoisaESSENÃO.txt

Bom, o asterisco no robots.txt me foi útil no momento que precisei e talvez um dia seja para você também ;]

One Response to “O uso do asterisco no robots.txt”

  1. Leandro Says:

    Tigo, tem um detalhe:

    Se estas páginas como mencionado no exemplo “já estiverem indexadas no google” e o seu cliente não quiser mais que elas apareçam, o robots não irá desindexá-las.

    O robots como você mostrou na configuração só estará dizendo ao “boot” não chegue até esta página!

    Significa que o boot foi ordenado a “não entrar neste diretório”.

    E se ele apenas não entrou no diretório desabilitado as páginas que continham index follow continuarão lá do mesmo modo.

    Portanto o robots não desindexa uma página que já foi indexada.

    A forma de desindexar é atraves do atributo noindex nofollow mesmo! Repare que até usando gwt ele recomenda que se você quiser solicitar a remoção de uma página via painel, ela deve estar “qualificada para a remoção”.

Leave a Reply