A Meta usa rastreadores da web (software que obtém conteúdo de sites ou apps da web) para diferentes propósitos. Esta página lista as strings do agente do usuário (UA, pelas iniciais em inglês) que identificam os rastreadores da web da Meta mais comuns e os respectivos usos.
Ficou mais fácil para gerenciadores de sites e proprietários de conteúdo indicarem as preferências ao seguir práticas padrão do setor como robots.txt em vez de formatos não tradicionais como tags NoAI. Esta página também fornece orientações sobre como configurar o arquivo robots.txt para que os rastreadores interajam corretamente com seu site.
O objetivo principal do FacebookExternalHit é rastrear o conteúdo de um app ou site que tenha sido compartilhado em um app da família da Meta, como Facebook, Instagram ou Messenger. O link pode ter sido compartilhado pelo método de copiar e colar ou por meio do Plugin Social do Facebook. Esse rastreador coleta, armazena e exibe informações sobre o app ou site, como título, descrição e imagem da miniatura.
A string específica do agente do usuário que você verá nos seus arquivos de registro será similar a uma destas:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)facebookexternalhit/1.1Observe que o rastreador FacebookExternalHit poderá ignorar o robots.txt ao realizar verificações de integridade ou segurança, como buscas por malware ou conteúdo malicioso.
Range da solicitação do rastreador, ou deve ignorar o cabeçalho Range completamente.Se o conteúdo do site ou do app não estiver disponível no momento do rastreamento, você poderá forçar essa ação quando ele for disponibilizado informando o URL por meio da ferramenta Depurador de Compartilhamento ou usando a API de Compartilhamento.
É possível simular uma solicitação do rastreador com o código a seguir:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
O rastreador Meta-WebIndexer navega pela web com o objetivo de melhorar a qualidade dos resultados da pesquisa do Meta AI para os usuários. Dessa forma, a Meta analisa o conteúdo online para aumentar a relevância e a precisão do Meta AI. Permitir o Meta-WebIndexer no arquivo robots.txt ajuda o Meta AI a citar e vincular seu conteúdo nas respostas.
A string específica do agente do usuário que você verá nos seus arquivos de registro será similar a uma destas:
meta-webindexer/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-webindexer/1.1O rastreador Meta-ExternalAds busca na web casos de uso como melhorias em anúncios e outros produtos/serviços relacionados a negócios.
A string específica do agente do usuário que você verá nos seus arquivos de registro será similar a uma destas:
meta-externalads/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-externalads/1.1O rastreador Meta-ExternalAgent busca na web casos de uso como modelos básicos de treinamento de IA ou melhorias de produtos com indexação direta de conteúdo.
A string específica do agente do usuário que você verá nos seus arquivos de registro será similar a uma destas:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-externalagent/1.1O rastreador Meta-ExternalFetcher busca links individuais conforme solicitado pelo usuário e é compatível com funções de produtos, como avaliar e melhorar os recursos de IA agêntica, o que inclui ajudar a IA a navegar em sites para concluir tarefas. Como resultado, esse rastreador poderá ignorar as regras do robots.txt.
A string específica do agente do usuário que você verá nos seus arquivos de registro será similar a uma destas:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)meta-externalfetcher/1.1Ao configurar o arquivo robots.txt, você pode especificar como os rastreadores da web da Meta devem interagir com seu site. Para bloquear esses rastreadores, adicione ao robots.txt uma anulação para o rastreador em questão. O rastreador Meta-ExternalFetcher poderá ignorar o robots.txt porque ele realiza buscas que foram solicitadas pelo usuário. Além disso, o rastreador FacebookExternalHit poderá ignorar o robots.txt ao realizar verificações de segurança ou integridade.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
As alterações a robots.txt podem levar 24 horas para serem efetivadas, porque os rastreadores armazenam o conteúdo de robots.txt em cache por até um dia.
Se o endereço IP de origem de um rastreador estiver na lista gerada pelo comando a seguir, isso indicará que o rastreador vem da Meta.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Observe que esses endereços IP mudam frequentemente. Para mais informações, acesse nossa página sobre peering ou baixe os dados relacionados (formato CSV).
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Em caso de dúvidas, entre em contato pelo email webmasters@meta.com (Webmasters da Meta).