O rastreador do Facebook

Na maioria das vezes, o conteúdo é compartilhado no Facebook na forma de uma página da Web. Da primeira vez que uma pessoa compartilha um link, o Rastreador do Facebook extrai o HTML no URL para coletar, armazenar em cache e exibir informações sobre o conteúdo no Facebook, como um título, uma descrição e uma imagem em miniatura. Além da página da Web sendo diretamente compartilhada no Facebook, há outras maneiras que podem acionar um rastreamento da sua página da Web. Por exemplo, ter algum dos plugins sociais do Facebook na página da Web pode fazer com que nosso rastreador extraia essa página.

Como identificar o rastreador

O rastreador do Facebook pode ser identificado por qualquer uma dessas cadeias de caracteres do agente do usuário:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

ou

facebookexternalhit/1.1

Acesso do rastreador

O rastreador do Facebook precisa ser capaz de acessar seu conteúdo para extraí-lo e compartilhá-lo corretamente. Suas páginas devem estar visíveis ao rastreador. Caso você exija o login ou outro tipo de acesso restrito ao seu conteúdo, será preciso incluir nosso rastreador na lista de liberação. Observe que nosso rastreador aceita apenas codificações gzip e deflate. Por isso, certifique-se de que seu servidor utiliza a codificação correta. Nosso rastreador extrai apenas o primeiro 1 MB de uma página, então qualquer propriedade do Open Graph precisa ser listada antes desse limite.

Se o conteúdo não estiver disponível no momento da extração, você poderá forçar uma nova extração quando ele estiver disponível, informando o URL pelo Depurador de Compartilhamento ou usando a Graph API.

Há duas formas de dar acesso ao rastreador:

  1. Incluir as cadeias de caracteres do agente do usuário listadas acima em uma lista de liberação, o que não requer manutenção
  2. Incluir os endereços IP usados pelo rastreador em uma lista de liberação, o que é mais seguro:

Execute esse comando para obter uma lista atual de endereços IP que o rastreador usa.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Isso retornará uma lista de endereços IP que mudam com frequência:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Como garantir uma latência razoável

Você precisa garantir que os recursos referenciados nas URLs para serem rastreados possam ser recuperados pelo rastreador de modo relativamente rápido, em questão de apenas alguns segundos. Se o rastreador não puder fazer isso, o Facebook não poderá exibir o recurso.

Limite de taxa do rastreador

Você pode rotular páginas e objetos para alterar o tempo que o rastreador do Facebook irá aguardar para verificá-los em busca de novos conteúdos. Use a propriedade de objeto og:ttl para limitar o acesso se nosso rastreador estiver sendo muito agressivo.

Rastreador do Facebot

Desde 28 de maio de 2014 você também pode ver um rastreador com a seguinte cadeia de caracteres do agente do usuário:

Facebot

Facebot é o robô de rastreamento da Web do Facebook que ajuda a melhorar o desempenho dos anúncios. O Facebot foi projetado para ser educado. Ele tenta acessar cada servidor da Web apenas uma vez após alguns segundos, alinhado com os padrões da indústria, e respeita suas configurações de robots.txt.

Lembre-se de que o Facebot verifica as alterações no arquivo robots.txt do seu servidor apenas algumas vezes por dia; portanto, as atualizações serão observadas no próximo rastreamento, e não imediatamente.