O rastreador do Facebook

Na maioria das vezes, os conteúdos são compartilhados no Facebook na forma de uma página da Web. Da primeira vez que uma pessoa compartilha um link, o Rastreador do Facebook extrai o HTML no URL para coletar, armazenar em cache e exibir informações sobre o conteúdo no Facebook, como um título, descrição e imagem em miniatura. Além de compartilhar a página da Web diretamente no Facebook, há outras maneiras de acionar um rastreamento de sua página da Web. Por exemplo, ter um plugin social do Facebook na página da Web pode fazer nosso rastreador examiná-la.

Identificar o rastreador

O rastreador do Facebook pode ser identificado por qualquer uma dessas cadeias de caracteres do agente do usuário:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

ou

facebookexternalhit/1.1

Acesso do rastreador

O rastreador do Facebook precisa ser capaz de acessar seu conteúdo para extraí-lo e compartilhá-lo corretamente. Suas páginas devem estar visíveis ao rastreador. Caso você exija o login ou outro tipo de acesso restrito ao seu conteúdo, será preciso incluir nosso rastreador na lista de liberação. Nosso rastreador só aceita codificações gzip e deflate, para garantir que seu servidor usa a codificação certa.

Se o conteúdo não estiver disponível no momento da extração, force uma nova extração quando ele estiver disponível, passando a URL pelo Depurador de Compartilhamento ou usando a Graph API.

Há duas formas de dar acesso ao rastreador:

  1. Incluir as cadeias de caracteres do agente do usuário listadas acima em uma lista de liberação, o que não requer manutenção
  2. Incluir os endereços IP usados pelo rastreador em uma lista de liberação, o que é mais seguro:

Execute esse comando para obter uma lista atual de endereços IP que o rastreador usa.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Isso retornará uma lista de endereços IP que mudam com frequência:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Garantir uma latência razoável

Você precisa garantir que os recursos referenciados nas URLs para serem rastreados possam ser recuperados pelo rastreador de modo relativamente rápido, em questão de apenas alguns segundos. Se o rastreador não puder fazer isso, o Facebook não poderá exibir o recurso.

Limite de taxa do rastreador

Você pode rotular suas páginas e objetos para alterar o tempo que o rastreador do Facebook irá aguardar para verificá-los em busca de novos conteúdos. Use a propriedade de objeto og:ttl para limitar o acesso do rastreador se nosso rastreador estiver sendo muito agressivo.

Rastreador Facebot

Desde 28 de maio de 2014 você também pode ver um rastreador com a seguinte cadeia de caracteres do agente do usuário:

Facebot

Facebot é o robô de rastreamento da Web do Facebook que ajuda a melhorar o desempenho dos anúncios. O Facebot foi projetado para ser educado. Ele tenta acessar cada servidor da Web apenas uma vez após alguns segundos, alinhado aos padrões da indústria, o Facebook respeita as suas configurações de robots.txt.

Lembre-se de que o Facebot verifica as alterações no arquivo de robots.txt do seu servidor apenas algumas vezes por dia, portanto, as atualizações serão observados no próximo rastreamento e não imediatamente.