Le robot d’indexation Facebook

La plupart du temps, le contenu est partagé sur Facebook sous forme de page web. La première fois qu’un utilisateur partage un lien, le robot d’indexation Facebook récupère le code HTML à cette URL pour rassembler, mettre en cache et afficher des informations relatives au contenu sur Facebook, comme un titre, une description et une image miniature. Outre le fait de la partager directement sur Facebook, il existe d’autres façons de déclencher l’indexation de la page web. Par exemple, notre robot d’indexation peut récupérer les données de la page web si elle contient l’un des social plugins de Facebook.

Identification du robot d’indexation

Le robot d’indexation Facebook peut être identifié par l’une ou l’autre de ces chaînes d’agent utilisateur :

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

ou

facebookexternalhit/1.1

Accès du robot d’indexation

Le robot d’indexation Facebook doit pouvoir accéder à votre contenu pour le récupérer et le partager correctement. Vos pages doivent être visibles par le robot d’indexation. Si vous demandez une connexion ou limitez d’une autre manière l’accès à votre contenu, vous devez ajouter notre robot d’indexation à la liste blanche. Notez que notre robot d’indexation accepte uniquement les encodages gzip et deflate. Par conséquent, vérifiez que votre serveur utilise l’encodage adéquat.

Si le contenu n’est pas disponible au moment de la récupération, vous pouvez forcer une nouvelle récupération une fois qu’il devient disponible en faisant transiter l’URL par le programme de débug du partage ou en utilisant l’API Graph.

Il existe deux façons d’accorder l’accès au robot d’indexation :

  1. Vous pouvez ajouter les chaînes d’agent utilisateur indiquées ci-dessus à la liste blanche, ce qui ne nécessite pas de maintenance.
  2. Vous pouvez également ajouter les adresses IP utilisées par le robot d’indexation à la liste blanche, ce qui est plus sécurisé :

Exécutez cette commande pour obtenir une liste à jour des adresses IP utilisées par le robot d’indexation.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Elle renvoie une liste d’adresses IP qui changent souvent :

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Garantir une latence raisonnable

Vous devez vous assurer que les ressources référencées dans les URL à indexer peuvent être récupérées assez rapidement par le robot d’indexation, en quelques secondes maximum. Si le robot d’indexation n’en est pas capable, Facebook ne sera pas en mesure d’afficher la ressource.

Limite de débit du robot d’indexation

Vous pouvez identifier des pages et des objets pour modifier le temps d’attente du robot d’indexation Facebook avant qu’il ne vérifie la présence de nouveau contenu. Utilisez la propriété d’objet og:ttl pour limiter l’accès du robot d’indexation si notre robot devient trop agressif.

Robot d’indexation Facebook

Depuis le 28 mai 2014, vous pouvez également voir un robot d’indexation avec la chaîne d’agent utilisateur suivante :

Facebot

Facebot est le robot d’indexation web de Facebook qui vous aide à améliorer les performances de vos publicités. Il est conçu pour être poli. Il ne tente pas d’accéder à chaque serveur web plus d’une fois toutes les quelques secondes, conformément aux normes sectorielles, et il respectera vos paramètres robots.txt.

N’oubliez pas que Facebot se limite à quelques vérifications par jour concernant les modifications apportées au fichier robots.txt de votre serveur, il est donc possible qu’il ne les remarque pas immédiatement.