Le robot d’indexation Facebook

La plupart du temps, le contenu est partagé sur Facebook sous forme de page web. La première fois qu’un utilisateur partage un lien, le robot d’indexation Facebook récupère le code HTML à cette URL pour rassembler, mettre en cache et afficher des informations relatives au contenu sur Facebook, comme un titre, une description et une image miniature. En plus de la page web directement partagée sur Facebook, il existe d’autres moyens de déclencher une indexation de votre page. Par exemple, disposer de n’importe quel plugin social de Facebook sur la page web peut entraîner une visite de notre robot d’indexation sur cette page.

Identification du robot d’indexation

Le robot d’indexation Facebook peut être identifié par l’une ou l’autre de ces chaînes d’agent utilisateur :

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

ou

facebookexternalhit/1.1

Accès du robot d’indexation

Le robot d’indexation Facebook doit pouvoir accéder à votre contenu pour le récupérer et le partager correctement. Vos pages doivent être visibles par le robot d’indexation. Si vous demandez une connexion ou limitez d’une autre manière l’accès à votre contenu, vous devez ajouter notre robot d’indexation à la liste blanche. Notez que notre robot d’indexation n’accepte que les encodages Gzip et Deflate. Veillez donc à ce que votre serveur utilise le bon encodage. Notez également que le robot d’indexation ne récupère que le premier Mo d’une page, toutes les propriétés Open Graph doivent donc figurer avant cette coupure.

Si le contenu n’est pas disponible au moment de la récupération, vous pouvez forcer une nouvelle récupération une fois qu’il devient disponible en faisant soit transiter l’URL par le programme de débogage du partage, soit en utilisant l’API Graph.

Il existe deux façons d’accorder l’accès au robot d’indexation :

  1. Vous pouvez ajouter les chaînes d’agent utilisateur indiquées ci-dessus à la liste blanche, ce qui ne nécessite pas de maintenance.
  2. Vous pouvez également ajouter les adresses IP utilisées par le robot d’indexation à la liste blanche, ce qui est plus sécurisé :

Exécutez cette commande pour obtenir une liste à jour des adresses IP utilisées par le robot d’indexation.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Elle renvoie une liste d’adresses IP qui changent souvent :

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Garantir une latence raisonnable

Vous devez vous assurer que les ressources référencées dans les URL à indexer peuvent être récupérées assez rapidement par le robot d’indexation, en quelques secondes maximum. Si le robot d’indexation n’en est pas capable, Facebook ne sera pas en mesure d’afficher la ressource.

Limite de débit du robot d’indexation

Vous pouvez identifier des pages et des objets pour modifier le temps d’attente du robot d’indexation Facebook avant qu’il ne vérifie la présence de nouveau contenu. Utilisez la propriété d’objet og:ttl pour limiter l’accès du robot d’indexation si notre robot devient trop agressif.

Robot d’indexation Facebook

Depuis le 28 mai 2014, vous pouvez également voir un robot d’indexation avec la chaîne d’agent utilisateur suivante :

Facebot

Facebot est le robot d’indexation web de Facebook qui vous aide à améliorer les performances de vos publicités. Il est conçu pour être poli. Il ne tente pas d’accéder à chaque serveur web plus d’une fois toutes les quelques secondes, conformément aux normes sectorielles, et il respectera vos paramètres robots.txt.

N’oubliez pas que Facebot se limite à quelques vérifications par jour concernant les modifications apportées au fichier robots.txt de votre serveur, il est donc possible qu’il ne les remarque pas immédiatement.