Rastreador de Facebook

La forma más frecuente de compartir contenido en Facebook es en forma de página web. La primera vez que alguien comparta un enlace, el rastreador de Facebook extraerá el HTML de la URL para recopilar, almacenar en caché y mostrar información sobre el contenido en Facebook, como un título, una descripción y una imagen en miniatura. Además de compartir directamente la página web en Facebook, hay otras maneras en que se puede activar un rastreo de ella. Por ejemplo, si la página web tiene plugins sociales de Facebook, nuestro rastreador puede extraerla.

Identificar el rastreador

El rastreador de Facebook puede identificarse mediante una de estas dos cadenas de agente de usuario:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

O bien

facebookexternalhit/1.1

Acceso del rastreador

El rastreador de Facebook necesitar tener acceso a tu contenido para extraerlo y compartirlo correctamente. Tus páginas deben estar visibles para el rastreador. Si exiges iniciar sesión o restringes de cualquier otro modo el acceso a tu contenido, tendrás que incluir al rastreador en la lista blanca. Ten en cuenta que nuestro rastreador solo acepta codificaciones gzip y Deflate.

Si el contenido no está disponible en el momento de la extracción, puedes forzar una nueva extracción cuando esté disponible, ya sea pasando la URL por el depurador de contenido compartido o usando la API Graph.

Hay dos formas de proporcionar acceso al rastreador:

  1. Incluir en la lista blanca las cadenas de agente de usuario indicadas anteriormente, que no requiere ningún tipo de mantenimiento
  2. Incluir en la lista blanca las direcciones IP utilizadas por el rastreador, que es más seguro:

Ejecuta este comando para obtener una lista actualizada de las direcciones IP que utiliza el rastreador.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

El comando devolverá una lista de direcciones IP que cambian con frecuencia:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Garantizar una latencia razonable

Asegúrate de que el rastreador pueda recuperar de forma razonablemente rápida (en no más de varios segundos) los recursos a los que se hace referencia en las URL que se van a rastrear. De lo contrario, Facebook no podrá mostrar el recurso.

Limitación de velocidad del rastreador

Puedes etiquetar páginas y objetos para cambiar la frecuencia con la que el rastreador de Facebook comprobará si tienen nuevo contenido. Utiliza la propiedad de objeto og:ttl para limitar el acceso del rastreador si está siendo demasiado invasivo.

Rastreador Facebot

Desde el 28 de mayo de 2014, también es posible ver un rastreador con la siguiente cadena de agente de usuario:

Facebot

Facebot es el robot de rastreo web de Facebook que ayuda a mejorar el rendimiento de publicidad. Facebot está diseñado para ser educado. No intenta obtener acceso a cada servidor web más de una vez cada pocos segundos, de acuerdo con las normas de la industria y respetará tu configuración de robots.txt.

Ten en cuenta que Facebot comprueba los cambios en tu archivo de robots.txt del servidor solo unas cuantas veces al día, de modo que las actualizaciones se considerarán en el siguiente rastreo y no de manera inmediata.