Rastreador de Facebook

La forma más frecuente de compartir contenido en Facebook es en forma de página web. La primera vez que alguien comparta un enlace, el rastreador de Facebook extraerá el HTML de la URL para recopilar, almacenar en caché y mostrar información sobre el contenido en Facebook, como un título, una descripción y una imagen en miniatura. Además de la opción de compartir la página web directamente en Facebook, existen otros métodos que pueden usarse para disparar un rastreo de tu página. Por ejemplo, usar cualquiera de los plugins sociales de Facebook en la página puede hacer que nuestro rastreador extraiga la página.

Identificar el rastreador

El rastreador de Facebook puede identificarse mediante una de estas dos cadenas de agente de usuario:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

O bien

facebookexternalhit/1.1

Acceso del rastreador

El rastreador de Facebook necesitar tener acceso a tu contenido para extraerlo y compartirlo correctamente. Tus páginas deben estar visibles para el rastreador. Si exiges iniciar sesión o restringes de cualquier otro modo el acceso a tu contenido, tendrás que incluir al rastreador en la lista blanca. Ten en cuenta que nuestro rastreador solo admite únicamente las codificaciones gzip y deflate, por lo que debes asegurarte de que tu servidor use la codificación correcta. Ten presente que el rastreador solo extrae el primer 1 MB de la página, por lo que es necesario incluir en la lista toda propiedad de Open Graph antes de ese umbral.

Si el contenido no está disponible en el momento de la extracción, puedes forzar una nueva extracción cuando esté disponible pasando la URL por el depurador de contenido compartido o usando la API Graph.

Hay dos formas de proporcionar acceso al rastreador:

  1. Incluir en la lista blanca las cadenas de agente de usuario indicadas anteriormente, que no requiere ningún tipo de mantenimiento
  2. Incluir en la lista blanca las direcciones IP utilizadas por el rastreador, que es más seguro:

Ejecuta este comando para obtener una lista actualizada de las direcciones IP que utiliza el rastreador.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

El comando devolverá una lista de direcciones IP que cambian con frecuencia:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Garantizar una latencia razonable

Asegúrate de que el rastreador pueda recuperar de forma razonablemente rápida (en no más de varios segundos) los recursos a los que se hace referencia en las URL que se van a rastrear. De lo contrario, Facebook no podrá mostrar el recurso.

Limitación de velocidad del rastreador

Puedes etiquetar páginas y objetos para cambiar la frecuencia con la que el rastreador de Facebook comprobará si tienen nuevo contenido. Utiliza la propiedad de objeto og:ttl para limitar el acceso del rastreador si está siendo demasiado invasivo.

Rastreador de Facebot

A 28 de mayo de 2014, también es posible ver un rastreador con la siguiente cadena de agente de usuario:

Facebot

Facebot es el robot de rastreo web de Facebook que ayuda a mejorar el rendimiento de publicidad. Facebot está diseñado para ser educado. No intenta obtener acceso a cada servidor web más de una vez cada pocos segundos, de acuerdo con las normas de la industria y respetará tu configuración de robots.txt.

Ten en cuenta que Facebot comprueba los cambios en tu archivo de robots.txt del servidor solo unas cuantas veces al día, de modo que las actualizaciones se considerarán en el siguiente rastreo y no de manera inmediata.