Rastreador de Facebook

La forma más frecuente de compartir contenido en Facebook es con una página web. La primera vez que alguien comparta un enlace, el rastreador de Facebook extraerá el código HTML de la URL para recopilar, almacenar en caché y mostrar información sobre el contenido en Facebook, como un título, una descripción y una imagen en miniatura. Aparte de la página web que se comparte directamente en Facebook, existen otras maneras para activar un rastreador en tu página web. Por ejemplo, tener uno de los plugins sociales de Facebook en la página web puede hacer que nuestro rastreador extraiga la página.

Identificar el rastreador

El rastreador de Facebook puede identificarse mediante una de estas dos cadenas de agente de usuario:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

O bien:

facebookexternalhit/1.1

Acceso del rastreador

El rastreador de Facebook necesita tener acceso a tu contenido para extraerlo y compartirlo correctamente. Tus páginas deben ser visibles para el rastreador. Si exiges iniciar sesión o restringes de cualquier otro modo el acceso a tu contenido, tendrás que incluir el rastreador en la lista de autorizados correspondiente. Ten en cuenta que el rastreador solo acepta las codificaciones gzip y deflate, por lo que tienes que comprobar que el servidor utilice la codificación correcta. Ten en cuenta que el rastreador solo extrae el primer MB de una página, de modo que todas las propiedades de Open Graph se tienen que enumerar antes de este límite.

Si el contenido no está disponible en el momento de la extracción, puedes forzar una nueva extracción cuando esté disponible, ya sea pasando la URL por el depurador de errores de contenido compartido o mediante la API Graph.

Hay dos formas de proporcionar acceso al rastreador:

  1. Incluir en la lista de autorizados las cadenas de agente de usuario indicadas anteriormente, lo que no requiere ningún tipo de mantenimiento.
  2. Incluir en la lista de autorizados las direcciones IP que utiliza el rastreador, lo que es más seguro.

Ejecuta este comando para obtener una lista actualizada de las direcciones IP que utiliza el rastreador.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

El comando devolverá una lista de direcciones IP que cambian con frecuencia:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Garantizar una latencia razonable

Asegúrate de que el rastreador pueda recuperar de forma razonablemente rápida (en pocos segundos) los recursos a los que se hace referencia en las URL que se van a rastrear. De lo contrario, Facebook no podrá mostrar el recurso.

Limitación de frecuencia del rastreador

Puedes etiquetar páginas y objetos para cambiar la frecuencia con la que el rastreador de Facebook comprobará si tienen nuevo contenido. Utiliza la propiedad de objeto og:ttl para limitar el acceso del rastreador si está siendo demasiado agresivo.

Rastreador Facebot

Desde el 28 de mayo de 2014, también es posible ver un rastreador con la siguiente cadena de agente de usuario:

Facebot

Facebot es el robot de rastreo web de Facebook que mejora el rendimiento publicitario. En el diseño de Facebot se han considerado criterios de cortesía. El robot solo intenta acceder a los distintos servidores web una vez cada ciertos segundos, de conformidad con los estándares del sector, y respeta la configuración de robots.txt.

Ten en cuenta que Facebot comprueba los cambios en el archivo robots.txt del servidor determinadas veces al día, de modo que las posibles actualizaciones se apreciarán en el rastreo siguiente (no de forma inmediata).