Crawler Facebook

Konten sangat sering dibagikan ke Facebook dalam bentuk halaman web. Saat pertama kali seseorang membagikan tautan, crawler Facebook akan melakukan scraping terhadap HTML di URL tersebut guna mengumpulkan, menyimpan cache, dan menampilkan info tentang konten di Facebook seperti judul, deskripsi, dan gambar mini. Selain halaman web dibagikan secara langsung di Facebook, ada cara-cara lain yang dapat memicu crawling halaman web. Misalnya, adanya plugin sosial Facebook di halaman web dapat menyebabkan crawler kami melakukan scraping pada halaman web tersebut.

Mengidentifikasi Crawler

Crawler Facebook dapat diidentifikasi dengan salah satu string agen pengguna ini:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

atau

facebookexternalhit/1.1

Akses Crawler

Crawler Facebook harus dapat mengakses konten Anda untuk melakukan scraping dan membagikannya dengan benar. Halaman Anda harus dapat dilihat oleh crawler. Jika Anda mengharuskan masuk atau membatasi akses ke konten Anda, Anda harus memasukkan crawler kami ke dalam daftar putih. Perlu diperhatikan bahwa crawler kami hanya menerima enkoding gzip dan deflate, jadi pastikan server Anda menggunakan enkoding yang tepat. Perlu diperhatikan bahwa crawler hanya melakukan scraping pada 1 MB pertama dari halaman, jadi properti Graf Terbuka harus dicantumkan sebelum batas tersebut.

Jika konten tidak tersedia saat scraping, Anda dapat menerapkan scraping ulang setelah konten tersedia dengan meneruskan URL melalui Debugger Berbagi atau dengan menggunakan API Graf.

Ada 2 cara untuk memberi akses crawler:

  1. Masukkan string agen pengguna yang tercantum di atas ke daftar putih, yang tidak memerlukan pemeliharaan
  2. Masukkan alamat IP yang digunakan oleh crawler ke daftar putih, yaitu alamat IP yang lebih aman:

Jalankan perintah untuk mendapatkan daftar alamat IP saat ini yang digunakan crawler.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Tindakan ini akan mengembalikan daftar alamat IP yang sering berubah:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Memastikan latensi yang wajar

Anda harus memastikan bahwa sumber daya yang direferensikan di URL untuk dilakukan crawling dapat diambil oleh crawler secara cepat, tidak lebih dari beberapa detik. Jika crawler tidak dapat melakukannya, maka Facebook tidak dapat menampilkan sumber daya.

Pembatasan nilai crawler

Anda dapat memberi label halaman dan objek untuk mengubah berapa lama crawler Facebook akan menunggu untuk memeriksanya bagi konten baru. Gunakan og:ttl properti objek untuk membatasi akses crawler jika crawler kami terlalu agresif.

Crawler Facebot

Mulai 28 Mei 2014, Anda juga dapat melihat crawler dengan string agen pengguna berikut:

Facebot

Facebot adalah robot crawling web Facebook yang membantu meningkatkan kinerja periklanan. Facebot dirancang untuk bersikap sopan. Facebot mencoba mengakses tiap server web tidak lebih dari sekali setiap beberapa detik, sesuai standar industri, dan akan mempertahankan setelan robots.txt Anda.

Perlu diingat bahwa Facebot memeriksa perubahan pada file robots.txt server Anda hanya beberapa kali sehari, jadi pembaruan akan dicatat pada crawling berikutnya, bukan secara instan.