Crawler Facebook

Konten sangat sering dibagikan ke Facebook dalam bentuk halaman web. Saat pertama kali seseorang membagikan tautan, crawler Facebook akan melakukan scraping terhadap HTML di URL tersebut guna mengumpulkan, menyinggahkan, dan menampilkan info tentang konten di Facebook seperti judul, deskripsi, dan gambar mini. Selain halaman web yang dibagikan secara langsung di Facebook, ada cara-cara lain yang dapat memicu crawl halaman web Anda. Seperti misalnya, dengan adanya plugin sosial Facebook di halaman web, crawler kami dapat melakukan scraping pada halaman web itu.

Mengidentifikasi Crawler

Crawler Facebook dapat diidentifikasi dengan salah satu string agen pengguna ini:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

atau

facebookexternalhit/1.1

Akses Crawler

Crawler Facebook harus dapat mengakses konten Anda untuk melakukan scraping dan membagikannya dengan benar. Halaman Anda harus dapat dilihat oleh crawler. Jika Anda mengharuskan login atau melarang akses ke konten Anda, maka Anda perlu memasukkan crawler kami ke dalam daftar putih. Perhatikan bahwa crawler kami hanya menerima pengkodean gzip dan deflate, jadi pastikan server Anda menggunakan pengkodean yang tepat.

Jika konten tidak tersedia pada saat scraping, Anda dapat memaksakan scraping ulang setelah tersedia, baik dengan meneruskan URL melalui Alat Debug Berbagi atau dengan menggunakan API Graf.

Ada dua cara untuk memberi akses crawler:

  1. Masukkan string agen pengguna yang tercantum di atas ke daftar putih, yang tidak memerlukan pemeliharaan
  2. Masukkan alamat IP yang digunakan oleh crawler ke daftar putih, yaitu alamat IP yang lebih aman:

Jalankan perintah untuk mendapat daftar alamat IP saat ini yang digunakan crawler.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Tindakan itu akan mengembalikan daftar alamat IP yang sering berubah:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Memastikan latensi yang wajar

Anda harus memastikan bahwa sumber daya yang direferensikan di URL untuk dilakukan crawling dapat diambil oleh crawler secara cepat, tidak lebih dari beberapa detik. Jika crawler tidak dapat melakukannya, maka Facebook tidak dapat menampilkan sumber daya.

Pembatasan nilai crawler

Anda dapat memberi label halaman dan objek untuk mengubah berapa lama crawler Facebook akan menunggu untuk memeriksanya bagi konten baru. Gunakan properti objek og:ttl untuk membatasi akses crawler jika crawler kami menjadi terlalu agresif.

Crawler Facebot

Mulai 28 Mei 2014, Anda juga dapat melihat crawler dengan string agen pengguna berikut ini:

Facebot

Facebot merupakan robot crawling web Facebook yang membantu meningkatkan kinerja iklan. Facebot dirancang untuk bersikap sopan. Facebot mencoba mengakses setiap server web tidak lebih dari sekali setiap beberapa detik, sesuai dengan standar industri, dan akan menghormati pengaturan robots.txt Anda.

Ingat bahwa Facebot memeriksa perubahan pada file robots.txt server Anda hanya beberapa kali sehari, sehingga segala update akan dicatat pada crawl berikutnya dan tidak segera dicatat.