ครอว์เลอร์ Facebook:

การแชร์เนื้อหาไปที่ Facebook มักเป็นรูปแบบของเว็บเพจเกือบทุกครั้ง ในครั้งแรกที่คนๆ หนึ่งแชร์ลิงก์ ครอว์เลอร์ Facebook จะดึงแยก HTML ที่ URL นั้นเพื่อรวบรวม, แคช และแสดงผลข้อมูลเกี่ยวกับเนื้อหาบน Facebook เช่น ชื่อเรื่อง, คำอธิบาย และภาพขนาดย่อ นอกเหนือจากหน้าเว็บที่แชร์โดยตรงบน Facebook แล้ว ยังมีวิธีอื่น ๆ ที่สามารถเรียกใช้การรวบรวมข้อมูลหน้าเว็บของคุณได้ ตัวอย่างเช่น การมีปลั๊กอินโซเชียลของ Facebook ใดๆ บนหน้าเว็บจะช่วยให้ครอว์เลอร์ของเราดึงแยกหน้าเว็บนั้นได้

การระบุครอว์เลอร์

เลือกระบุครอว์เลอร์ Facebook ได้จากสตริงตัวแทนผู้ใช้หนึ่งสตริงจากสตริงเหล่านี้:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

หรือ

facebookexternalhit/1.1

การเข้าถึงครอว์เลอร์

ครอว์เลอร์ Facebook จำเป็นต้องเข้าถึงเนื้อหาของคุณได้เพื่อดึงแยกและแชร์ได้อย่างถูกต้อง ครอว์เลอร์ควรมองเห็นเพจของคุณ หากคุณต้องการการเข้าสู่ระบบหรือจำกัดการเข้าถึงเนื้อหาของคุณ คุณจะต้องไวท์ลิสต์ครอว์เลอร์ของเรา โปรดทราบว่าครอว์เลอร์ของเรายอมรับเฉพาะการเข้ารหัสแบบ gzip และ deflate เท่านั้น ดังนั้นโปรดตรวจสอบให้แน่ใจว่าเซิร์ฟเวอร์ของคุณใช้การเข้ารหัสที่ถูกต้อง โปรดทราบว่าครอว์เลอร์จะดึงแยก 1 MB แรกของหน้าเท่านั้น ดังนั้นจำเป็นต้องระบุคุณสมบัติของ Open Graph ใดๆ ก่อนการตัดยอดดังกล่าว

หากยังไม่มีเนื้อหา ณ เวลาที่จะทำการดึงแยก คุณสามารถบังคับให้ทำการดึงแยกอีกครั้งทันทีที่มีเนื้อหาแล้วด้วยการส่ง URL ผ่าน ตัวแก้ไขจุดบกพร่องการแชร์ หรือด้วยการใช้ API กราฟ

การให้สิทธิ์เข้าถึงครอว์เลอร์แบ่งออกเป็นสองวิธี:

  1. ไวท์ลิสต์สตริงตัวแทนผู้ใช้ตามที่ปรากฎข้างต้นไว้ รายการดังกล่าวไม่ต้องมีการดูแล
  2. สร้างรายการที่อยู่ IP ที่ได้รับอนุญาตที่ครอว์เลอร์ใช้ ซึ่งมีความปลอดภัยมากขึ้น:

ใช้คำสั่งนี้เพื่อรับรายการที่อยู่ IP ปัจจุบันที่ครอว์เลอร์ใช้

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

คำสั่งจะส่งคืนรายการที่อยู่ IP ที่เปลี่ยนแปลงบ่อย:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

การรับประกันถึงเวลาแฝงที่สมเหตุสมผล

คุณต้องรับประกันว่าทรัพยากรที่อ้างถึงใน URL ที่จะตระเวนนั้นเป็นส่วนที่ครอว์เลอร์กู้ขึ้นมาได้อย่างรวดเร็ว ในเวลาไม่เกินสองสามวินาที หากครอว์เลอร์ไม่สามารถทำเช่นนี้ได้ Facebook ก็จะไม่สามารถแสดงผลทรัพยากรนั้น

การจำกัดอัตราของครอว์เลอร์

คุณสามารถติดป้ายชื่อเพจและอ็อบเจ็กต์เพื่อเปลี่ยนระยะเวลาที่ครอว์เลอร์ Facebook จะรอเพื่อตรวจสอบเนื้อหาใหม่ในเพจและอ็อบเจ็กต์เหล่านั้น ใช้คุณสมบัติของอ็อบเจ็กต์ og:ttl เพื่อจำกัดการเข้าถึงของครอว์เลอร์ หากครอว์เลอร์ของเราทำงานรุกล้ำเกินไป

ครอว์เลอร์ Facebot

คุณอาจเห็นครอว์เลอร์พร้อมสตริงตัวแทนผู้ใช้ต่อไปนี้ ณ วันที่ 28 พฤษภาคม 2014:

Facebot

Facebot คือหุ่นยนต์ครอว์เลอร์เว็บของ Facebook ที่ช่วยพัฒนาประสิทธิภาพในการลงโฆษณา Facebot ได้รับการออกแบบให้มีความสุภาพ โดยจะพยายามเข้าถึงแต่ละเซิร์ฟเวอร์เว็บไม่เกินหนึ่งครั้งในทุกๆ 2-3 วินาทีตามมาตรฐานอุตสาหกรรม และจะเคารพการตั้งค่า robots.txt ของคุณ

โปรดทราบว่า Facebot จะตรวจสอบการเปลี่ยนแปลงของไฟล์ robots.txt ของเซิร์ฟเวอร์ของคุณเพียง 2-3 ครั้งต่อวัน ดังนั้นการอัพเดตใดๆ จะได้รับแจ้งในครอลว์ครั้งถัดไปและไม่ใช่โดยทันที