ครอว์เลอร์ Facebook:

การแชร์เนื้อหาไปที่ Facebook มักเป็นรูปแบบของเว็บเพจเกือบทุกครั้ง ในครั้งแรกที่คนๆ หนึ่งแชร์ลิงก์ครอว์เลอร์ Facebook จะดึงแยก HTML ที่ URL นั้นเพื่อรวบรวม แคชและแสดงผลข้อมูลเกี่ยวกับเนื้อหาบน Facebook เช่น ชื่อเรื่อง คำอธิบายและภาพขนาดย่อ นอกจากการแชร์หน้าเว็บโดยตรงบน Facebook แล้ว ยังมีวิธีอื่นๆ ในการทริกเกอร์การรวบรวมข้อมูลของหน้าเว็บคุณได้ เช่น การมีโซเชียลปลั๊กอินของ Facebook บนหน้าเว็บจะทำให้ครอว์เลอร์ของเราดึงแยกหน้าเว็บนั้นได้

การระบุครอว์เลอร์

เลือกระบุครอว์เลอร์ Facebook ได้จากสตริงตัวแทนผู้ใช้หนึ่งสตริงจากสตริงเหล่านี้:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

หรือ

facebookexternalhit/1.1

การเข้าถึงครอว์เลอร์

ครอว์เลอร์ Facebook จำเป็นต้องเข้าถึงเนื้อหาของคุณได้เพื่อดึงแยกและแชร์ได้อย่างถูกต้อง ครอว์เลอร์ควรมองเห็นเพจของคุณ หากคุณต้องการให้เข้าสู่ระบบหรือจำกัดการเข้าถึงเนื้อหาของคุณ คุณจะต้องไวท์ลิสต์ครอว์เลอร์ของเรา โปรดทราบว่าครอว์เลอร์จะยอมรับการเข้ารหัส gzip และ deflate เท่านั้น ดังนั้นตรวจสอบให้แน่ใจว่าเซิร์ฟเวอร์ของคุณใช้การเข้ารหัสที่เหมาะสม

หากยังไม่มีเนื้อหา ณ เวลาที่จะทำการดึงแยก คุณสามารถบังคับให้ทำการดึงแยกอีกครั้งทันทีที่มีเนื้อหาแล้วด้วยการส่ง URL ผ่านตัวแก้ไขจุดบกพร่องการแชร์หรือการใช้API กราฟ

การให้สิทธิ์เข้าถึงครอว์เลอร์แบ่งออกเป็นสองวิธี:

  1. ไวท์ลิสต์สตริงตัวแทนผู้ใช้ตามที่ปรากฏข้างต้นไว้ รายการดังกล่าวไม่ต้องมีการดูแล
  2. สร้างรายการที่อยู่ IP ที่ได้รับอนุญาตที่ครอว์เลอร์ใช้ ซึ่งมีความปลอดภัยมากขึ้น:

ใช้คำสั่งนี้เพื่อรับรายการที่อยู่ IP ปัจจุบันที่ครอว์เลอร์ใช้

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

คำสั่งจะส่งคืนรายการที่อยู่ IP ที่เปลี่ยนแปลงบ่อย:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

การรับประกันถึงภาวะแฝงที่สมเหตุสมผล

คุณต้องรับประกันว่าทรัพยากรที่อ้างถึงใน URL ที่จะตระเวนนั้นเป็นส่วนที่ครอว์เลอร์กู้ขึ้นมาได้อย่างรวดเร็ว ในเวลาไม่เกินสองสามวินาที หากครอว์เลอร์ไม่สามารถทำเช่นนี้ได้ Facebook ก็จะไม่สามารถแสดงผลทรัพยากรนั้น

การจำกัดอัตราของครอว์เลอร์

คุณสามารถติดป้ายชื่อเพจและอ็อบเจ็กต์เพื่อเปลี่ยนระยะเวลาที่ครอว์เลอร์ Facebook จะรอเพื่อตรวจสอบเนื้อหาใหม่ในเพจและอ็อบเจ็กต์เหล่านั้น ใช้คุณสมบัติของอ็อบเจ็กต์ og:ttlเพื่อจำกัดการเข้าถึงของครอว์เลอร์ หากครอว์เลอร์ของเราทำงานรุกล้ำเกินไป

ครอว์เลอร์ Facebot

คุณอาจเห็นครอว์เลอร์พร้อมสตริงตัวแทนผู้ใช้ต่อไปนี้ ณ วันที่ 28 พฤษภาคม 2014:

Facebot

Facebot คือหุ่นยนต์ครอว์เลอร์เว็บของ Facebook ที่ช่วยพัฒนาประสิทธิภาพในการลงโฆษณา Facebot ได้รับการออกแบบให้มีความสุภาพ โดยจะพยายามเข้าถึงแต่ละเซิร์ฟเวอร์เว็บไม่เกินหนึ่งครั้งในทุกๆ 2-3 วินาทีตามมาตรฐานอุตสาหกรรมและจะเคารพการตั้งค่า robots.txt ของคุณ

โปรดทราบว่า Facebook จะตรวจสอบการเปลี่ยนแปลงของไฟล์ robots.txt ของเซิร์ฟเวอร์ของคุณเพียง 2-3 ครั้งต่อวัน ดังนั้นการอัพเดตใดๆ จะได้รับแจ้งในครอลว์ครั้งถัดไปและไม่ใช่โดยทันที