Trình thu thập dữ liệu Facebook

Nội dung thường được chia sẻ lên Facebook ở dạng trang web. Lần đầu tiên ai đó chia sẻ một liên kết, Trình thu thập dữ liệu Facebook sẽ thu thập HTML tại URL đó để tập hợp, lưu vào bộ nhớ đệm và hiển thị thông tin về nội dung trên Facebook như tiêu đề, mô tả và hình nhỏ. Ngoài việc chia sẻ trực tiếp trang web trên Facebook, cũng có những cách khác để kích hoạt quá trình thu thập dữ liệu trang web. Ví dụ: việc có bất kỳ plugin xã hội nào của Facebook trên trang web có thể khiến trình thu thập dữ liệu của chúng tôi thu thập trang web đó.

Xác định trình thu thập dữ liệu

Trình thu thập dữ liệu Facebook có thể được xác định bằng một trong hai chuỗi tác nhân người dùng sau:

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

hoặc

facebookexternalhit/1.1

Quyền truy cập của trình thu thập dữ liệu

Trình thu thập dữ liệu Facebook cần có thể truy cập nội dung của bạn để thu thập và chia sẻ nội dung chính xác. Trang của bạn phải hiển thị với trình thu thập dữ liệu. Nếu bạn yêu cầu đăng nhập hay nói cách khác giới hạn quyền truy cập vào nội dung của mình, bạn sẽ cần cho phép trình thu thập dữ liệu của chúng tôi. Lưu ý rằng trình thu thập dữ liệu của chúng tôi chỉ chấp nhận các phương thức mã hóa gzipdeflate, vì vậy, hãy đảm bảo máy chủ của bạn sử dụng đúng phương thức mã hóa.

Nếu nội dung không có sẵn tại thời điểm thu thập, bạn có thể buộc thu thập lại sau khi nội dung có sẵn bằng cách chuyển URL thông qua Trình gỡ lỗi chia sẻ hoặc bằng cách sử dụng API Đồ thị.

Có hai cách để cấp quyền truy cập cho trình thu thập dữ liệu:

  1. Cho phép các chuỗi tác nhân người dùng được liệt kê bên trên, không cần sửa đổi
  2. Cho phép các địa chỉ IP được trình thu thập dữ liệu sử dụng, an toàn hơn:

Chạy lệnh này để nhận danh sách các địa chỉ IP hiện tại mà trình thu thập dữ liệu sử dụng.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Thao tác này sẽ trả về danh sách các địa chỉ IP thường xuyên thay đổi:

# For example only - over 100 in total
31.13.24.0/21 
66.220.144.0/20    
2401:db00::/32  
2620:0:1c00::/40  
2a03:2880::/32 

Đảm bảo thời gian chờ hợp lý

Bạn cần đảm bảo rằng tài nguyên được tham chiếu trong URL sẽ thu thập có thể được truy xuất nhanh theo cách hợp lý bởi trình thu thập dữ liệu, trong không quá vài giây. Nếu trình thu thập dữ liệu không thể thực hiện điều này thì Facebook sẽ không thể hiển thị tài nguyên.

Giới hạn tốc độ của trình thu thập dữ liệu

Bạn có thể gắn nhãn trang và đối tượng để thay đổi thời gian mà trình thu thập dữ liệu của Facebook sẽ đợi để kiểm tra nội dung mới của trang và đối tượng. Sử dụng thuộc tính đối tượng og:ttl để giới hạn quyền truy cập của trình thu thập dữ liệu nếu trình thu thập dữ liệu của chúng tôi quá chi tiết.

Trình thu thập dữ liệu Facebot

Kể từ ngày 28 tháng 5 năm 2014, bạn cũng có thể xem trình thu thập dữ liệu với chuỗi tác nhân người dùng sau:

Facebot

Facebot là rôbốt thu thập dữ liệu trên web của Facebook, giúp cải thiện hiệu quả quảng cáo. Facebot được thiết kế hợp lý. Facebot cố gắng không truy cập vào từng máy chủ web quá một lần mỗi vài giây, phù hợp với tiêu chuẩn ngành và sẽ tôn trọng cài đặt robots.txt của bạn.

Lưu ý rằng Facebot sẽ chỉ kiểm tra các thay đổi đối với tệp robots.txt của máy chủ một vài lần mỗi ngày vì vậy mọi cập nhật sẽ được thông báo vào lần thu thập dữ liệu tiếp theo, chứ không phải ngay lập tức.