Trình thu thập dữ liệu web của Meta

Meta sử dụng trình thu thập dữ liệu web (phần mềm tìm nạp nội dung từ trang web hoặc ứng dụng web) cho một số mục đích khác nhau. Trang này liệt kê các chuỗi Tác nhân người dùng (UA) giúp xác định những trình thu thập dữ liệu web phổ biến nhất của Meta cũng như mục đích sử dụng của từng trình thu thập dữ liệu đó.

Chúng tôi tạo điều kiện để người quản lý trang web và chủ sở hữu nội dung dễ dàng cho biết tùy chọn của mình bằng cách sử dụng các thông lệ theo chuẩn mực ngành như robots.txt thay vì dùng định dạng không chuẩn như thẻ NoAI. Trang này cũng hướng dẫn cách đặt cấu hình file robots.txt để trình thu thập dữ liệu của chúng tôi tương tác đúng cách với trang web của bạn.

FacebookExternalHit

Mục đích chính của FacebookExternalHit là thu thập nội dung của ứng dụng/trang web được chia sẻ trên một trong các nhóm ứng dụng của Meta, chẳng hạn như Facebook, Instagram hoặc Messenger. Liên kết có thể đã được chia sẻ bằng cách sao chép và dán hoặc thông qua plugin xã hội của Facebook. Trình thu thập dữ liệu này thu thập, lưu vào bộ nhớ đệm và hiển thị thông tin về ứng dụng/trang web nêu trên, chẳng hạn như tiêu đề, nội dung mô tả và hình thu nhỏ.

Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:

  • facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
  • facebookexternalhit/1.1

Lưu ý rằng trình thu thập dữ liệu FacebookExternalHit có thể bỏ qua file robots.txt khi kiểm tra bảo mật hoặc kiểm tra tính toàn vẹn, chẳng hạn như kiểm tra phần mềm hay nội dung độc hại.

Yêu cầu về trình thu thập dữ liệu

  • Máy chủ của bạn phải sử dụng phương thức mã hóa gzipdeflate.
  • Bạn phải liệt kê bất kỳ thuộc tính nào của Open Graph trước khi trang web/ứng dụng đạt ngưỡng 1 MB đầu tiên. Nếu không, thuộc tính đó sẽ bị ngừng hoạt động.
  • Đảm bảo nội dung có thể được trình thu thập dữ liệu thu thập trong vòng vài giây. Nếu không, Facebook sẽ không thể hiển thị nội dung đó.
  • Ứng dụng/trang web của bạn phải tạo và trả về phản hồi có tất cả thuộc tính bắt buộc theo số byte được chỉ định trong tiêu đề Range của yêu cầu thu thập dữ liệu hoặc phải bỏ qua hoàn toàn tiêu đề Range.
  • Thêm vào danh sách cho phép các chuỗi tác nhân người dùng hoặc địa chỉ IP (an toàn hơn) mà trình thu thập dữ liệu sử dụng.

Khắc phục sự cố

Nếu nội dung trang web/ứng dụng của bạn chưa có sẵn tại thời điểm thu thập, bạn có thể bắt buộc thu thập sau khi nội dung có sẵn bằng cách chuyển URL thông qua công cụ Trình gỡ lỗi chia sẻ hoặc bằng cách sử dụng API Chia sẻ.

Bạn có thể sử dụng mã sau đây để mô phỏng yêu cầu của trình thu thập dữ liệu:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-WebIndexer

Trình thu thập dữ liệu Meta-WebIndexer điều hướng web để cải thiện chất lượng kết quả tìm kiếm bằng Meta AI cho người dùng. Khi làm vậy, Meta sẽ phân tích nội dung trực tuyến để cải thiện mức độ phù hợp và tính chính xác của Meta AI. Khi bạn cho phép Meta-WebIndexer trong file robots.txt, chúng tôi có thể trích dẫn và liên kết đến nội dung của bạn trong phản hồi của Meta AI.

Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:

  • meta-webindexer/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-webindexer/1.1

Meta-ExternalAds

Trình thu thập dữ liệu Meta-ExternalAds thu thập dữ liệu web cho các trường hợp sử dụng, chẳng hạn như cải thiện quảng cáo, cũng như các sản phẩm và dịch vụ khác liên quan đến kinh doanh.

Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:

  • meta-externalads/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalads/1.1

Meta-ExternalAgent

Trình thu thập dữ liệu Meta-ExternalAgent thu thập dữ liệu web cho các trường hợp sử dụng (ví dụ: huấn luyện mô hình AI nền tảng hoặc cải thiện sản phẩm) bằng cách trực tiếp lập chỉ mục nội dung.

Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

Meta-ExternalFetcher

Trình thu thập dữ liệu Meta-ExternalFetcher tìm nạp từng liên kết theo yêu cầu của người dùng và hỗ trợ các chức năng sản phẩm như đánh giá và cải thiện khả năng của AI tác nhân – bao gồm cả việc giúp AI điều hướng trang web để hoàn tất nhiệm vụ cho người dùng. Do đó, trình thu thập dữ liệu này có thể bỏ qua quy tắc robots.txt.

Chuỗi UA cụ thể mà bạn thấy trong file nhật ký sẽ tương tự như một trong những chuỗi sau đây:

  • meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalfetcher/1.1

File robots.txt

Bằng cách đặt cấu hình file robots.txt trên trang web của mình, bạn có thể chỉ định cách bạn muốn các trình thu thập dữ liệu web của Meta tương tác với trang web đó. Để chặn những trình thu thập dữ liệu này, hãy thêm lệnh disallow (không cho phép) đối với trình thu thập dữ liệu liên quan vào file robots.txt. Trình thu thập dữ liệu Meta-ExternalFetcher có thể bỏ qua file robots.txt vì trình thu thập dữ liệu này thực hiện yêu cầu tìm nạp của người dùng. Ngoài ra, trình thu thập dữ liệu FacebookExternalHit có thể bỏ qua file robots.txt khi kiểm tra bảo mật hoặc kiểm tra tính toàn vẹn.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

Vui lòng chờ tối đa 24 giờ để các thay đổi đối với robots.txt có hiệu lực vì trình thu thập dữ liệu có thể lưu nội dung của robots.txt vào bộ nhớ đệm trong tối đa 24 giờ.

IP của trình thu thập dữ liệu

Nếu một trình thu thập dữ liệu có địa chỉ IP nguồn nằm trong danh sách được tạo bằng lệnh dưới đây thì tức là trình thu thập dữ liệu đó đến từ Meta.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Lưu ý rằng những địa chỉ IP này thường xuyên thay đổi. Để biết thêm thông tin, vui lòng truy cập vào trang web Kết nối ngang hàng hoặc dữ liệu tải xuống được (định dạng CSV) có liên quan.

Phản hồi mẫu

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
... 

Liên hệ với chúng tôi

Nếu bạn có thắc mắc hoặc mối lo ngại, vui lòng liên hệ với chúng tôi theo địa chỉ webmasters@meta.com (Quản trị viên web của Meta).