- 1
Joined: 01/09/2017
Perplexity bị cáo buộc thu thập nội dung từ trang chặn AI scraping
Gần đây, công ty tìm kiếm hỗ trợ AI Perplexity đối mặt với lời cáo buộc rằng họ đã thu thập nội dung từ các trang web vốn có thiết lập chặn việc thu thập dữ liệu dành cho AI. Vụ việc được giới truyền thông và một số nhà nghiên cứu độc lập đưa tin, đặt ra câu hỏi về cách các nền tảng AI tôn trọng giới hạn do chủ sở hữu nội dung đặt ra trên web.

Các nhà nghiên cứu cho biết họ tìm thấy dấu vết hoạt động thu thập dữ liệu của Perplexity trên những trang có cơ chế chặn AI scraping — bao gồm các tập tin cấu hình như robots.txt hoặc tiêu đề/thuộc tính HTML được thiết lập để ngăn bot truy cập. Theo các báo cáo, dữ liệu thu thập dường như bao gồm nội dung thuộc diện trả phí hoặc bảo vệ đặc biệt, gây lo ngại về việc vượt hàng rào kỹ thuật nhằm lấy dữ liệu cho mô hình trả lời của AI.
Những thông tin chi tiết về sự việc được tập hợp và phân tích trong các bài viết báo chí; độc giả có thể tham khảo bản tin gốc của TechCrunch tại TechCrunch để xem nguồn và những bằng chứng được nêu.
Phản hồi từ Perplexity và lập luận pháp lý -- kỹ thuậtPerplexity đã lên tiếng phản hồi các cáo buộc, khẳng định rằng công ty tuân thủ các tiêu chuẩn pháp lý và kỹ thuật hiện hành, đồng thời nói rằng hệ thống xử lý dữ liệu của họ dựa trên các nguồn công khai và các kho dữ liệu hợp pháp. Công ty cho biết họ có chính sách nội bộ nhằm xử lý nguồn dữ liệu nhạy cảm và tuân thủ các tiêu chuẩn chặn bot khi cần thiết.
Dù vậy, giới chuyên môn lưu ý rằng khuôn khổ pháp lý xung quanh việc thu thập dữ liệu cho AI vẫn đang phát triển. Câu hỏi trung tâm là phân biệt giữa nội dung “công khai” (publicly accessible) và nội dung “bị chủ sở hữu chặn” (explicitly disallowed), đồng thời xác định mức độ tuân thủ các chỉ dẫn kỹ thuật như robots.txt hay các tiêu chí mới như thẻ meta 'noai' được bàn thảo trong cộng đồng.
Hệ quả cho các nhà xuất bản và nền tảng AISự kiện này làm nóng lại cuộc tranh luận về quyền kiểm soát dữ liệu số: các nhà xuất bản lo ngại nội dung trả phí bị tái sử dụng mà không có trả nhuận, trong khi các nền tảng AI phải cân bằng giữa cung cấp trải nghiệm người dùng và tôn trọng giới hạn của chủ sở hữu nội dung. Một số chuyên gia đề xuất cần có quy định rõ ràng hơn và tiêu chuẩn kỹ thuật nhất quán để tránh tranh chấp tương tự trong tương lai. Tham khảo về quy tắc robots và những khuyến nghị kỹ thuật có thể xem tại robotstxt.org hoặc hướng dẫn của các nhà cung cấp tìm kiếm lớn.
Những bước tiếp theo và các kịch bản khả dĩVụ việc có thể dẫn tới các cuộc điều tra sâu hơn từ bên thứ ba hoặc cơ quan quản lý nếu bằng chứng cho thấy vi phạm quy định. Các giải pháp tiềm năng bao gồm minh bạch nguồn dữ liệu từ phía nền tảng AI, cơ chế opt-out rõ ràng cho nhà xuất bản, và tiêu chuẩn ngành để đánh dấu nội dung không được dùng cho huấn luyện/thu thập AI.
Tóm tắt cuối bàiCáo buộc nhắm tới Perplexity nêu bật vấn đề cấp thiết của ngành về quyền kiểm soát dữ liệu trên web trong thời đại AI. Trong khi Perplexity phủ nhận hành vi sai trái và nhấn mạnh tuân thủ, câu hỏi về ranh giới pháp lý và đạo đức khi thu thập dữ liệu cho hệ thống AI vẫn còn nhiều tranh luận. Để đọc thêm về diễn biến và phân tích chuyên sâu, bạn có thể xem thêm bản tin từ TechCrunch và nguồn tham khảo kỹ thuật tại robotstxt.org, hoặc truy cập trang chính thức của Perplexity tại perplexity.ai để xem phản hồi từ công ty.
- 1