- 1
Joined: 01/09/2017
Google phản bác: Gmail không bị 'cào' email để huấn luyện AI
Google vừa lên tiếng phản bác những cáo buộc gần đây cho rằng Gmail đang được "cào" nội dung email để huấn luyện các mô hình trí tuệ nhân tạo.
Trong vài ngày qua, một số bài viết và thảo luận trên mạng xã hội đã dấy lên lo ngại rằng Google đang sử dụng nội dung hộp thư Gmail của người dùng để huấn luyện phiên bản AI nội bộ hay các mô hình như Gemini. Những bài viết này khẳng định rằng dữ liệu người dùng — bao gồm email cá nhân và doanh nghiệp — bị thu thập và đưa vào tập dữ liệu huấn luyện mà không có sự đồng ý rõ ràng. Các phản ứng nhanh từ cộng đồng người dùng, chuyên gia bảo mật và truyền thông đã tạo ra áp lực buộc Google phải làm rõ tình hình.
Google nói gì?
Google phản hồi rằng các cáo buộc trên là "misleading" — gây hiểu lầm. Công ty nhấn mạnh rằng họ không sử dụng nội dung Gmail của người tiêu dùng để huấn luyện các mô hình AI lớn nếu người dùng không đồng ý. Theo tuyên bố chính thức từ Google, dữ liệu từ Gmail, Drive và Meet của người dùng tiêu chuẩn không được tự động đưa vào bộ dữ liệu huấn luyện cho các mô hình chung; thay vào đó, Google sử dụng các nguồn dữ liệu được công khai trên web, dữ liệu được cấp phép, và dữ liệu do con người tạo ra cho mục đích huấn luyện.
Đối với khách hàng doanh nghiệp dùng Google Workspace, chính sách và quyền kiểm soát do quản trị viên thiết lập sẽ quyết định mức độ dữ liệu có thể được sử dụng cho các tính năng AI. Google khẳng định rằng tính năng tùy chọn và công cụ quản lý bảo mật cho doanh nghiệp giúp ngăn dữ liệu nội bộ bị sử dụng ngoài ý muốn.
Thực tế các tính năng AI liên quan đến email
Một số tính năng trí tuệ nhân tạo tích hợp trong Gmail — như Smart Compose, tính năng đề xuất trả lời nhanh, hoặc các công cụ viết hỗ trợ — hoạt động dựa trên việc phân tích nội dung cục bộ để đưa ra gợi ý khi người dùng tương tác. Google cho biết những tính năng này xử lý dữ liệu theo cách bảo mật, không chuyển toàn bộ hộp thư của người dùng vào các chuỗi huấn luyện toàn cầu mà không có sự đồng ý cụ thể.
Cũng cần lưu ý rằng ngành công nghiệp AI thường dựa vào nhiều nguồn dữ liệu khác nhau, gồm văn bản công khai trên internet và bộ dữ liệu được cấp phép. Việc phân biệt giữa dữ liệu dùng để cung cấp tính năng sản phẩm (on-device hoặc theo ngữ cảnh người dùng) và dữ liệu dùng để huấn luyện mô hình nền tảng là điểm mấu chốt trong tranh luận này.
Phản ứng từ chuyên gia và người dùng
Một số nhà phân tích cảnh báo rằng ngôn ngữ pháp lý và điều khoản dịch vụ thường khó hiểu, nên người dùng dễ lo ngại hoặc hiểu sai về phạm vi sử dụng dữ liệu. Những tiếng nói khác yêu cầu Google minh bạch hơn về quy trình, báo cáo định kỳ về cách dữ liệu được sử dụng và cung cấp công cụ kiểm tra cho người dùng bình thường.
Tại sao vấn đề này quan trọng?
Quyền riêng tư dữ liệu và cách các công ty công nghệ sử dụng dữ liệu người dùng luôn là chủ đề nóng khi AI ngày càng can thiệp sâu vào sản phẩm hàng ngày. Niềm tin của người dùng phụ thuộc vào việc công ty có cam kết rõ ràng với quyền riêng tư hay không, cùng với khả năng kiểm soát mà họ được trao.
Tóm lại
Google đã phủ nhận các báo cáo cho rằng Gmail bị "cào" để huấn luyện AI và khẳng định dữ liệu người dùng tiêu chuẩn không được dùng cho mục đích huấn luyện mô hình lớn nếu không có sự đồng ý hoặc cấu hình dành cho doanh nghiệp cho phép. Tuy nhiên, vụ việc một lần nữa đặt ra yêu cầu minh bạch hơn từ các nhà cung cấp dịch vụ — đặc biệt khi các tính năng AI ngày càng xuất hiện trong hộp thư điện tử và công cụ làm việc hàng ngày.
Để đọc thêm và so sánh quan điểm, bạn có thể tham khảo bài viết gốc của PC Gamer tại PC Gamer, cùng các phân tích và cập nhật từ The Verge và thông tin chính thức từ blog Google.
- 1