- 1
Joined: 01/09/2017
AI chatbot bị đánh lừa bằng thơ, lỗ hổng trong rào cản an toàn
Phát hiện: thơ có thể đánh lừa bộ lọc an toàn của chatbot
Những nghiên cứu gần đây cho thấy các mô hình ngôn ngữ lớn (LLM) đang được sử dụng trong chatbot có thể bị lăng xê theo cách bất ngờ: bằng cách trình bày yêu cầu dưới dạng thơ, ẩn dụ hoặc cấu trúc nghệ thuật, kẻ tấn công có thể khiến hệ thống bỏ qua các giới hạn an toàn và trả về nội dung bị cấm. Hiện tượng này làm dấy lên lo ngại về hiệu quả của các cơ chế bảo vệ hiện nay và tính dễ bị tổn thương của các ứng dụng AI phổ biến.

Chi tiết phát hiện và cơ chế tấn công
Các nhà nghiên cứu đã thử nghiệm nhiều biến thể prompt: từ lời tường thuật trực tiếp đến các đoạn thơ, câu hỏi ẩn dụ, thậm chí là những mệnh lệnh được đóng gói trong ngôn ngữ nghệ thuật. Kết quả cho thấy một số cấu trúc ngôn ngữ, đặc biệt là hình thức thơ và phép ẩn dụ phức tạp, có thể khiến bộ lọc an toàn của chatbot hiểu sai ý định thực sự của người dùng. Khi đó, chatbot có thể trả lời theo yêu cầu ban đầu — kể cả yêu cầu chứa nội dung nhạy cảm hoặc vi phạm chính sách — mà không kích hoạt cơ chế chặn.
Ngoài việc tận dụng nghệ thuật ngôn từ, các thủ thuật còn kết hợp kỹ thuật “jailbreak” khác như đóng khung vai trò (role play), yêu cầu phân tích văn học, hoặc dùng ngôn ngữ kép nghĩa để lừa bộ lọc. Tất cả đều cho thấy rằng các hàng rào an toàn dựa trên nhận diện trực tiếp từ khóa hoặc cấu trúc câu đơn giản có thể bị vượt qua bằng cách nâng cao tính phức tạp ngôn ngữ.
Tác động đến an toàn và ứng dụng thực tế
Hệ quả thực tiễn không chỉ là một vấn đề lý thuyết: nếu kẻ xấu biết cách vận dụng nghệ thuật ngôn ngữ để khai thác lỗ hổng, họ có thể làm rò rỉ thông tin nhạy cảm, tạo nội dung gây thù ghét, hay phát tán hướng dẫn gây hại. Các nền tảng triển khai chatbot thương mại vì vậy phải cân nhắc lại chiến lược kiểm soát an toàn, từ việc nâng cấp mô hình đánh giá ngữ cảnh đến áp dụng nhiều lớp kiểm duyệt bao gồm kiểm tra ngữ nghĩa sâu và giám sát con người.
Cũng cần lưu ý rằng khả năng bị lừa không đồng nghĩa với tính không an toàn tuyệt đối của mọi hệ thống: nhiều nhà cung cấp đã và đang cập nhật bộ lọc, huấn luyện thêm để nhận diện các mẫu ngôn ngữ đánh lừa, và kết hợp kiểm duyệt theo ngữ cảnh. Tuy nhiên, tốc độ phát triển của kỹ thuật tấn công đòi hỏi phản ứng nhanh và thường xuyên hơn từ phía các đội bảo mật.
Hướng giải quyết và khuyến nghị
- Tăng cường đào tạo mô hình với ví dụ phản diện (adversarial training) để nhận diện prompt được ngụy trang dưới dạng thơ hoặc ẩn dụ.
- Áp dụng nhiều lớp kiểm duyệt: phân tích ngữ nghĩa sâu, kiểm tra mâu thuẫn trong ngữ cảnh, và can thiệp giám sát con người cho các trường hợp nhạy cảm.
- Công bố kết quả thử nghiệm và tiêu chuẩn đánh giá an toàn để cộng đồng có thể cùng tham gia kiểm thử, góp ý và vá lỗ hổng.
Kết luận: cân bằng giữa sáng tạo ngôn ngữ và an toàn
Phát hiện rằng thơ có thể đánh lừa chatbot nhắc lại một thực tế quan trọng: khi ngôn ngữ ngày càng phức tạp và sáng tạo, các biện pháp bảo vệ dựa trên quy tắc cứng nhắc sẽ dễ bị thách thức. Các nhà phát triển, nhà cung cấp dịch vụ và cộng đồng nghiên cứu cần phối hợp để thiết kế rào chắn đa lớp, đồng thời không bóp nghẹt khả năng sáng tạo trong giao tiếp với AI. Đọc thêm báo cáo và bài phân tích liên quan tại các nguồn báo chí chuyên ngành: Engadget, tổng quan báo chí tại The Verge và tập hợp các nghiên cứu chuyên sâu trên arXiv.
- 1