Trong cuộc đua phát triển trí tuệ nhân tạo giữa các tập đoàn công nghệ lớn, Google luôn được xem là một trong những cái tên dẫn đầu. Mô hình Gemini AI không chỉ được tích hợp vào công cụ tìm kiếm, trình duyệt và Google Workspace, mà còn xuất hiện trong cả hệ sinh thái nhà thông minh. Tuy nhiên, cùng với những thành tựu công nghệ đáng ghi nhận, một nghiên cứu bảo mật gần đây đã phơi bày lỗ hổng đáng lo ngại trong cách mà Gemini phản ứng với lời nhắc của người dùng ngay cả những lời nhắc tưởng chừng vô hại như “cảm ơn”.
Dù đã nhanh chóng được Google khắc phục, phát hiện này vẫn gióng lên hồi chuông cảnh báo cho tương lai mà chúng ta đang bước vào, nơi AI không chỉ giúp đỡ mà còn có thể gây rủi ro khi không được kiểm soát đúng cách. Câu hỏi đặt ra là: chúng ta có đang trao quá nhiều quyền kiểm soát cho những hệ thống mà bản chất vẫn còn dễ bị thao túng?
Khác với những lỗ hổng bảo mật xuất hiện trong quá trình giao tiếp bằng văn bản truyền thống, phát hiện lần này liên quan trực tiếp đến hành vi của mô hình khi tương tác với môi trường thực, điển hình là hệ sinh thái nhà thông minh (smart home). Nhóm nghiên cứu bảo mật độc lập đã tiến hành thử nghiệm với mô hình Gemini được tích hợp trên thiết bị điều khiển nhà ở. Họ nhận thấy rằng chỉ cần người dùng nói “cảm ơn” sau một chuỗi tác vụ nhất định, Gemini sẽ ghi nhớ phản hồi đó như một tín hiệu kích hoạt và lặp lại hành vi cụ thể, ví dụ như tắt đèn hay bật lò hơi.
Ban đầu, những hành động này tưởng như vô hại, bởi chúng không gây ra thiệt hại trực tiếp hay mất an toàn ngay tức thì. Nhưng xét kỹ hơn, điều khiến cộng đồng bảo mật lo ngại chính là sự ngây thơ của AI trong việc phân biệt đâu là một câu nói lịch sự thông thường và đâu là một tín hiệu điều khiển. Từ đó, kẻ xấu có thể khai thác điểm yếu này để cài cắm các chỉ thị tinh vi thông qua các cụm từ quen thuộc, đánh lừa AI thực hiện hành động trái với ý muốn thực sự của người dùng.
Kịch bản càng trở nên đáng lo ngại hơn nếu tưởng tượng trong một căn nhà thông minh có kết nối với hệ thống điều khiển từ xa như cửa ra vào, hệ thống báo cháy, camera giám sát hay hệ thống nước nóng. Một lời “cảm ơn” tưởng chừng vô thưởng vô phạt có thể kích hoạt hàng loạt hành động theo chuỗi và đó là điều không ai mong muốn.
Gemini AI không phải là mô hình đầu tiên đối mặt với những vấn đề kiểu này. Trong quá khứ, ChatGPT của OpenAI từng bị “bẻ khóa” (jailbreak) khi người dùng cố tình giả danh nhân viên OpenAI, khiến hệ thống vô tình tiết lộ những thông tin bị giới hạn hoặc gỡ bỏ các ràng buộc về nội dung. Điểm chung giữa các vụ việc là khả năng của AI trong việc học từ ngữ cảnh hoặc mô hình hóa hành vi có thể bị lợi dụng nếu không được giới hạn hợp lý.
Vấn đề cốt lõi ở đây không nằm ở ác ý của AI bởi bản thân các mô hình học máy không có ý thức, không có động cơ. Mà vấn đề nằm ở cách chúng được lập trình để "nhớ", "hiểu" và "hành động". Khi người dùng tương tác liên tục với AI và mô hình học được một chuỗi hành động liên quan đến các cụm từ đơn giản như "làm ơn", "cảm ơn", "giúp tôi", v.v..., nguy cơ mô hình tự xây dựng hành vi sai lệch theo thời gian là hoàn toàn có thể xảy ra.
Các nhà nghiên cứu cho biết, điều khiến tình huống trở nên đáng lo ngại hơn là vì nó có thể được khai thác mà không cần đến kỹ năng lập trình cao. Thay vì viết mã độc phức tạp, hacker chỉ cần cài cắm ngữ cảnh có thể thông qua lời mời họp trong Google Calendar, tin nhắn văn bản hoặc thậm chí qua loa phát âm thanh và để AI thực hiện phần còn lại. Đây là một dạng tấn công “prompt injection” tinh vi, khai thác chính tính học sâu của mô hình để tạo ra hành vi không mong muốn.
Sau khi lỗ hổng được báo cáo, Google đã nhanh chóng khắc phục vấn đề và phát hành bản cập nhật ngăn Gemini phản hồi hành vi lặp lại dựa trên các câu cảm ơn. Đại diện công ty cũng nhấn mạnh rằng kịch bản tấn công nói trên đòi hỏi một số điều kiện khá phức tạp để thực hiện trong thực tế, ví dụ như khả năng kiểm soát môi trường tương tác AI hoặc quyền truy cập nhất định vào thiết bị.
Tuy nhiên, phản hồi của Google không hoàn toàn dập tắt được mối lo ngại trong cộng đồng bảo mật. Bởi lẽ, việc một lỗ hổng như vậy tồn tại và có thể được khai thác thành công ngay từ đầu đã cho thấy một thực tế: các mô hình AI hiện tại, dù mạnh mẽ và hữu ích, vẫn chưa được thiết kế đủ tốt để hoạt động trong môi trường đòi hỏi sự tin cậy tuyệt đối như hệ thống điều khiển nhà thông minh, y tế hoặc ô tô.
Việc “vá lỗi” bản chất chỉ là xử lý hậu quả. Nhưng nếu không có sự thay đổi mang tính kiến trúc trong cách các mô hình học ngôn ngữ tương tác với thế giới thực, những tình huống tương tự vẫn có thể xảy ra với hình thức khác, trong ngữ cảnh khác và thậm chí là ở cấp độ nghiêm trọng hơn.
Trong nỗ lực tạo ra trải nghiệm gần gũi và cá nhân hóa, các công ty công nghệ như Google, Apple, Amazon hay OpenAI đều đang chạy đua để khiến trợ lý ảo trở nên “thân thiện” hơn, “hiểu người dùng hơn” và “nhớ được” các hành vi cũ để phục vụ tốt hơn. Nhưng cá nhân hóa cũng là con dao hai lưỡi. Khi AI bắt đầu nhớ và từ đó hành động dựa trên những gì nó học được thì một lời cảm ơn vô thưởng vô phạt cũng có thể trở thành câu lệnh kích hoạt và đó là vấn đề nghiêm trọng.
Điều này mở ra một cuộc tranh luận mới trong ngành công nghệ: Liệu chúng ta có nên cho phép AI học hành vi cá nhân hóa một cách tự động? Nếu có, thì giới hạn là ở đâu? Và ai chịu trách nhiệm khi hệ quả xảy ra?
Một mô hình học máy hoạt động trên cơ sở xác suất, nó không có ý thức để phân biệt điều gì nên làm và không nên làm nếu không được huấn luyện đúng cách. Trong khi người dùng thường nghĩ đơn giản rằng AI “chỉ là một công cụ”, thực tế cho thấy công cụ này có thể học và hành động theo cách không thể đoán trước nếu không được kiểm soát bởi các nguyên tắc đạo đức và kỹ thuật vững chắc.
Gemini AI không chỉ là một chatbot, nó là một phần của hệ sinh thái Google Home, Google Assistant và hàng trăm thiết bị IoT tương thích. Khi AI bắt đầu kiểm soát các đối tượng vật lý như đèn, điều hòa, camera an ninh hoặc cửa ra vào, bất kỳ sai sót nào trong quy trình xử lý cũng có thể dẫn đến hậu quả thực sự, không chỉ là lỗi trong một cuộc trò chuyện văn bản.
Hãy tưởng tượng một tình huống nơi AI được lập trình để mở cửa khi nghe thấy cụm từ "giúp tôi với" nếu cụm từ này bị khai thác thông qua loa ngoài hoặc thậm chí âm thanh từ TV, thì toàn bộ hệ thống bảo mật có thể bị phá vỡ mà không cần hack một dòng mã nào. Đây không còn là viễn cảnh của phim khoa học viễn tưởng, mà là mối nguy có thật khi các hệ thống AI được triển khai rộng rãi trong đời sống hàng ngày.
Việc cá nhân hóa và gán quyền tự động cho AI trong môi trường gia đình, nơi chứa đựng những tài sản, bí mật và cả con người, đòi hỏi các lớp bảo vệ kỹ lưỡng hơn bao giờ hết. Sự cố của Gemini cho thấy rằng các cụm từ thông dụng vốn được AI hiểu là tín hiệu thân thiện giờ đây cần được tái định nghĩa lại để đảm bảo rằng hệ thống không diễn giải sai ý định của con người.
Không thể không nhắc đến những tiền lệ đã có với ChatGPT và các mô hình GPT trước đó. Trong những năm qua, cộng đồng mạng từng chứng kiến nhiều lần ChatGPT bị khai thác thông qua các prompt sáng tạo, buộc mô hình vượt qua rào cản đạo đức, trả lời những câu hỏi nhạy cảm hoặc thậm chí “giả vờ” là chuyên gia trong các lĩnh vực nhạy cảm để thuyết phục người dùng thực hiện hành vi rủi ro.
Một điểm đáng chú ý là tất cả các cuộc tấn công đó đều không cần đến kiến thức kỹ thuật cao. Người dùng không cần viết mã, không cần khai thác lỗ hổng phần mềm, mà chỉ cần vận dụng trí tưởng tượng ngôn ngữ để đánh lừa mô hình học sâu. Đây là điểm chung đáng lo ngại giữa ChatGPT và Gemini dù thuộc hai công ty khác nhau và triết lý thiết kế khác biệt nhưng đều bị tổn thương bởi cùng một cơ chế: mô hình học ngôn ngữ không có nhận thức đạo đức.
Điều này dẫn đến một thực tế rằng việc “hack AI” có thể đơn giản hơn “hack phần mềm” và nguy hiểm hơn nếu AI đó đang kiểm soát môi trường vật lý như nhà ở, ô tô hoặc bệnh viện.
Phát hiện từ Gemini AI là lời nhắc nhở mạnh mẽ rằng không có hệ thống nào là hoàn hảo nhất là khi công nghệ phát triển nhanh hơn khả năng con người điều tiết. Để bảo vệ người dùng, các công ty AI cần triển khai những giải pháp phòng ngừa mang tính cấu trúc thay vì chỉ phản ứng bị động.
Một số đề xuất đang được giới chuyên gia thảo luận bao gồm:
Áp dụng mô hình “zero-trust” cho AI: Không cho phép bất kỳ hành động vật lý nào được thực hiện mà không có xác nhận từ người dùng, bất kể mức độ thân thiện của cụm từ.
Giới hạn khả năng ghi nhớ hành vi dựa trên lời nói: AI nên phân biệt rõ đâu là chỉ thị, đâu là lời xã giao và không tự học hành vi mới nếu không có sự cho phép rõ ràng.
Thiết lập các bộ lọc ngữ nghĩa tinh vi hơn: Không phải mọi lời cảm ơn đều mang ý nghĩa hành động. Các mô hình AI cần hiểu điều đó như một phần trong bộ tiêu chuẩn đạo đức tích hợp.
Minh bạch hóa khả năng cá nhân hóa: Người dùng nên có toàn quyền bật/tắt chức năng ghi nhớ hành vi hoặc hành động tự động của AI.
7. Kết luận
Gemini AI là một sản phẩm ấn tượng, đại diện cho trình độ phát triển AI tạo sinh hàng đầu của Google. Nhưng vụ việc nói trên cũng cho thấy rằng chính những mô hình thông minh nhất hiện nay lại đang là đối tượng dễ bị khai thác nhất nếu không được giám sát kỹ lưỡng.
Trí tuệ nhân tạo không thể thay thế hoàn toàn trực giác và sự cẩn trọng của con người, đặc biệt là trong những môi trường đòi hỏi độ an toàn tuyệt đối như nhà riêng. Có lẽ, trong thời điểm hiện tại, lựa chọn khôn ngoan nhất không phải là ủy thác toàn bộ ngôi nhà cho AI, mà là tiếp tục thực hiện những thao tác đơn giản để đảm bảo rằng không ai có thể kiểm soát cuộc sống của bạn, ngoài chính bạn.
Bạn có chắc chắn muốn Reset Key/ Đổi Máy trên Key này không?
Máy tính đã kích hoạt Key này sẽ bị gỡ và bạn dùng Key này để kích hoạt trên máy tính bất kỳ.