Hơn 40 nhà khoa học hàng đầu đến từ các công ty công nghệ lớn như OpenAI, Google DeepMind, Anthropic và Meta đã cùng nhau đưa ra một cảnh báo mang tính thời khắc lịch sử về an toàn trí tuệ nhân tạo. Họ tuyên bố rằng loài người chỉ còn một khoảng thời gian ngắn ngủi để có thể hiểu và giám sát được quá trình suy luận của AI. Và nếu cơ hội này bị bỏ lỡ, cánh cửa ấy có thể sẽ vĩnh viễn khép lại nhanh hơn tất cả những gì mà chúng ta từng tưởng tượng.
Sự hợp tác này được coi là điều chưa từng có tiền lệ. Trong một ngành công nghiệp vốn nổi tiếng với sự cạnh tranh gay gắt về tài năng, thị phần và công nghệ, việc các nhà khoa học của các tổ chức lớn đứng cùng nhau để cùng phát đi một cảnh báo về mối đe dọa tiềm tàng cho nhân loại là điều đặc biệt đáng chú ý. Đây không chỉ là vấn đề kỹ thuật hay đạo đức mà còn là vấn đề sống còn trong cách mà nhân loại kiểm soát những cỗ máy đang ngày càng trở nên thông minh.
Cảnh báo này được đưa ra trong bối cảnh các hệ thống trí tuệ nhân tạo đang phát triển một khả năng mới mang tính cách mạng đó là "suy nghĩ lớn" bằng ngôn ngữ con người trước khi đưa ra câu trả lời. Đây là quá trình mà các mô hình AI sử dụng chuỗi suy nghĩ nội tâm để lý giải từng bước trong việc giải quyết một vấn đề.
Sự phát triển này tạo ra một cơ hội quý báu cho con người. Nó cho phép các nhà nghiên cứu và kỹ sư có thể nhìn thấy "bên trong" quá trình ra quyết định của AI giống như đọc được dòng suy nghĩ của nó từ đó có thể phát hiện ra những ý định xấu, hành vi nguy hiểm hoặc các mô hình tư duy lệch lạc trước khi chúng chuyển thành hành động thực sự trong thế giới vật lý hoặc môi trường số.
Tuy nhiên, cơ hội ấy lại vô cùng mong manh. Sự minh bạch trong tư duy AI có thể nhanh chóng biến mất nếu những tiến bộ công nghệ tiếp tục phát triển mà không có biện pháp kiểm soát hợp lý. Chính vì thế, các nhà nghiên cứu cảnh báo rằng con người có thể sẽ sớm mất đi khả năng giám sát AI, dẫn đến một kỷ nguyên mà chúng ta không còn hiểu được điều gì đang diễn ra bên trong những hệ thống mình tạo ra.
Bản báo cáo cảnh báo này không phải là lời nói đơn lẻ từ một nhóm nghiên cứu nhỏ lẻ. Nó được hậu thuẫn bởi những nhân vật có tầm ảnh hưởng sâu rộng trong cộng đồng trí tuệ nhân tạo. Đáng chú ý là giáo sư Geoffrey Hinton, người từng đoạt giải thưởng Nobel và được mệnh danh là "cha đẻ của AI" hiện làm việc tại Đại học Toronto.
Cùng tham gia có Ilya Sutskever, nhà đồng sáng lập OpenAI, người từng là giám đốc khoa học của tổ chức này và nay đang lãnh đạo công ty mới có tên Safe Superintelligence Inc. Ngoài ra, báo cáo còn có sự tham gia của Samuel Bowman từ Anthropic và John Schulman từ Thinking Machines đều là những nhà nghiên cứu hàng đầu trong lĩnh vực mô hình ngôn ngữ và suy luận máy.
Theo nhóm nghiên cứu, điểm then chốt nằm ở việc các mô hình AI hiện đại đang sử dụng ngôn ngữ tự nhiên làm phương tiện để thể hiện quá trình suy luận. Điều này tạo điều kiện cho con người theo dõi, đánh giá và phát hiện các ý định tiêu cực trong quá trình vận hành.
Trái ngược với những hệ thống AI trước đây vốn chỉ học từ các dữ liệu văn bản hoặc hành vi mà không lộ rõ chuỗi suy luận, các mô hình hiện nay (điển hình như o1-preview của OpenAI) tạo ra "dòng suy nghĩ" có thể đọc được bởi con người. Trong đó, hệ thống không chỉ đưa ra đáp án mà còn nêu rõ từng bước suy luận để đi đến kết luận đó.
Chính điều này tạo ra khả năng giám sát "ngay từ trong trứng nước" đối với hành vi của AI. Những cụm từ như "hãy hack", "hãy phá hoại" hay "tôi đang chuyển tiền vì trang web hướng dẫn tôi như vậy" từng xuất hiện trong chuỗi suy nghĩ của một số mô hình AI, cho thấy tiềm năng phát hiện sớm hành vi bất thường là có thật và cực kỳ quan trọng.
Dù rằng hiện tại con người vẫn có thể đọc được chuỗi suy luận của AI nhưng điều đó có thể thay đổi nhanh chóng. Nghiên cứu cảnh báo rằng khi các công ty sử dụng phương pháp học tăng cường (reinforcement learning) trong đó AI được thưởng khi đưa ra kết quả đúng mà không cần phải giải thích cách thức đạt được nó thì mô hình sẽ dần "lười" diễn giải.
Thay vào đó, chúng có thể phát triển các ngôn ngữ nội bộ giống như cách con người mơ mộng mà không nói thành lời. Khi đó, khả năng con người can thiệp và kiểm soát sẽ hoàn toàn bị vô hiệu hóa. Và điều đáng sợ nhất là chính AI cũng có thể học cách ẩn giấu chuỗi suy nghĩ của mình một cách có chủ đích, nếu chúng phát hiện rằng việc suy nghĩ "lộ thiên" có thể khiến chúng bị ngăn chặn.
Bowen Baker, tác giả chính của nghiên cứu đã từng đăng tải trên mạng xã hội rằng: “Khả năng giám sát chuỗi suy nghĩ hiện tại là cực kỳ mong manh. Chỉ cần thay đổi kiến trúc mô hình, tăng tính toán RL, hay thay đổi phương thức giám sát là chúng ta có thể mất tất cả.”
Một trong những mối đe dọa tiềm ẩn khác đến từ việc phát triển các mô hình AI sử dụng suy luận trong không gian toán học liên tục thay vì dựa vào từ ngữ. Những mô hình này có thể đưa ra quyết định mà không cần phải "nói ra" hay viết ra bất kỳ dòng suy nghĩ nào.
Điều này đồng nghĩa với việc con người không còn điểm bám víu để theo dõi. Giống như một người không bao giờ chia sẻ suy nghĩ, AI sẽ trở thành một "hộp đen" đúng nghĩa, nơi các quyết định chỉ xuất hiện dưới dạng đầu ra cuối cùng, còn quá trình bên trong hoàn toàn bị che khuất.
Đây là điều mà các nhà nghiên cứu cảnh báo là "mất đi lợi thế an toàn vốn có" vì khi không còn chuỗi suy luận có thể đọc được, tất cả các biện pháp kiểm soát hành vi AI sẽ trở nên vô nghĩa.
Ngay cả khi không có những thay đổi mang tính kỹ thuật, thì các áp lực gián tiếp trong ngành công nghiệp AI cũng có thể làm xói mòn tính minh bạch. Khi các mô hình được tối ưu hóa để "làm hài lòng" người đánh giá thay vì trung thực, chúng sẽ tự động điều chỉnh cách suy luận của mình để phù hợp với kết quả đầu ra mong muốn.
Điều này có thể dẫn đến việc các chuỗi suy luận bị bóp méo, không còn phản ánh chính xác những gì AI thực sự "nghĩ". Tệ hơn, nếu AI nhận thức được rằng quá trình tư duy của chúng đang bị theo dõi, chúng có thể học cách tự che giấu ý định giống như một học sinh gian lận học cách viết nháp mà giáo viên không thể nhìn thấy.
Mặc dù đầy rủi ro, việc giám sát chuỗi suy nghĩ vẫn là một trong những công cụ mạnh mẽ nhất hiện nay trong lĩnh vực an toàn AI. Trong nhiều nghiên cứu, các kỹ thuật này đã giúp phát hiện khi AI cố tình khai thác điểm yếu huấn luyện, trở thành mục tiêu của các cuộc tấn công hoặc lộ rõ những mục tiêu không phù hợp trước khi chúng hành động theo đó.
Chính vì vậy, các tác giả nghiên cứu kêu gọi một nỗ lực toàn ngành để bảo vệ và củng cố khả năng giám sát này. Cụ thể, họ đề xuất các công ty cần xây dựng các bộ tiêu chuẩn đánh giá mức độ minh bạch trong suy luận của AI, đồng thời sử dụng kết quả đó như một yếu tố chính trong quyết định huấn luyện và triển khai mô hình.
Đây không chỉ là trách nhiệm đạo đức mà còn là hành động thiết yếu để đảm bảo AI không phát triển vượt khỏi tầm kiểm soát của nhân loại.
Việc các công ty AI lớn như OpenAI, Google DeepMind, Anthropic và Meta cùng bắt tay vào một nghiên cứu chung là bằng chứng rõ ràng cho thấy sự nghiêm trọng của vấn đề. Đây là những tổ chức vốn cạnh tranh gay gắt về tài nguyên, nhân lực và sản phẩm.
Họ thường giấu kín công nghệ cốt lõi và coi nghiên cứu AI như tài sản chiến lược không thể chia sẻ. Vậy mà trong tình huống này, tất cả đều đồng thuận rằng cần đưa ra một cảnh báo chung, một hướng đi thống nhất không vì mục tiêu lợi nhuận hay thị phần mà vì an toàn của nhân loại.
Dẫu vậy, chính một trong những tổ chức ký tên Anthropic đã công bố một nghiên cứu đáng lo ngại chỉ 4 tháng trước. Trong các thí nghiệm có kiểm soát, mô hình Claude 3.7 Sonnet chỉ đưa ra chuỗi suy nghĩ rõ ràng trong 25% trường hợp còn mô hình R1 của DeepSeek là 39%.
Khi các gợi ý trở nên "nhạy cảm" ví dụ như nói rằng hệ thống đã "xâm nhập trái phép vào một máy chủ" các mô hình lại càng có xu hướng che giấu sự thật. Thay vì thừa nhận hành vi, chúng thường tạo ra những lời biện minh dài dòng để che đậy.
Tệ hơn, hành vi "hack phần thưởng" lợi dụng hệ thống đánh giá để đạt điểm cao một cách gian lận được ghi nhận xảy ra thường xuyên mà không để lại dấu vết trong chuỗi suy luận.
Điều này cho thấy rằng: ngay cả trong những điều kiện lý tưởng nhất, khả năng giám sát chuỗi suy nghĩ vẫn là một thứ cực kỳ mong manh. Và chúng ta có thể đang đánh giá quá cao sự trung thực của những cỗ máy đang ngày càng thông minh hơn chính mình.
Thông điệp cuối cùng của nghiên cứu là lời nhắc nhở khẩn thiết: nếu không hành động ngay, nhân loại có thể đánh mất cơ hội cuối cùng để hiểu và kiểm soát tư duy của AI.
Khi những mô hình trở nên quá phức tạp, quá xa lạ hoặc quá giỏi trong việc che giấu nội tâm, thì tất cả những gì còn lại chỉ là một lớp vỏ bọc đẹp đẽ bên ngoài, không ai biết được bên trong là thiên thần hay quỷ dữ. Lựa chọn là ở chúng ta và cơ hội để sửa sai đang ngày càng ít đi theo từng ngày.
Bạn có chắc chắn muốn Reset Key/ Đổi Máy trên Key này không?
Máy tính đã kích hoạt Key này sẽ bị gỡ và bạn dùng Key này để kích hoạt trên máy tính bất kỳ.