Gemini 2.5 biến AI thành ‘nhân viên ảo’ có thể thao tác, điền form, kéo thả và xử lý web như người thật

08/10/2025 9

Gemini 2.5 Computer Use đánh dấu bước tiến mới của Google trong lĩnh vực trí tuệ nhân tạo, khi AI không chỉ hiểu và trò chuyện mà còn có thể tự thao tác trên web như con người, mở ra kỷ nguyên “AI biết hành động” thay vì chỉ phản hồi.

Gemini 2.5 biến AI thành ‘nhân viên ảo’ có thể thao tác, điền form, kéo thả và xử lý web như người thật

Google tiếp tục gây chú ý với công nghệ mới mang tên Gemini 2.5 Computer Use. Đây không còn là một chatbot thông thường chỉ biết trò chuyện hay tạo nội dung, mà là một tác nhân AI (AI agent) có khả năng tự thao tác trên giao diện web như một con người thực thụ.

Điều này đánh dấu một cột mốc quan trọng: từ việc “hiểu” ngôn ngữ, AI giờ đã có thể “thực thi” hành động trong thế giới số. Google không chỉ muốn Gemini trở thành một người bạn thông minh có thể trả lời câu hỏi, mà còn là một trợ lý kỹ thuật số toàn năng, có thể thực hiện công việc thay người dùng, thao tác trực tiếp trên các website, ứng dụng và biểu mẫu như thể nó đang sử dụng máy tính thật.

Với tên chính thức là Gemini 2.5 Computer Use, công cụ này cho phép các mô hình AI của Google thực hiện các hành động trong môi trường được thiết kế cho con người giao diện đồ họa, trình duyệt, form điền thông tin thay vì các giao diện lập trình (API) vốn chỉ dành cho máy móc. Nói cách khác, Gemini đang học cách “dùng máy tính” như con người, thay vì “nói chuyện” với máy tính như trước đây.

1. Công nghệ phía sau Gemini 2.5 Computer Use

Để hiểu sức mạnh của Gemini 2.5 Computer Use, trước hết cần hình dung nó như một mô hình thị giác – hành động – lập luận hợp nhất. Google mô tả rằng mô hình này được trang bị “khả năng hiểu và lập luận trực quan” (visual reasoning and understanding), cho phép nó nhìn thấy giao diện người dùng, hiểu được vị trí và chức năng của các thành phần, sau đó ra quyết định và thực hiện hành động phù hợp.

Ví dụ, khi người dùng yêu cầu:

“Điền biểu mẫu đăng ký trên trang web này và gửi đi,”
Gemini không cần API, không cần quyền truy cập đặc biệt. Nó quan sát giao diện như con người nhìn, xác định ô nhập tên, email, nút “Gửi”, rồi tự động điền thông tin và nhấn gửi.

Đây là một bước tiến cực kỳ lớn trong khả năng tự động hóa không cần mã nguồn hay còn gọi là “no-code automation”. Trong khi các nền tảng trước đây như Selenium, Puppeteer hay RPA (Robotic Process Automation) vẫn cần lập trình, Gemini 2.5 chỉ cần ngôn ngữ tự nhiên để hoàn thành công việc.

Mô hình này cũng có thể điều hướng qua nhiều trang, xử lý các tác vụ phức tạp hơn như đăng nhập, thêm sản phẩm vào giỏ hàng, tải tệp tin, hay thậm chí tương tác với chatbot khác. Theo báo cáo của Google, Gemini 2.5 có thể thực hiện 13 loại thao tác cơ bản, bao gồm mở tab trình duyệt, nhập văn bản, kéo thả thành phần và chọn đối tượng trong giao diện.

Mua Tài khoản Google AI Pro (Gemini Pro) Giá Rẻ

2. Từ phòng thí nghiệm đến thực tế: Gemini bước ra ngoài thế giới

Trước khi ra mắt phiên bản 2.5, Google từng thử nghiệm khả năng “tự thao tác” của Gemini trong Project Mariner: một nguyên mẫu nghiên cứu cho phép AI tự động mua hàng trực tuyến dựa trên danh sách nguyên liệu được nhập sẵn. Khi người dùng yêu cầu “mua nguyên liệu để làm lasagna”, AI có thể truy cập trình duyệt, tìm sản phẩm, thêm chúng vào giỏ hàng và thậm chí so sánh giá trước khi hoàn tất đơn hàng.

Dự án đó đã đặt nền móng cho những gì Gemini 2.5 thực hiện ngày nay. Tuy nhiên, khác với Mariner chỉ mang tính thử nghiệm nội bộ, Gemini 2.5 đã chính thức được triển khai trong các công cụ dành cho nhà phát triển như Google AI Studio và Vertex AI.

Tại đây, các lập trình viên có thể sử dụng mô hình để tự động hóa kiểm thử giao diện người dùng, mô phỏng hành vi người dùng thật hoặc giúp AI điều hướng trong môi trường web không có API.

Google cũng hợp tác với nền tảng Browserbase để ra mắt bản demo công khai, nơi người dùng có thể quan sát cách Gemini tự hoàn thành các tác vụ web một cách liền mạch từ điền biểu mẫu cho đến tìm kiếm, kéo thả, nhập nội dung và gửi kết quả.

3. Gemini 2.5: lời đáp trả với ChatGPT Agent của OpenAI

Sự xuất hiện của Gemini 2.5 không phải ngẫu nhiên. Chỉ một ngày trước khi Google công bố, OpenAI đã giới thiệu ChatGPT Agents, những phiên bản AI tùy chỉnh có khả năng hoàn thành các nhiệm vụ phức tạp thay người dùng. Các Agent này có thể truy cập tài liệu, gọi API và điều hướng qua các công cụ được lập trình sẵn.

Rõ ràng, Google không muốn tụt lại phía sau trong cuộc đua “AI hành động”. Nếu OpenAI đang tạo ra các “trợ lý chuyên biệt” thông qua ChatGPT Agents, thì Google chọn cách khác: biến Gemini thành một thực thể biết thao tác trực tiếp trên web, không cần API, không cần quyền truy cập đặc biệt.

Điều này tạo ra khác biệt lớn. Trong khi ChatGPT Agent phụ thuộc vào việc lập trình các tác vụ hoặc kết nối qua plugin, Gemini 2.5 chỉ cần một hướng dẫn bằng ngôn ngữ tự nhiên giống như bạn nói với một đồng nghiệp.

Chẳng hạn, người dùng có thể ra lệnh:

“Hãy đăng ký tài khoản trên trang Canva, chọn gói miễn phí và gửi xác nhận về email của tôi.”
Gemini sẽ tự mở trình duyệt, điền thông tin, tìm nút xác nhận, gửi biểu mẫu và thậm chí báo cáo lại tiến trình.

Đây là điểm khiến giới công nghệ đánh giá Gemini 2.5 là một “bước nhảy thế hệ” không chỉ là công cụ AI hiểu lệnh, mà là AI biết hành động.

4. Tốc độ và giới hạn

Theo các thử nghiệm nội bộ, Google tuyên bố Gemini 2.5 có tốc độ thao tác nhanh gấp ba lần so với các giải pháp tương tự. Tuy nhiên, Google cũng thận trọng khẳng định rằng mô hình chưa được tối ưu hóa để điều khiển ở cấp độ hệ điều hành. Điều này có nghĩa là AI chỉ hoạt động trong trình duyệt, không thể thao tác trực tiếp với phần mềm máy tính hoặc các tệp nội bộ của người dùng.

Lý do rất rõ ràng: bảo mật và quyền riêng tư. Việc cho phép AI truy cập toàn bộ hệ điều hành có thể mở ra nguy cơ rò rỉ dữ liệu, hành vi xâm phạm quyền cá nhân hoặc lỗi hệ thống không thể kiểm soát. Bằng cách giới hạn trong phạm vi trình duyệt, Google vừa đảm bảo khả năng thực thi thực tế, vừa duy trì lớp an toàn cần thiết.

Thực tế, việc tập trung vào môi trường web lại mang đến lợi thế: phần lớn tác vụ hiện nay từ mua sắm, đăng ký, làm việc đến học tập đều diễn ra trong trình duyệt. Như vậy, Gemini 2.5 vẫn đủ “sân chơi” để thể hiện năng lực, trong khi không gây rủi ro lớn như những mô hình can thiệp sâu vào hệ thống.

5. Gemini có gì khác biệt so với các đối thủ?

Không chỉ OpenAI mà Anthropic cũng đã giới thiệu khả năng “computer use” từ năm 2024. Tuy nhiên, cách tiếp cận của Google lại có phần tinh tế hơn.

Anthropic Claude có thể điều khiển máy tính ảo, còn Gemini thì thao tác trong môi trường thật, qua giao diện web thực tế mà người dùng vẫn sử dụng hàng ngày. Đây là điểm khác biệt quan trọng: thay vì mô phỏng, Gemini hành động trực tiếp, dựa trên khả năng hiểu giao diện một cách trực quan.

Ngoài ra, nhờ sức mạnh của hệ sinh thái Google, Gemini có thể dễ dàng tích hợp với các sản phẩm như Chrome, Gmail, Google Docs hay Drive, mở ra viễn cảnh nơi AI tự động hóa toàn bộ quy trình công việc chỉ bằng một chuỗi lệnh đơn giản.

Tưởng tượng trong tương lai gần, bạn chỉ cần nói:

“Gemini, hãy thu thập báo cáo doanh số từ Drive, tổng hợp dữ liệu, tạo slide trình bày và gửi qua email cho nhóm marketing.”
Và chỉ vài phút sau, mọi thứ đã được hoàn thành đúng định dạng, đúng thời gian và không cần bạn nhấp chuột lần nào.

6. Ứng dụng thực tế

Những khả năng mà Gemini 2.5 mang lại mở ra hàng loạt ứng dụng thực tế, từ doanh nghiệp đến cá nhân.
Trong lĩnh vực kiểm thử phần mềm, các kỹ sư có thể sử dụng Gemini để kiểm tra giao diện người dùng mà không cần viết mã tự động. Với thương mại điện tử, AI có thể hỗ trợ điền thông tin, so sánh giá, đặt hàng hoặc kiểm tra tồn kho. Trong giáo dục, Gemini có thể hướng dẫn học viên điền form đăng ký khóa học, nộp bài tập hoặc tra cứu tài liệu trực tuyến.

Thậm chí, trong tương lai, người dùng cá nhân có thể để Gemini đảm nhận các tác vụ hàng ngày như: đăng ký dịch vụ, gia hạn vé, đặt phòng hoặc quản lý lịch trình. Cách mà chúng ta “làm việc với máy tính” có thể thay đổi hoàn toàn thay vì tự thao tác, chúng ta ra lệnh và quan sát AI thực hiện.

Tuy nhiên, việc AI có khả năng thao tác như con người cũng đặt ra nhiều câu hỏi đạo đức và kỹ thuật. Làm thế nào để đảm bảo rằng AI không lạm dụng quyền truy cập? Liệu Gemini có thể bị lợi dụng để thực hiện các hành vi gian lận trực tuyến, như tự động đăng ký hàng loạt tài khoản hay thao tác giả mạo người dùng?

Google khẳng định đã triển khai các lớp kiểm duyệt nghiêm ngặt, trong đó AI phải xác thực và được ủy quyền trước khi thực hiện hành động. Bên cạnh đó, tất cả hoạt động đều được ghi lại trong nhật ký (log) để đảm bảo tính minh bạch.

Dẫu vậy, giới chuyên gia vẫn cảnh báo rằng khi AI trở nên “tự chủ” hơn, việc kiểm soát ranh giới giữa hỗ trợ và lạm quyền sẽ ngày càng phức tạp. Một sai lệch nhỏ trong hướng dẫn hoặc lỗi nhận diện giao diện có thể dẫn đến hậu quả ngoài mong muốn.

7. Google: xây dựng “siêu trợ lý AI”

Gemini 2.5 Computer Use không chỉ là một bản cập nhật kỹ thuật. Đây là bước đệm cho tham vọng lớn hơn của Google tạo ra một siêu trợ lý AI thống nhất, vừa hiểu ngôn ngữ, vừa có khả năng hành động, quan sát và học hỏi từ thế giới thực.

Trong tương lai, khi Gemini tích hợp sâu hơn với các sản phẩm của Google, người dùng có thể tương tác với máy tính như nói chuyện với một người đồng nghiệp thực sự. “Trợ lý” này sẽ không chỉ trả lời câu hỏi, mà còn chủ động đề xuất, lên kế hoạch, xử lý tác vụ và ra quyết định dựa trên bối cảnh công việc.

Điều này khiến giới công nghệ tin rằng Google đang định hình lại khái niệm trợ lý ảo, đưa nó tiến gần hơn đến khái niệm “AI Agent” tự trị.

8. Kết luận

Gemini 2.5 Computer Use là lời khẳng định mạnh mẽ rằng Google đang bước vào giai đoạn AI “biết làm việc thật”. Không còn dừng ở khả năng hiểu ngôn ngữ hay tạo nội dung, Gemini giờ đây có thể hành động trong môi trường số, hoàn thành nhiệm vụ như một con người.

Dù còn những giới hạn nhất định, bước tiến này cho thấy tương lai nơi con người và AI cùng chia sẻ bàn phím, cùng điều hướng thế giới số, không còn là điều viễn tưởng. Với tốc độ phát triển hiện tại, có thể chỉ trong vài năm nữa, Gemini sẽ trở thành người cộng sự kỹ thuật số đáng tin cậy nhất của hàng tỷ người dùng Google trên toàn cầu.

Mua Tài khoản Google AI Pro (Gemini Pro) Giá Rẻ

 
 
Hotline

0868 33 9999
Hotline
Hotline
Xác nhận Reset Key/ Đổi Máy

Bạn có chắc chắn muốn Reset Key/ Đổi Máy trên Key này không?

Máy tính đã kích hoạt Key này sẽ bị gỡ và bạn dùng Key này để kích hoạt trên máy tính bất kỳ.