Google hé lộ Gemini Omni, AI tạo video thế hệ mới đầy tham vọng

13/05/2026 2

Google được cho là đang chuẩn bị ra mắt Gemini Omni: mô hình AI có khả năng tạo video chân thực từ mô tả văn bản. Công nghệ mới hứa hẹn nâng cấp mạnh khả năng dựng cảnh, chuyển động và biểu cảm nhân vật.

Google hé lộ Gemini Omni, AI tạo video thế hệ mới đầy tham vọng

Sự kiện thường niên Google I/O 2026 đang trở thành tâm điểm chú ý của giới công nghệ toàn cầu khi hàng loạt thông tin rò rỉ về các tính năng AI mới bắt đầu xuất hiện trước ngày khai mạc. Trong nhiều năm qua, Google I/O luôn là nơi Google giới thiệu những bước tiến quan trọng về trí tuệ nhân tạo, hệ điều hành Android, công nghệ tìm kiếm và các nền tảng đám mây. Tuy nhiên, năm 2026 được đánh giá đặc biệt hơn khi AI tạo sinh đã bước sang một giai đoạn phát triển mới: chuyển từ văn bản và hình ảnh sang video siêu thực theo thời gian thực.

Trong bối cảnh các công ty công nghệ lớn đang chạy đua để thống trị thị trường AI video, Google dường như đã chuẩn bị một “vũ khí chiến lược” mang tên Gemini Omni. Những thông tin ban đầu cho thấy đây có thể là mô hình tạo video AI thế hệ tiếp theo được xây dựng dựa trên nền tảng Gemini và công nghệ Veo trước đó.

Mua Phần Mềm Bản Quyền Chính Hãng Giá Rẻ

1. Gemini Omni xuất hiện trong ứng dụng Gemini

Thông tin đầu tiên về Gemini Omni không đến từ Google mà từ cộng đồng người dùng trên Reddit. Theo chia sẻ của một tài khoản Reddit, khi mở ứng dụng Google Gemini trên iOS và Android, người này bất ngờ nhận được thông báo mới với nội dung “tạo nội dung với Gemini Omni”.

Chi tiết này nhanh chóng thu hút sự quan tâm vì trước đó Google chưa từng công bố chính thức về mô hình có tên Omni. Giao diện hiển thị cho thấy đây là một tính năng thử nghiệm được tích hợp trực tiếp trong hệ sinh thái Gemini thay vì là một công cụ độc lập.

Việc Google thử nghiệm kín Gemini Omni trong ứng dụng Gemini cho thấy chiến lược AI hợp nhất của hãng đang ngày càng rõ ràng hơn. Thay vì phát triển các sản phẩm AI tách biệt, Google có xu hướng đưa mọi khả năng AI vào cùng một nền tảng. Điều này giúp người dùng dễ dàng tạo văn bản, hình ảnh, video và âm thanh ngay trong một ứng dụng duy nhất.

Theo những hình ảnh được chia sẻ, Gemini Omni được đặt cạnh các tính năng tạo nội dung khác và có giao diện tương đối giống với các công cụ tạo video AI hiện nay. Người dùng chỉ cần nhập mô tả bằng văn bản để hệ thống tự động tạo video tương ứng.

2. Thử nghiệm video giáo sư viết chứng minh toán học

Một trong những bài thử nghiệm đầu tiên được chia sẻ về Gemini Omni là yêu cầu tạo video mô tả một giáo sư đang viết chứng minh toán học trên bảng đen. Nội dung yêu cầu khá phức tạp vì liên quan tới chuyển động tay, biểu cảm con người, ký hiệu toán học và tính logic trong quá trình trình bày.

Người dùng yêu cầu hệ thống tạo cảnh một giáo sư đang chứng minh các hằng đẳng thức lượng giác trên bảng đen trong lớp học. Đây là dạng nội dung khó đối với AI video vì hệ thống không chỉ cần tạo hình ảnh con người mà còn phải tái hiện chính xác các công thức toán học và hành động viết liên tục.

Kết quả được đánh giá là khá ấn tượng. Gemini Omni có thể tạo ra video với ánh sáng tự nhiên, biểu cảm khuôn mặt tương đối chân thật và khung cảnh lớp học sống động. Đặc biệt, phần công thức toán học xuất hiện trên bảng có tính logic cao hơn nhiều so với các mô hình AI video đời cũ.

Một số người xem nhận xét rằng video mang cảm giác gần giống cảnh quay thật hơn là video do AI tạo ra. Đây là bước tiến đáng chú ý bởi trong nhiều năm, AI video thường gặp vấn đề khi xử lý chữ viết tay hoặc các nội dung có cấu trúc logic phức tạp.

Ngoài ra, khả năng hiểu ngữ cảnh của Gemini Omni cũng được đánh giá cao. Mô hình không chỉ tạo ra một người đứng trước bảng đen mà còn tái hiện đúng phong thái của một giảng viên đang giảng bài, từ cách cầm phấn, chuyển động cơ thể cho tới hướng nhìn.

3. Chất lượng video gây ấn tượng nhưng chưa hoàn hảo

Dù video giáo sư toán học được đánh giá cao, Gemini Omni vẫn tồn tại nhiều điểm chưa hoàn thiện. Một số lỗi nhỏ nhưng dễ nhận ra tiếp tục cho thấy AI video hiện nay vẫn chưa đạt tới độ chính xác tuyệt đối.

Trong video thử nghiệm, thao tác viết của giáo sư đôi lúc không đồng bộ với nội dung xuất hiện trên bảng. Có thời điểm bàn tay di chuyển nhưng nét chữ lại xuất hiện theo hướng khác hoặc tốc độ không khớp với chuyển động thực tế.

Một lỗi khác được cộng đồng nhắc đến là hiện tượng viên phấn biến mất ở cuối video. Đây là lỗi khá phổ biến trong AI tạo video, khi hệ thống gặp khó khăn trong việc duy trì tính nhất quán của vật thể giữa các khung hình liên tiếp.

Những lỗi như vậy cho thấy bài toán “temporal consistency” tức tính nhất quán theo thời gian vẫn là thách thức lớn đối với các mô hình video AI hiện đại. AI có thể tạo ra từng khung hình rất đẹp nhưng việc giữ cho mọi vật thể hoạt động logic xuyên suốt video vẫn cực kỳ khó.

Tuy nhiên, điều đáng chú ý là dù tồn tại lỗi, Gemini Omni vẫn cho thấy chất lượng tổng thể cao hơn nhiều mô hình video AI từng xuất hiện trước đây. Chuyển động cơ thể, ánh sáng và bố cục hình ảnh có mức độ chân thực đủ để khiến nhiều người nhầm lẫn với video thật nếu chỉ xem nhanh.

4. Bài kiểm tra “Will Smith ăn mì Ý” và những hạn chế rõ ràng

Trong cộng đồng AI, bài kiểm tra “Will Smith ăn mì Ý” gần như đã trở thành tiêu chuẩn không chính thức để đánh giá chất lượng video tạo sinh. Nguyên nhân là bởi đây là một tình huống có rất nhiều yếu tố phức tạp: biểu cảm khuôn mặt, chuyển động tay, độ đàn hồi của mì, thao tác ăn uống và phản ứng cơ miệng khi nhai.

Khi Gemini Omni được thử nghiệm với dạng yêu cầu tương tự, kết quả lại không thực sự như kỳ vọng. Video mô tả hai người đàn ông ngồi tại một nhà hàng sang trọng bên bờ biển với món mì Ý trên bàn. Tuy nhiên, các lỗi quen thuộc của AI video vẫn xuất hiện khá rõ ràng.

Trong một số phân cảnh, mì Ý xuất hiện đột ngột trên đĩa mà không có quá trình phục vụ hợp lý. Chuyển động ăn uống của nhân vật cũng thiếu tự nhiên khi hành động nhai không khớp với lượng thức ăn đưa vào miệng.

Đây là vấn đề phổ biến trong nhiều mô hình AI video hiện nay. Các hệ thống có thể tạo ra bối cảnh đẹp nhưng thường gặp khó khăn với các hành động chi tiết liên quan đến vật lý mềm như thức ăn, chất lỏng hoặc chuyển động tinh vi của cơ mặt.

Kết quả thử nghiệm cho thấy Gemini Omni dù mạnh nhưng vẫn chưa giải quyết hoàn toàn được các thách thức nền tảng của AI video. Việc tái hiện hành vi con người chân thật ở cấp độ điện ảnh vẫn còn là mục tiêu khó đạt được.

5. So sánh Gemini Omni với Seedance 2 của ByteDance

Trong quá trình thử nghiệm, người dùng Reddit cũng đem Gemini Omni so sánh với Seedance 2: mô hình AI video do ByteDance phát triển.

Theo đánh giá ban đầu, Seedance 2 cho thấy chất lượng hình ảnh ổn định hơn ở một số cảnh quay. Độ nhất quán của nhân vật và vật thể trong video được duy trì tốt hơn so với Gemini Omni.

Tuy nhiên, Seedance 2 lại gặp hiện tượng giật hình và thiếu mượt mà trong chuyển động. Điều này cho thấy mỗi mô hình AI video hiện nay đang có những điểm mạnh riêng.

Gemini Omni dường như ưu tiên khả năng hiểu ngữ cảnh và tạo chuyển động tự nhiên, trong khi Seedance 2 tập trung nhiều hơn vào độ ổn định hình ảnh. Cuộc cạnh tranh giữa các hãng công nghệ đang thúc đẩy AI video phát triển theo nhiều hướng khác nhau.

So với các mô hình trước đây của Google, Gemini Omni có vẻ đã cải thiện đáng kể về mặt điện ảnh. Các cảnh quay có chiều sâu hơn, ánh sáng tốt hơn và biểu cảm nhân vật cũng ít “vô hồn” hơn.

6. Gemini Omni và mối liên hệ với Veo

Veo được biết đến như một dự án AI video tham vọng của Google với khả năng tạo video độ phân giải cao từ mô tả văn bản. Tuy nhiên, Veo chủ yếu tập trung vào việc tạo cảnh quay điện ảnh thay vì tích hợp sâu vào hệ sinh thái Gemini.

Gemini Omni có thể là bước đi nhằm hợp nhất các công nghệ AI của Google thành một nền tảng thống nhất. Điều này giúp người dùng chuyển đổi linh hoạt giữa văn bản, hình ảnh, âm thanh và video chỉ trong một quy trình làm việc.

Nếu đúng như vậy, Omni không đơn thuần là một mô hình video mới mà còn là nền móng cho hệ sinh thái sáng tạo nội dung AI toàn diện của Google.

Trong tương lai, người dùng có thể yêu cầu Gemini viết kịch bản, tạo storyboard, sinh giọng nói, dựng video và thậm chí chỉnh sửa hậu kỳ hoàn toàn bằng AI.

7. Google có thể công bố gì tại Google I/O 2026?

Theo nhiều dự đoán, Google sẽ chính thức công bố Gemini Omni tại Google I/O 2026 cùng với hàng loạt tính năng AI mới khác.

Ngoài khả năng tạo video, Google có thể giới thiệu thêm các công cụ chỉnh sửa video bằng ngôn ngữ tự nhiên, đồng bộ giọng nói AI và tạo nhân vật ảo theo thời gian thực.

Một số chuyên gia cũng kỳ vọng Gemini Omni sẽ hỗ trợ tạo video dài hơn với độ nhất quán cao hơn.

Google có thể tận dụng lợi thế hạ tầng đám mây và chip AI TPU riêng để tăng tốc quá trình tạo video, đồng thời giảm chi phí vận hành.

Nếu Omni thực sự được tích hợp vào Android, YouTube và Gemini, đây có thể là một trong những bước tiến AI quan trọng nhất của Google kể từ khi hãng ra mắt chatbot Gemini.

Dù vẫn còn nhiều hạn chế, Gemini Omni cho thấy AI video đang tiến gần hơn tới khả năng tạo nội dung điện ảnh bằng ngôn ngữ tự nhiên. Những gì từng được xem là khoa học viễn tưởng đang dần trở thành hiện thực chỉ sau vài năm phát triển.

Trong vài năm tới, AI video nhiều khả năng sẽ thay đổi hoàn toàn cách con người sản xuất nội dung số. Các nhà sáng tạo độc lập có thể tạo phim ngắn, quảng cáo hoặc video giáo dục với chi phí thấp hơn rất nhiều.

Dù còn nhiều câu hỏi chưa có lời giải, một điều gần như chắc chắn: AI video sẽ là xu hướng công nghệ lớn nhất trong giai đoạn tiếp theo của trí tuệ nhân tạo và Gemini Omni có thể trở thành một trong những cái tên định hình tương lai đó.

Mua Phần Mềm Bản Quyền Chính Hãng Giá Rẻ

Công Ty TNHH Phần Mềm SADESIGN

Mã số thuế: 0110083217

 

Liên Hệ Zalo

Liên Hệ Hotline

Liên Hệ Facebook

 
 
 
Hotline

0868 33 9999
Hotline
Hotline
Xác nhận Reset Key/ Đổi Máy

Bạn có chắc chắn muốn Reset Key/ Đổi Máy trên Key này không?

Máy tính đã kích hoạt Key này sẽ bị gỡ và bạn dùng Key này để kích hoạt trên máy tính bất kỳ.