Google vừa giới thiệu bản cập nhật Veo 3.1 – phiên bản mạnh mẽ nhất của công cụ tạo video bằng trí tuệ nhân tạo (AI) cho đến nay. Điểm nổi bật là khả năng hiểu và tạo nội dung từ prompt tiếng Việt cùng hàng loạt cải tiến khác.

Google cho biết Veo 3.1 được phát triển nhằm giúp người dùng “kể chuyện bằng hình ảnh” dễ dàng hơn, tự nhiên hơn và gần với ý đồ sáng tạo ban đầu. Lần đầu tiên, người dùng có thể nhập prompt bằng tiếng Việt để mô tả cảnh quay, phong cách hoặc cảm xúc mong muốn. Hệ thống AI hiểu ngữ cảnh đa ngôn ngữ, từ đó tạo ra video có nội dung, màu sắc và chuyển động phù hợp với ngôn từ người viết. Đây là bước tiến quan trọng giúp rút ngắn rào cản ngôn ngữ, mở rộng khả năng sáng tạo cho người dùng tại Việt Nam cũng như nhiều quốc gia không dùng tiếng Anh.

Với Veo 3.1, người sáng tạo giờ đây không chỉ dựng được khung hình sinh động mà còn có thể tạo âm thanh phù hợp với từng cảnh quay – từ tiếng gió, bước chân cho đến nhạc nền. Nhờ đó, mỗi video đều mang lại trải nghiệm thị giác và thính giác hài hòa, gần hơn với sản phẩm điện ảnh chuyên nghiệp.

Veo 3.1 ứng dụng AI vào tất cả các tính năng hiện có trong Flow, tạo ra những tính năng mới như “Ingredients to Video”, “Frames to Video” và “Extend”.

Tính năng “Ingredients to Video” cho phép người dùng kết hợp nhiều ảnh hoặc chất liệu đầu vào để tạo ra một khung cảnh bao gồm sự kết hợp của nhiều chất liệu đó. Chẳng hạn như người sáng tạo đưa vào một tấm ảnh chân dung phụ nữ, tấm ảnh một bộ trang phục và tấm ảnh một căn phòng sang trọng, Veo 3.1 sẽ tự động tạo ra một người phụ nữ với khuôn mặt giống hình ảnh đã cung cấp, mặc bộ đồ giống ảnh và đi lại trong căn phòng đó.

Với tính năng “Frames to Video”, chỉ cần hai khung hình – mở đầu và kết thúc – AI sẽ tự động dựng chuyển động mượt mà giữa chúng. Trong khi đó, “Extend” giúp kéo dài cảnh quay bằng cách mở rộng không gian, rất hữu ích khi cần dựng những đoạn phim có chiều sâu hoặc cảnh mở màn dài hơi.

Không chỉ tạo mới, Veo 3.1 còn hỗ trợ chỉnh sửa video đã sinh ra với hai công cụ thông minh: “Insert” cho phép chèn thêm vật thể hoặc chi tiết vào cảnh quay, và “Remove” giúp loại bỏ đối tượng không mong muốn mà vẫn giữ phông nền tự nhiên. Các thao tác này được AI xử lý tinh tế về ánh sáng và bóng đổ, khiến kết quả cuối cùng trông chân thực hơn hẳn so với các thế hệ trước.

Google khẳng định phiên bản 3.1 tuân thủ prompt chính xác hơn, đồng thời nâng chất lượng hình ảnh và âm thanh lên mức cao nhất từ trước đến nay. Hệ thống cũng đang được mở rộng ra nhiều nền tảng: nhà phát triển có thể truy cập Veo thông qua Gemini API, doanh nghiệp qua Vertex AI, và người dùng phổ thông có thể trải nghiệm ngay trên ứng dụng Gemini.

Việc hỗ trợ tiếng Việt và tăng cường khả năng kiểm soát chi tiết cho thấy Google đang hướng Veo trở thành công cụ sáng tạo toàn cầu, nơi mọi người – bất kể ngôn ngữ hay kỹ năng kỹ thuật – đều có thể biến ý tưởng thành hình ảnh sống động. Với Veo 3.1, việc làm phim bằng AI đã tiến thêm một bước dài, đưa thế giới sáng tạo số đến gần hơn với mọi người dùng.