Alibaba ra mắt mô hình AI có thể xử lý hình ảnh, video trên điện thoại, laptop

28/03/2025 18:00

VietTimes - Mô hình Qwen2.5-Omni-7B đa phương thức được thiết kế để chạy cục bộ trên các thiết bị di động.

Alibaba công bố mô hình AI mới. Ảnh: SCMP.

Tập đoàn Alibaba vừa ra mắt Qwen2.5-Omni-7B, một mô hình trí tuệ nhân tạo (AI) đa phương thức có khả năng xử lý văn bản, hình ảnh, âm thanh và video trên điện thoại thông minh và máy tính xách tay. Động thái này cho thấy tham vọng của Alibaba trong việc củng cố vị thế trên thị trường AI tạo sinh, đối đầu trực tiếp với các đối thủ như DeepSeek.

Qwen2.5-Omni-7B là bổ sung mới nhất cho dòng sản phẩm AI của Alibaba. Với chỉ 7 tỷ tham số, mô hình này được thiết kế tối ưu để hoạt động trên các thiết bị di động, máy tính bảng và laptop, giúp người dùng phổ thông tiếp cận dễ dàng hơn với công nghệ AI tiên tiến.

Theo Alibaba, Qwen2.5-Omni-7B có thể xử lý nhiều dạng dữ liệu đầu vào và phản hồi theo thời gian thực bằng văn bản hoặc âm thanh. Đặc biệt, công ty đã mở mã nguồn mô hình này, cho phép truy cập trên Hugging Face, GitHub của Microsoft và ModelScope của Alibaba.

Mô hình cũng được tích hợp trực tiếp vào Qwen Chat, nền tảng trò chuyện AI của Alibaba, nhằm mở rộng ứng dụng AI vào đời sống hàng ngày.

Alibaba nhấn mạnh Qwen2.5-Omni-7B có thể hỗ trợ người khiếm thị, cung cấp mô tả âm thanh theo thời gian thực, hoặc hướng dẫn nấu ăn thông qua phân tích hình ảnh nguyên liệu. Sự linh hoạt này cho thấy AI đang ngày càng phát triển vượt xa khả năng tạo văn bản đơn thuần.

Bên cạnh đó, dòng mô hình Qwen của Alibaba đang trở thành lựa chọn phổ biến cho các nhà phát triển AI tại Trung Quốc, tạo ra thế đối trọng với V3 và R1 của DeepSeek – hai mô hình AI hàng đầu hiện nay.

Qwen2.5-Omni-7B đã thể hiện hiệu suất mạnh mẽ trong các bài kiểm tra chuẩn:

- Đạt 56,1 điểm trên OmniBench, vượt xa 42,9 điểm của Gemini-1.5-Pro của Google.

- Trên chuẩn âm thanh CV15, mô hình này ghi nhận 92,4 điểm, cao hơn so với mô hình Qwen2-Audio trước đó của Alibaba.

- Trong các tác vụ xử lý hình ảnh, mô hình đạt 59,2 điểm trên chuẩn đánh giá hiểu và lý luận đa phương thức, vượt trội so với Qwen2.5-VL – mô hình ngôn ngữ thị giác trước đây của Alibaba.

Với việc mở rộng dòng mô hình Qwen và nhấn mạnh vào khả năng đa phương thức, nhẹ, linh hoạt, Alibaba đang đặt nền móng cho một kỷ nguyên AI mới. Trong bối cảnh DeepSeek đang thống trị thị trường AI Trung Quốc, sự xuất hiện của Qwen2.5-Omni-7B có thể giúp Alibaba giành lại lợi thế trong cuộc đua AI đầy khốc liệt.

Theo SCMP

https://www.scmp.com/tech/article/3304116/alibaba-launches-ai-model-can-process-images-and-video-phones-and-laptops?module=top_story&pgtype=section