close Đăng nhập

CATI-VLM - mô hình nhận dạng văn bản bằng AI lọt top 12 thế giới, Viện trưởng CMC ATI nói gì?

“Chúng tôi tự hào vì trí tuệ Việt có thể đứng ngang hàng các ông lớn công nghệ toàn cầu”, TS Đặng Minh Tuấn, Viện trưởng CMC ATI cho biết.

Ảnh minh họa
Ảnh minh họa

Trong bối cảnh chuyển đổi số và ứng dụng AI ngày càng đóng vai trò trung tâm tại Việt Nam, công nghệ nhận dạng ký tự quang học (OCR) đã trở thành công cụ không thể thiếu để số hóa tài liệu, tự động hóa quy trình và nâng cao hiệu quả quản trị.

Tuy nhiên, bài toán nhận dạng văn bản tiếng Việt, với đặc thù dấu câu, cấu trúc ngữ pháp và chữ viết tay, luôn đòi hỏi sự thấu hiểu ngữ cảnh vượt xa khả năng "đọc chữ" thông thường.

Trước thách thức đó, Viện Ứng dụng Công nghệ CMC (CMC ATI) đã phát triển mô hình CATI-VLM – một hệ thống hiểu tài liệu bằng thị giác máy tính (Visual Document Understanding). Dựa trên kho dữ liệu lớn tới 5TB, mô hình này vừa được xếp hạng Top 12 thế giới và Top 1 Việt Nam tại cuộc thi quốc tế Robust Reading Competition (RRC), hạng mục Document Visual Question Answering (DocVQA), tổ chức tháng 6/2025.

Đây là sân chơi uy tín toàn cầu do Trung tâm Thị giác Máy tính thuộc Đại học Autònoma de Barcelona khởi xướng từ năm 2011, luôn đồng hành cùng hội nghị quốc tế ICDAR – diễn đàn hàng đầu thế giới về nhận dạng văn bản và thị giác máy tính.

bang xep hang CMC.png
Thứ hạng của CATI-VLM tại cuộc thi Robust Reading Competition

CATI-VLM gây ấn tượng khi đạt độ chính xác cao nhất ở 4/7 bộ dữ liệu DocVQA, dù chỉ sử dụng 3 tỷ tham số, con số khiêm tốn so với các "gã khổng lồ" như Deepseek (27 tỷ tham số), GPT-4 Vision Turbo kết hợp Amazon Textract (Top 34), hay Baidu (Top 22). Kết quả này thể hiện rõ năng lực tối ưu hóa thuật toán và vận hành hiệu quả trên hạ tầng phù hợp với Việt Nam, thay vì chạy theo xu hướng mô hình siêu lớn, tiêu tốn tài nguyên.

TS Đặng Minh Tuấn, Viện trưởng CMC ATI, chia sẻ: “Chúng tôi rất vui mừng khi năng lực nghiên cứu của đội ngũ CMC được khẳng định trên sân chơi toàn cầu. Quan trọng hơn, CATI-VLM chứng minh khả năng làm chủ công nghệ lõi để giải quyết các bài toán đặc thù của tiếng Việt và ngành nghề chuyên biệt tại Việt Nam”.

Không chỉ dừng ở việc trích xuất ký tự như các hệ thống OCR truyền thống, CATI-VLM còn hiểu được nhiều lớp thông tin như biểu mẫu, checkbox, biểu đồ, chữ ký, bố cục trang và cả phong cách văn bản. Đặc biệt, mô hình có thể trả lời câu hỏi trực quan đặt trên hình ảnh tài liệu, mà không cần học theo từng mẫu cụ thể – tương tự như ChatGPT trong lĩnh vực tài liệu số.

CATI-VLM là kết quả của chiến lược đầu tư R&D hơn 10 năm qua của Tập đoàn Công nghệ CMC. Trong tương lai gần, CATI-VLM sẽ được triển khai trong các sản phẩm thuộc hệ sinh thái C.OpenAI của CMC như: Trợ lý CLS rà soát văn bản pháp luật, CMC SmartDoc – nền tảng chuyển đổi số tài liệu, hệ quản trị tri thức CMC KMS, hệ thống báo cáo thông minh cho văn phòng số và các ứng dụng Agentic Documents thế hệ mới.

Chuyển đổi số

Ứng dụng Tuyên giáo và Dân vận giúp người dân nắm bắt thông tin và tương tác, phản ánh trực tiếp với cơ quan chức năng.

Lá chắn trước ma trận tin tức lề trái

Giữa ma trận tin tức lề trái về vấn đề Gaza, ứng dụng Tuyên giáo và Dân vận giúp người dân kiểm chứng thông tin, củng cố niềm tin vào chủ trương, chính sách của Đảng và Nhà nước.

Sáng kiến khoa học và ứng dụng (AI) vào khám sàng lọc ở Thái Nguyên (ảnh minh họa)

300 sáng kiến khoa học công nghệ được tài trợ kinh phí

Trong hơn 1.000 sáng kiến từ các tổ chức, cá nhân, doanh nghiệp và chuyên gia trong và ngoài nước được tiếp nhận qua Cổng Sáng kiến Khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số, có hơn 300 sáng kiến đã được tài trợ kinh phí.

"Vũ khí" mới ngăn tội phạm tài sản số

"Vũ khí" mới ngăn tội phạm tài sản số

Giống như các loại tội phạm khác, tội phạm tài sản số không mất đi, nó sẽ phát triển ngày càng tinh vi. Để ngăn loại tội phạm này, cần những loại “vũ khí” mới…

Anh Lăng Trường Chinh, Phó Phòng Kinh tế Xã Vân Nham

Khi AI thành “đồng nghiệp” của cán bộ xã

AI đã bước vào phòng làm việc của cán bộ, công chức xã miền núi. Từ những thao tác nhỏ hằng ngày, công nghệ mở lối đổi mới cách làm việc ở chính quyền cơ sở, giúp công chức giảm áp lực hành chính, dành nhiều thời gian để gần dân và phục vụ dân.