Số hóa ngôn ngữ các dân tộc thiểu số: Khó nói về tỷ trọng của CNTT trong tổng thể

VietTimes – Viện Ngôn ngữ học thuộc Viện Hàn lâm Khoa học Xã hội Việt Nam đang xúc tiến dự án số hóa ngôn ngữ các dân tộc thiểu số (DTTS) tại Việt Nam. Là một chuyên gia CNTT được mời tham gia, TS Đặng Minh Tuấn -Trưởng nhóm phần mềm Vietkey - đã có đôi lời chia sẻ với bạn đọc VietTimes.
Giáo viên và học sinh vùng cao sử dụng máy tính bảng. Ảnh: báo Dân tộc.
Giáo viên và học sinh vùng cao sử dụng máy tính bảng. Ảnh: báo Dân tộc.

PV: Trước hết, xin ông cho biết một số thuận lợi và khó khăn trong việc triển khai dự án số hóa ngôn ngữ các DTTS.

TS Đặng Minh Tuấn: Nói về thuận lợi, trước hết phải nói đến sự quan tâm của Chính phủ và các cơ quan chức năng về quyền bình đẳng của các DTTS trong thời đại CNTT. Về hành lang pháp lý cũng đã có nhiều văn bản hướng dẫn để số hóa, bảo tồn ngôn ngữ, chữ viết của đồng bào DTTS.

Thuận lợi thứ hai là dự án này rất được sự quan tâm của các nhà ngôn ngữ học có nhiều tâm huyết. Cộng đồng các nhà ngôn ngữ học có những chuyên gia đã nghiên cứu về ngôn ngữ DTTS suốt nhiều năm qua.

Còn nói về khó khăn, cũng phải đề cập là số lượng chuyên gia hiểu biết cả về ngôn ngữ và CNTT cũng còn hạn chế. Cùng với thực tế đó thì thông tin về ngôn ngữ của các dân tộc cũng rất khó tìm kiếm trong quá trình triển khai dự án này.

TS Đặng Minh Tuấn tại hội thảo biên soạn sách giáo khoa tiếng dân tộc do Viện Ngôn ngữ học tổ chức
TS Đặng Minh Tuấn tại hội thảo biên soạn sách giáo khoa tiếng dân tộc do Viện Ngôn ngữ học tổ chức

PV: Trong những năm qua, một cách tự phát cũng đã có rất nhiều nhóm phần mềm đã làm các bộ gõ và font chữ các DTTS. Xin ông cho biết một số đánh giá, nhận xét về những sản phẩm đã có của họ.

TS Đặng Minh Tuấn: Trước hết, chúng ta phải ghi nhận những tâm huyết và nhiệt tình của các nhóm phát triển các phần mềm này. Họ đã làm việc hoàn toàn vì cộng đồng và không hề vụ lợi để góp phần bảo tồn di sản văn hóa bằng chữ viết của các dân tộc thiểu số.

Tuy nhiên, cũng giống như giai đoạn sơ khai của tiếng Việt (Kinh), các sản phẩm làm ra đa phần không có những sự kết nối với nhau. Sự phát triển của các sản phẩm này hoàn toàn là tự phát và độc lập. Một số dự án là những đề tài được Sở Khoa học Công nghệ của địa phương có đông đồng bào dân tộc thiểu số cấp ngân sách. Song vì thiếu những sự hợp tác giữa các nhà ngôn ngữ với chuyên gia CNTT nên các sản phẩm làm ra vẫn còn thiếu những nghiên cứu sâu sắc về xử lý ngôn ngữ và chưa tối ưu về CNTT.

Vấn đề tiếp theo là một số font chữ DTTS đã vi phạm các quy định về tiêu chuẩn ký tự Unicode. Không ít font chữ này đã vi phạm vào miền ký tự đã được xác định và ký tự điều khiển không được phép. Vì thế, nếu đưa lên Internet với các bộ font chữ dân tộc như hiện nay thì sẽ rất khó khăn vì khi đó, ký tự chuẩn của Unicode sẽ hiển thị chứ không phải ký tự riêng của một dân tộc nào đó.

Thứ ba là chúng ta chưa có một quy hoạch tổng thể về phân bổ ký tự cho ngôn ngữ các DTTS. Thực trạng chung vẫn là mạnh ngôn ngữ nào thì làm ngôn ngữ đó. Điều đó dẫn đến sự trùng mã giữa các chữ dân tộc và có lẽ cũng giống như với chữ quốc ngữ cách đây hơn 20 năm. Tiếng Kinh đã phải mất hơn mười năm mới thống nhất được về Unicode. Và với hơn 50 DTTS thì việc thống nhất mã sẽ còn khó hơn nhiều.

PV: Xin ông cho biết, CNTT chiếm tỷ trọng bao nhiêu trong dự án số hóa ngôn ngữ DTTS?

TS Đặng Minh Tuấn: Thực ra, cũng rất khó nói xem vị thế chính xác của CNTT chiếm tỷ trọng bao nhiêu trong hoạt động số hóa ngôn ngữ các DTTS.

Theo tôi, công việc đầu tiên phải xuất phát từ chính các chuyên gia ngôn ngữ học. Tức là chúng ta phải có những hiểu biết về các ngôn ngữ cụ thể không chỉ có chữ viết mà cả về các đặc thù văn hóa và xã hội của đồng bào DTTS. Rộng ra, cũng cần phải hiểu  về những tập quán, truyền thống lịch sử của các DTTS. Như thế, mới dựng nên được các con chữ và khi có chữ rồi thì lúc đó CNTT mới bắt tay vào việc được. Sau đó là gán các con chữ đó với mã cụ thể. Khi có mã thì mới xây dựng bộ font chữ và tiếp theo mới là bộ gõ rồi đến các công cụ hỗ trợ cho chuyển đổi số.

Tất nhiên, ở Việt Nam cũng còn có những DTTS chưa có chữ và cách tốt nhất là xây dựng các bộ chữ nào trên cơ sở font chữ Latin, sau đó sẽ có những tùy biến như thêm dấu, thêm mũ… Quá trình này cần tham khảo những bộ chữ Latin trước đó, chữ gì có thể tận dụng được thì nên tận dụng. Nếu như những chữ cụ thể tương đối giống nhau thì nên chọn một ký tự cụ thể để đưa vào bảng mã Unicode để không bị lãng phí không gian số.

PV: Cuối cùng, ngoài những vấn đề mang tính chuyên môn, ông có mong muốn gì từ Chính phủ cùng cộng đồng các trí thức người DTTS ở Việt Nam cho dự án này?

TS Đặng Minh Tuấn: Thực ra, dự án này cho đến nay vẫn chưa thực sự khởi động và tuy có lời mời của Viện Ngôn ngữ học với cá nhân tôi để tham gia nhưng cũng mới chỉ là những cuộc tiếp xúc, gặp gỡ và tham gia vào một số hội thảo chuyên đề có thể bàn đến yếu tố CNTT trong đó. Theo tôi thì việc đầu tiên là phải tổng kết lại tất cả những nghiên cứu của các chuyên gia ngôn ngữ cùng các bộ gõ và font chữ đã được xây dựng nhiều năm qua.

Căn cứ vào đó, việc tiếp theo là xây dựng quy hoạch tổng thể về số hóa ngôn ngữ các DTTS rồi mới đến những việc làm cụ thể. Việc này rất cần được sự ủng hộ của Chính phủ mà cụ thể là Ủy ban Dân tộc cùng Quốc hội với những chủ trương chinh sách và các biện pháp cụ thể để đồng bào các DTTS được bình đẳng trong không gian số hóa.

Còn với cộng đồng trí thức người DTTS, họ không thể là những người đứng ngoài cuộc với dự án này mà thậm chí phải tích cực ủng hộ, tuyên truyền cho những kết quả đạt được để đồng bào các DTTS Việt Nam thực sự được hưởng lợi.

PV: Xin cám ơn ông!