Công nghệ nhận dạng tiếng nói chuyển thành chữ viết đã được thế giới nghiên cứu từ lâu. Đối với ngôn ngữ tiếng Anh, việc nhận dạng có thể đạt độ chính xác tới 99%. Những trợ lý ảo như Google Assistant, Amazon Alexa hay Apple Siri đã cho thấy khẩu lệnh tiếng Anh được nhận biết tốt như thế nào.
Đối với tiếng Việt, một số nghiên cứu để chuyển đổi giọng nói thành văn bản đã được thực hiện từ cách đây nhiều năm nhưng đều chưa đem lại thành công đáng kể, ngoại trừ sản phẩm mới trình làng của VAIS - Công ty TNHH Trí thông minh Nhân tạo Việt Nam. Sản phẩm này vừa được thử nghiệm tại một số phiên chất vấn của Quốc hội và được đánh giá rất cao.
Chúng tôi đã hẹn gặp đại diện VAIS để tìm hiểu xem sản phẩm của họ có thực sự hấp dẫn và hữu ích. Tiếp chúng tôi tại một quán cafe Hà Nội chiều thu nắng vàng óng ả là một anh bạn rất trẻ - Đỗ Quốc Trình – đồng sáng lập VAIS kiêm Giám đốc Marketing sản phẩm.
Dường như nhận ra sự tò mò của chúng tôi về mức độ trẻ trung của mình, Đỗ Quốc Trình nói luôn: “start-up của bọn em mới chỉ thành lập được 2 năm nay và toàn người trẻ cuối 8x, 9x anh ạ”.
anh Đỗ Quốc Trình trao đổi với phóng viên VietTimes
|
“Mới thành lập 2 năm mà đã nhảy vào nghiên cứu nhận dạng giọng nói tiếng Việt, một bài toán cực kỳ khó nhằn sao?”, chúng tôi hỏi ngay. “Không, start-up thì mới thành lập nhưng bọn em đã nghiên cứu bài toán này từ 8 năm nay rồi dưới sự tư vấn của cô Lương Chi Mai”, Đỗ Quốc Trình giải thích.
PGS.TS Lương Chi Mai không phải là một nhân vật xa lạ đối với giới công nghệ. Bà nguyên là Phó Viện trưởng Viện Công nghệ thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam), là một trong hai người đạt giải thưởng Kovalevskaya năm 2010. Bà từng có nhiều năm nghiên cứu về xử lý hình ảnh và ngôn ngữ tiếng Việt, và đã từng có một phần mềm nổi tiếng là VnDocR.
Khả năng nhận dạng giọng nói với độ chính xác trên 90%
Trở lại với sản phẩm “Speech to Text” của VAIS, theo anh Đỗ Quốc Trình, phần mềm này có thể nhận dạng được giọng nói của cả ba miền Bắc Trung Nam, từ đó chuyển đổi thành chữ viết với độ chính xác cao. Giọng miền Bắc có thể được nhận dạng với độ chính xác lên đến 99%, miền Trung từ 85-90%, miền Nam là 90%. Tốc độ nhận dạng là 0,5 giây, gần như một tốc độ tức thời.
Phần mềm VAIS vừa được chạy thử nghiệm tại một số phiên chất vấn trong kỳ họp Quốc hội vừa qua. Trước đây, khi không có phần mềm, Chủ tịch Quốc hội sẽ dùng giấy bút ghi chú đại biểu nào nêu câu hỏi chất vấn gì, Bộ trưởng nào trả lời, nội dung khái quát ra sao.
Khi áp dụng phần mềm của VAIS, tất cả các câu hỏi và phần trả lời, cũng như tên đại biểu được hiển thị ngay trên chiếc máy tính bảng đặt phía trước Chủ tịch Quốc hội Nguyễn Thị Kim Ngân, giúp bà dễ dàng theo dõi mà không cần giấy bút ghi chú.
Thông thường mỗi phiên chất vấn, Ban thư ký gồm khoảng 30 người sẽ phải gõ lại nội dung cuộc họp, và nếu cuộc họp buổi sáng thì phải đến chiều mới có phần nội dung gõ lại bằng chữ. Nhưng khi áp dụng phần mềm của VAIS, chỉ khoảng 60 phút sau là toàn bộ nội dung phiên họp đã được ghi lại thành 1 file văn bản.
Cái hay của phần mềm này còn là nó có thể tự viết hoa tên người, tên địa danh, viết đúng định dạng ngày tháng. Thậm chí một số tên riêng tiếng Anh đọc theo kiểu tiếng Việt như Viettel, VinGroup, VinaMilk... phần mềm cũng có thể nhận diện và viết đúng. Ngay cả các dấu chấm, phẩy, phần mềm cũng có thể tự đánh dấu một cách tương đối chính xác.
Giao diện Hệ thống Hỗ trợ chất vấn dùng cho các phiên họp Quốc hội
|
Theo anh Đỗ Quốc Trình, khoảng cách tối đa từ nguồn phát âm thanh đến nguồn thu âm thanh để phần mềm có thể “nghe hiểu” một cách tốt nhất là 6 mét. Đặc biệt, nó có thể nhận diện được tiếng nói của con người khi âm thanh nền là tiếng nhạc. Tất nhiên đối với môi trường nhiều tiếng ồn thì khả năng nhận dạng giọng nói bị giảm đi đáng kể.
Có thể nói tính năng chuyển đổi tiếng nói thành văn bản theo thời gian thực khi ứng dụng trong những cuộc họp kéo dài cả ngày thực sự rất hữu ích.
Ông Nguyễn Hạnh Phúc, Tổng thư ký Quốc hội đã có nhận xét về phần mềm của VAIS như sau: “Phần mềm chuyển từ tiếng nói sang chữ giúp cho việc bóc băng giữa các phiên họp tổ, các phiên thảo luận trên hội trường rất nhanh. Buổi sáng họp xong đến buổi trưa là có toàn bộ nội dung phiên thảo luận rồi.
Khi đại biểu đặt câu hỏi, trên màn hình máy tính trên bàn Thư ký, bàn Bộ trưởng đã xuất hiện ngay phần nội dung câu hỏi và sau đó là câu trả lời. Chúng tôi không cần phải ghi chép gì, mà ghi chép nhiều khi còn không kịp. Toàn bộ nội dung được lưu lại giúp chúng tôi sau này làm nghị quyết tham mưu về dự thảo nghị quyết chất vấn rất thuận tiện và nhanh”.
Một trong những băn khoăn mà chúng tôi đặt ra đối với anh Đỗ Quốc Trình là khả năng bảo mật của phần mềm. Liệu phần mềm của VAIS có dễ bị tin tặc "phá đám" không? Ngược lại, cũng phần mềm này, liệu nó có bí mật lưu lại những file audio quan trọng của người dùng khi xử lý hay không?
"Hoàn toàn không dễ hack anh ạ. Với lại phần mềm của bọn em sẽ được triển khai trên máy chủ của khách hàng, nên khách hàng không lo bị thất thoát các file âm thanh quan trọng. Như đợt vừa rồi, bọn em đã cài đặt phần mềm trên máy chủ của Quốc hội, hay mới đây là Bộ Thông tin và Truyền thông, Bộ Tài nguyên và Môi trường - họ đều mở một cổng cho bọn em cài đặt phần mềm rồi sau đó đóng lại để giữ an toàn", Quốc Trình cho biết.
Các bạn trẻ của VAIS đã tự tin đem phần mềm "Speech to Text" của mình đi tham dự 2 cuộc thi và đã đều giành được giải thưởng. Trong cuộc thi VLSP (Vietnamese Language and Speech Processing), phần mềm của VAIS đã vượt qua các đối thủ sừng sỏ của FPT, Viettel để giành giải Nhất. Phần mềm này cũng đạt giải thưởng Chuyển đổi Số Việt Nam 2019 do Hội Truyền thông Số Việt Nam phối hợp với VTV24 tổ chức.
"Tiếng lành đồn xa", hiện phần mềm của VAIS đã được triển khai tại hệ thống máy chủ của một số Bộ, ngành và địa phương như Văn phòng Quốc hội, Bộ Thông tin & Truyền thông, Bộ Tài nguyên và Môi trường, các tỉnh Sóc Trăng, Hà Giang, Ninh Bình, TP.HCM, Hà Nội.
Các thành viên sáng lập VAIS
|
Khi được hỏi đâu là yếu tố khó khăn nhất trong quá trình phát triển sản phẩm, anh Đỗ Quốc Trình nói rằng đó là thời kỳ đầu tiên khi cả nhóm phải tự bỏ tiền túi để xây dựng sản phẩm. Bây giờ, khó khăn về tài chính đã qua rồi. Một số nhà đầu tư cũng đã ngỏ lời nhưng VAIS vẫn chưa nhận. "Bây giờ, yếu tố khó khăn nhất là phải cải thiện khả năng nhận dạng giọng nói, nhất là các ngôn ngữ vùng miền và phải dạy cho máy để nó hiểu được nhiều thuật ngữ trong nhiều lĩnh vực hơn", anh Trình cho biết.
Tiềm năng phát triển của "Speech to Text"
"Speech to Text" của VAIS rất hữu ích đối với các cuộc họp dài mà cần ghi lại nội dung một cách tức thời, nhanh chóng. Các phiên họp Quốc hội, các cuộc họp cơ quan, nội dung sẽ được ghi lại và chỉnh lý nhanh chóng.
Phần mềm này còn đặc biệt hữu ích đối với những nhà báo. Nghề nhà báo có một nỗi khổ là "rã băng". Mỗi lần đi phỏng vấn về, để gõ lại nội dung phỏng vấn, nhất là những nội dung dài, nhà báo thường mất đến hàng giờ đồng hồ. Bây giờ, với việc cho file audio vào phần mềm và bấm một nút, nhà báo chỉ cần chờ vài phút là có file văn bản để họ chỉnh sửa và đăng bài. Hiện phần mềm của VAIS đang được triển khai thử nghiệm tại các đơn vị báo chí như VTV, VOV và sắp tới là VietTimes.
Anh Đỗ Quốc Trình cho biết trong tương lai "Speech to Text" của VAIS sẽ còn được sử dụng tại các bệnh viện, nơi bác sỹ vừa khám bệnh vừa (nói lời) chuẩn đoán và phần mềm sẽ tự động xuất ra bệnh án điện tử. VAIS Cũng sẽ tích hợp nhiều tính năng cho các lĩnh vực riêng như hỗ trợ ghi biên bản điều tra hiện trường, hỗ trợ ghi biên bản trong các phiên tòa...
Một ứng dụng trên mobile cũng đang được VAIS phát triển. Ứng dụng này đặc biệt hữu ích đối với các phóng viên hiện trường. Khi phóng viên thực hiện phỏng vấn tại hiện trường, file audio sẽ được ghi lại và chuyển đổi thành file chữ viết theo thời gian thực, và biên tập viên ở tòa soạn có thể theo dõi (xử lý) ngay lập tức những câu phỏng vấn và trả lời này.
Hiện tại, hệ thống của VAIS đã được Chính phủ mời tham gia "Đề án hệ tri thức Việt số hóa" do Phó thủ tướng Vũ Đức Đam phụ trách. Đây đề án mà các doanh nghiệp cùng đóng góp dữ liệu của mình để nâng cao năng lực sử dụng chung, tránh phụ thuộc vào doanh nghiệp nước ngoài.