"Gỡ băng" cuộc thoại, phần mềm Microsoft giờ nhanh mạnh hơn con người

25/08/2017 04:20

VietTimes -- Tháng 10/2016 đánh dấu cột mốc quan trọng đối với AI (trí tuệ nhân tạo) khi Microsoft cho ra đời hệ thống phiên dịch nội dung cuộc gọi thoại được đánh giá có hiệu quả tương đương, thậm chí tốt hơn các phiên dịch viên là con người.

Nhóm các nhà khoa học của Microsoft đang nghiên cứu công nghệ nhận diện giọng nói (ảnh: Business Insider)

Tuy nhiên, trong khi hệ thống của Microsoft mắc ít lỗi phiên dịch hơn một phiên dịch viên thì chắc chắn hệ thống này vẫn không thể tốt hơn đội ngũ được đào tạo chuyên nghiệp. Bởi vậy, nhóm nghiên cứu đã thử thách mình với một khó khăn mới: Giảm tỷ lệ lỗi xuống mức thấp hơn các nhóm phiên dịch từng thực hiện.

Và Microsoft đã làm được điều đó. Trong một bài blog đăng hôm 20/8 vừa qua, Xuedong Huang, nhà nghiên cứu chủ chốt của Microsoft Research thông báo rằng Microsoft đã thực sự công phá rào cản đó.

Ông Huang viết: Đó là cột mốc quan trọng, mang lại nền tảng vững chắc để Microsoft đi từ phiên dịch đến thông hiểu ý nghĩa cuộc hội thoại. Mà công nghệ nhận dạng giọng nói chính là nền móng cơ bản để phát triển trí tuệ nhân tạo này mạnh mẽ hơn.

“Chuyển giao từ nhận thức đến thông hiểu tiếng nói chính là thử thách tiếp theo trong sự phát triển công nghệ hội thoại của Microsoft".

Tính chính xác trong phiên dịch được đánh giá qua tỷ lệ dịch lỗi; tức là tỷ số giữa lượng từ phiên dịch sai trên tổng số từ mà hệ thống ghi lại được. Tỷ lệ này được xác định từ bảng điều khiển Switchboard, hệ thống đánh giá tiêu chuẩn nhằm kiểm tra độ phiên dịch chính xác, được nhiều ông lớn công nghệ sử dụng rộng rãi, trong đó có cả IBM và Google.

Tháng 9 năm 2016, theo bảng điều khiển Swich board, tỷ lệ lỗi của Microsoft là 6,3%, có nghĩa cứ mỗi 100 từ hệ thống ghi nhận thì có được nhiều hơn 6 từ sai. So sánh với một thông dịch viên thì tỉ lệ mắc lỗi trung bình là 5,9%, với một nhóm chuyên nghiệp là khoảng 5,1%.

Microsoft đã vượt qua thử thách về tỉ lệ lỗi phiên dịch so với tháng 10 năm ngoái và giờ chỉ cần đánh bại thử thách lần này mà thôi.

Có vẻ như đây là thành tựu sớm hơn cả dự kiến của hãng này. Bởi, quay lại năm 2015, chính ông Huang đã chia sẻ với Business Insider rằng: để xây dựng được hệ thống phiên dịch có khả năng vượt qua con người phải mất đến bốn, năm năm. Nhưng chưa đầy hai năm sau, Microsoft đã vượt qua con số thử thách do chính mình đưa ra.

Tuy nhiên, những thách thức vẫn còn đó. Tháng 10 năm ngoái, nhà nghiên cứu tiền nhiệm của Microsoft, Geoffrey Zweig đã trả lời tờ Business Insider rằng: Hệ thống phiên dịch của Micorsoft dựa trên khuôn mẫu âm thanh từ hệ thống điện thoại cố định với đường truyền ổn định. Thách thức sắp tới chính là phiên dịch chính xác giọng nói dù kết nối kém hay thậm chí âm thanh pha tạp như từ loa bán hàng của McDonalds.

Nền khoa học hội thoại "vẫn còn nhiều thách thức cần phải vượt qua, chẳng hạn đạt đến mức độ nhận diện giọng nói như con người, dù trong môi trường ồn ào, micro thoại ở khoảng cách xa, hay nhận dạng phong cách và ngôn ngữ nói, với lượng dữ liệu hệ thống hạn chế", Đây là những chia sẻ của ông Huang trong bài blog vừa qua, cũng như một lời dự báo ngầm định, tương lai nhân loại sắp được đón đợi những khả năng siêu việt của khoa học công nghệ mà Microsoft đang từng ngày khám phá, khiêu chiến với những giới hạn của nó.