close Đăng nhập

Khả năng dịch giọng nói khi đàm thoại của Google có thực sự chính xác?

Phóng viên Nicole Nguyen của The Wall Street Journal đã thử nghiệm tính năng dịch giọng nói mà Google mới công bố. Cô cho biết giọng dịch do AI tạo ra có thể bắt chước giọng nói, tông giọng và cảm xúc của người nói.

Tính năng dịch giọng nói trực tiếp hiện chỉ hỗ trợ tiếng Anh và Tây Ban Nha, nhưng sẽ được mở rộng thêm nhiều thứ tiếng trong thời gian tới. Ảnh: 9to5Google
Tính năng dịch giọng nói trực tiếp hiện chỉ hỗ trợ tiếng Anh và Tây Ban Nha, nhưng sẽ được mở rộng thêm nhiều thứ tiếng trong thời gian tới. Ảnh: 9to5Google

Qua bài đăng trên The Wall Street Journal, phóng viên Nicole Nguyen đã chia sẻ trải nghiệm độc đáo của mình khi thử nghiệm công nghệ phiên dịch giọng nói theo thời gian thực mới của Google qua ứng dụng Google Meet.

Mặc dù không biết tiếng Tây Ban Nha, nhưng cô đã trò chuyện như thể mình đã sử dụng ngôn ngữ này suốt đời. Công nghệ mà cô thử nghiệm có khả năng phiên dịch lời nói theo thời gian thực, bắt chước giọng nói, tông giọng và cảm xúc của người nói.

Nicole cho biết Google đã công bố công nghệ này tại sự kiện Google I/O và cô đã có cơ hội trải nghiệm nó trước đó vài ngày qua một cuộc gọi video với hai đồng nghiệp nói tiếng Tây Ban Nha tên là Cami và Jair. Trước khi bắt đầu, một thông báo hiện lên cảnh báo rằng tính năng dịch thuật đang ở giai đoạn thử nghiệm và có thể không hoàn toàn chính xác. Sau khi đồng ý, cả ba đã bắt đầu cuộc trò chuyện bằng ngôn ngữ mẹ đẻ của mình.

Nicole Nguyen kể rằng những người đồng nghiệp đã nói về những quán ăn họ yêu thích sau giờ làm và những điểm đến cuối tuần ở các quốc gia Mỹ Latinh. Bản dịch tiếng Anh được tạo kỹ thuật số của họ vẫn mang một chút âm điệu Tây Ban Nha. Mặc dù có độ trễ vài giây, phần lớn cuộc trò chuyện vẫn trôi chảy.

Tính năng này có thể hỗ trợ tối đa 100 người tham gia cùng lúc, nhưng ngay cả với ba người, đôi lúc vẫn xảy ra tình trạng nói chồng lên nhau do độ trễ. Người nói không nghe thấy giọng đã được phiên dịch của mình, nên không biết chính xác khi nào phần dịch kết thúc. Ngoài ra, cũng có lúc âm thanh bị giật cục như đang gặp sự cố kết nối, nhưng sau đó hệ thống dịch đã bắt kịp.

Theo ông Awaneesh Verma, Giám đốc cấp cao phụ trách truyền thông thời gian thực của Google, một trong những thử thách lớn nhất là quyết định nên dịch nghĩa của từ như thế nào, vì cần phải dựa vào ngữ cảnh. Ông lấy ví dụ rằng từ “bear” có thể mang nhiều nghĩa khác nhau như con gấu, sinh con, hoặc mang vác.

dich giong noi truc tiep.jpg
Nicole Nguyen (trên cùng, bên phải) đang hội thoại cùng các đồng nghiệp Tây Ban Nha

Khi Nicole thử hội thoại với chồng là một người nói tiếng Tây Ban Nha, cô nhận thấy rằng hệ thống đã dịch từ “match” (trận đấu) thành “fight” (chiến đấu) trong tiếng Tây Ban Nha. Chồng cô cũng nhận xét rằng câu đầu tiên thường nghe hơi lộn xộn, nhưng sau đó thì ổn hơn. Đôi khi hệ thống nhấn sai trọng âm hoặc tạo ra câu văn khó hiểu, ví dụ như: “The heat… the climate… always very warm” hay “I am fascinated by the power to have many options.”

Cô nhận ra mức độ chính xác của công nghệ này khi nghe lại đoạn thu âm. Giọng nói AI nghe giống mình một cách đáng ngạc nhiên, thậm chí chồng cô cũng ấn tượng. Khi cô mô tả chuyến đi sắp tới đến Tây Ban Nha để dự tiệc gia đình, đồng nghiệp của cô, một người nói tiếng Tây Ban Nha, nhận xét rằng bản dịch là “một hỗn hợp”, nhất là ở phần đầu. Cô ấy cũng cho biết giọng dịch không giống người bản xứ. Điều thú vị là giọng chồng cô khi được dịch sang tiếng Anh cũng mang chút âm điệu Tây Ban Nha.

Google thông báo rằng tính năng này sẽ bắt đầu được triển khai cho người dùng nâng cao của Gemini, giá từ 20 USD/tháng. Hiện tại chỉ hỗ trợ tiếng Anh và tiếng Tây Ban Nha, các ngôn ngữ như Ý, Đức và Bồ Đào Nha sẽ được bổ sung sau. Đối với khách hàng doanh nghiệp, tính năng sẽ ra mắt vào cuối năm. Google cũng khẳng định không lưu trữ dữ liệu cuộc họp và không sử dụng giọng nói của người dùng để huấn luyện AI.

Dù công nghệ này vẫn còn nhiều điểm cần cải thiện, Nicole Nguyen tin rằng tiềm năng của nó rất lớn, đặc biệt với những người từng phải sử dụng ngôn ngữ không phải tiếng mẹ đẻ. Bản thân cô từng sống ở Paris và thường cảm thấy khó thể hiện sự hài hước hay cá tính bằng tiếng Pháp. Vì thế, cô hy vọng công nghệ này sẽ góp phần phá vỡ rào cản ngôn ngữ, miễn là thông điệp không bị "lạc mất" trong quá trình dịch thuật.

Chuyển đổi số

Ứng dụng Tuyên giáo và Dân vận giúp người dân nắm bắt thông tin và tương tác, phản ánh trực tiếp với cơ quan chức năng.

Lá chắn trước ma trận tin tức lề trái

Giữa ma trận tin tức lề trái về vấn đề Gaza, ứng dụng Tuyên giáo và Dân vận giúp người dân kiểm chứng thông tin, củng cố niềm tin vào chủ trương, chính sách của Đảng và Nhà nước.

Sáng kiến khoa học và ứng dụng (AI) vào khám sàng lọc ở Thái Nguyên (ảnh minh họa)

300 sáng kiến khoa học công nghệ được tài trợ kinh phí

Trong hơn 1.000 sáng kiến từ các tổ chức, cá nhân, doanh nghiệp và chuyên gia trong và ngoài nước được tiếp nhận qua Cổng Sáng kiến Khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số, có hơn 300 sáng kiến đã được tài trợ kinh phí.

"Vũ khí" mới ngăn tội phạm tài sản số

"Vũ khí" mới ngăn tội phạm tài sản số

Giống như các loại tội phạm khác, tội phạm tài sản số không mất đi, nó sẽ phát triển ngày càng tinh vi. Để ngăn loại tội phạm này, cần những loại “vũ khí” mới…

Anh Lăng Trường Chinh, Phó Phòng Kinh tế Xã Vân Nham

Khi AI thành “đồng nghiệp” của cán bộ xã

AI đã bước vào phòng làm việc của cán bộ, công chức xã miền núi. Từ những thao tác nhỏ hằng ngày, công nghệ mở lối đổi mới cách làm việc ở chính quyền cơ sở, giúp công chức giảm áp lực hành chính, dành nhiều thời gian để gần dân và phục vụ dân.