Mô hình ngôn ngữ VALL-E được đào tạo bằng cách sử dụng 60.000 giờ nói tiếng Anh từ 7.000 người nói khác nhau để tổng hợp. Theo Microsoft, thư viện này sẽ được bổ sung theo thời gian và không chỉ giới hạn tiếng Anh mà còn các ngôn ngữ khác.
Sau khi hệ thống trí tuệ nhân tạo có bản ghi âm giọng nói, hệ thống ngay lập tức có thể nói bất cứ điều gì với giọng của người đó. VALL-E thậm chí có thể bắt chước giai điệu, cảm xúc và môi trường âm thanh của người nói từ bản ghi âm ban đầu.
“Kết quả thử nghiệm cho thấy VALL-E vượt trội hơn đáng kể so với hệ thống tổng hợp văn bản thành giọng nói (TTS) tiên tiến nhất về độ tự nhiên của giọng nói và tính tương đồng của người nói,” một bài báo mô tả hệ thống cho biết.
“Ngoài ra, chúng tôi nhận thấy VALL-E có thể giữ nguyên được cảm xúc của người nói và môi trường âm thanh từ bản ghi âm trong quá trình tổng hợp”.
Các phương pháp chuyển văn bản thành giọng nói khác hiện đang có trên thị trường hầu hết ở dạng sóng. Nhưng VALL-E tạo codec âm thanh riêng biệt từ văn bản và âm thanh. Trên thực tế, AI này sẽ phân tích âm thanh của một người, sau đó chia nhỏ thông tin đó thành các phần riêng biệt (được gọi là “mã thông báo”) thông qua EnCodec.
Cuối cùng, Vall-E sử dụng dữ liệu huấn luyện để khớp với những gì nó "biết" về ngữ điệu giọng nói, sau đó có thể nói các cụm từ khác theo đúng những gì "học" được. Toàn bộ quá trình được thực hiện trong 3 giây - mức nhanh nhất so với bất kỳ hệ thống AI bắt chước ngôn ngữ nào hiện nay.
Tuy nhiên, cũng tương tự như công nghệ deepfake, việc bắt chước hình ảnh hay giọng nói của một người khác hoàn toàn có khả năng bị lạm dụng.
Được biết, phần mềm VALL-E hiện vẫn không có sẵn cho mục đích sử dụng công cộng, Microsoft trích dẫn “những rủi ro tiềm ẩn khi sử dụng sai VALL-E, chẳng hạn như nhận dạng giọng nói giả mạo hoặc mạo danh một người cụ thể”.
Microsoft cho biết họ cũng sẽ tuân thủ Nguyên tắc AI có trách nhiệm khi tiếp tục phát triển VALL-E, cũng như xem xét các cách khả thi để phát hiện giọng nói tổng hợp nhằm giảm thiểu những rủi ro nói trên.
Vall-E được kỳ vọng sẽ ứng dụng trong phần mềm chuyển văn bản thành giọng nói chất lượng cao. Chẳng hạn, người dùng có thể sử dụng nó để chỉnh sửa câu từ trong bản ghi âm giọng nói bất kỳ, hoặc có thể tạo nội dung âm thanh, như thuyết minh cho sách nói.
Theo Yahoo News, Gizchina