Bộ lọc âm thanh AI có thể biến thành giọng nói của bất kỳ ai

0:00 / 0:00
0:00
  • Nam miền Bắc
  • Nữ miền Bắc
  • Nữ miền Nam
  • Nam miền Nam
VietTimes –  Một nhóm công nghệ đã phát triển các phần mềm hỗ trợ AI bắt chước giọng nói của bất cứ ai với đủ dữ liệu âm thanh phân tích. Kỹ thuật có nguy cơ trở thành công cụ của những kẻ tội phạm.
Ảnh minh họa. Popula Sciense
Ảnh minh họa. Popula Sciense

Công nghệ AI deepfake lôi cuốn được sự quan tâm ngày càng tăng trong những năm gần đây, chủ yếu tập trung vào việc đánh lừa thị giác của mọi người.

Hiện nay, công nghệ AI trong thiết kế video có thể ghép khuôn mặt của một người lên cơ thể của một người khác, nghệ thuật siêu thực này được phát triển dựa trên đề xuất của người dùng và tạo ra những rắc rối về vấn đề đạo đức xung quanh những kỹ thuật này.

Nhưng một phương pháp đặc biệt khác bắt chước kỹ thuật số đầy thuyết phục người thụ hưởng, chỉ gần đây mới có được sự kiểm tra và nghiên cứu xem xét một cách thích hợp.

Bộ lọc giọng nói, dù không phải là mới, nhưng gần đây bắt đầu lôi kéo sự chú ý của các chuyên gia do có sự hỗ trợ của AI. Thật không may, công nghệ này hình thành hàng loạt các tác động xã hội nghiêm trọng và tương tự như ngành công nghiệp video deepfake, có rất ít cơ quan quản lý có thể kiểm soát, phát hiện và ngăn chặn.

Các công cụ AI mới nổi như Koe Recast và Voice.ai cho thấy khả năng biến đổi đầu vào âm thanh thành âm thanh đầu ra giống như hầu như giống bất kỳ ai nếu được cung cấp đủ dữ liệu âm thanh nguồn để phân tích.

Trong một số trường hợp, các chương trình này chỉ cần một đoạn clip dài từ 15 đến 30 giây là có thể tạo ra những màn bắt chước thuyết phục. Mặc dù Koe Recast mới chỉ đang trong giai đoạn thử nghiệm alpha riêng tư, nhưng đã có sẵn các ví dụ mô tả trong một clip ngắn của Mark Zuckerberg, phát biểu giống như một người kể chuyện nặng về âm trầm, giọng của một phụ nữ và thậm chí là một nhân vật anime có âm vực cao .

Giọng của Mark Zuckerberg bị biến đổi thành nhiều giọng khác. Video Popula Sciense

Asara Near, người sáng tạo ra Koe Recast ở Texas nói với Ars Technica trong một cuộc phỏng vấn tuần trước: “Mục tiêu của tôi là giúp mọi người thể hiện bản thân theo bất kỳ cách nào khiến cảm giác hạnh phúc hơn”. Near nói thêm đang có dự định phát hành một ứng dụng dành cho máy tính, có thể chuyển đổi giọng nói của người dùng trong thời gian thực trên các nền tảng như Discord và Zoom.

Khi được hỏi về khả năng những tội phạm công nghệ có thể sử dụng Koe Recast để tấn công cá nhân và cung cấp thông tin sai lệch, Near lập luận: "Như với bất kỳ công nghệ nào, sẽ có cả hai mặt tích cực và tiêu cực, nhưng tôi nghĩ phần lớn mọi người sẽ được hưởng lợi nhiều từ kỹ thuật này. ”

Nhưng các nhà phê bình vẫn hoài nghi việc tin tưởng vào những công cụ có khả năng gây hỗn loạn như vậy.

Gần đây, một số đại diện trung tâm cuộc gọi ngoài bắt đầu sử dụng phần mềm AI để xóa giọng gốc quốc gia bản địa, để đối tác nghe có vẻ "Mỹ" hơn trong nỗ lực giảm thiểu thành kiến ​​của các đối tác phương Tây. Nhóm sáng tạo này đưa ra nhiều luận điểm để biện minh cho công nghệ, nhưng các nhà phê bình cho rằng, đây đơn giản chỉ là cung cấp một phương tiện tránh đối mặt với các vấn đề lớn hơn như bài ngoại và phân biệt chủng tộc.

Tương tự như vậy, nhân viên tại một số doanh nghiệp lớn và một số người trở thành con mồi của những kẻ lừa đảo, tội phạm sử dụng chuyển đổi âm thanh, bắt chước giọng nói chủ chủ doanh nghiệp hoặc người thân của gia đình yêu cầu chuyển tiền và mật khẩu tài khoản. Ngoài ra, kẻ tội phạm có thể sử dụng thủ đoạn này, kết hợp với video deepfake và các công nghệ khác để thực hiện các cuộc tấn công khủng bố hoặc lừa đảo.

“Trong số các doanh nghiệp lớn hơn, tôi nghĩ rằng ngày càng nhiều người bắt đầu thực sự thấy được nguy cơ này vì rất khó để xác định cuộc gọi có phải là của sếp doanh nghiệp hay không,” Kyle Alspach , phóng viên an ninh mạng Protocol giải thích khi phát biểu trên NPR's Marketplace gần đây .

Dù ông Alspach lưu ý rằng, những kiểu lừa đảo này vẫn còn sơ khai, nhưng sẽ không lâu nữa những chiến thuật này trở nên phổ biến hơn, và nếu tình huống diễn ra thời gian thực, rất khó phân biệt sự thật với hư cấu. Thật không may, đơn giản là không có gì ngăn cản được sự gia tăng nhanh chóng các kỹ thuật bắt chước âm thanh và hình ảnh hỗ trợ AI.