Nhóm nghiên cứu Meta tạo ra AI cho trò chơi Ngoại giao, đàm phán thắng con người

VietTimes – Phần mềm AI Cicero của Meta, trong game Diplomacy, có thể đàm phán hoặc thuyết phục đối tác bằng ngôn ngữ tự nhiên như con người và trở thành bậc thầy của game, có số điểm gấp đôi các người chơi trung bình.

Một đoạn chat trong game Diplomacy giữa AI và người chơi con người. Ảnh Ars Technica

Một đoạn chat trong game Diplomacy giữa AI và người chơi con người. Ảnh Ars Technica

Ngày 22/11, Meta AI công bố sự phát triển của Cicero, tuyên bố là Trí tuệ Nhân tạo (AI) đầu tiên đạt được hiệu suất ở cấp độ con người trong trò chơi trên bàn chiến lược Diplomacy.

Đó là một thành tích ấn tượng vì trò chơi đòi hỏi kỹ năng đàm phán sâu giữa các cá nhân, kết quả này cho thấy Cicero đạt được trình độ thông thạo ngôn ngữ nhất định cần thiết để giành chiến thắng trong trò chơi.

Ngay cả trước khi Deep Blue đánh bại Garry Kasparov trong môn cờ vua vào năm 1997 , các trò chơi trên bàn là thước đo hữu ích cho những thành tựu đạt được của AI. Năm 2015, một rào cản khác sụp đổ khi AlphaGo đánh bại bậc thầy cờ vây Lee Sedol. Cả hai trò chơi này đều tuân theo bộ quy tắc phân tích tương đối rõ ràng (mặc dù quy tắc cờ vây thường được đơn giản hóa cho AI máy tính).

Nhưng với Diplomacy, phần lớn phong cách chơi liên quan đến những kỹ năng xã hội. Người chơi phải thể hiện sự đồng cảm, sử dụng ngôn ngữ tự nhiên, xây dựng các mối quan hệ để giành chiến thắng, một nhiệm vụ khó khăn đối với máy tính - người chơi. Với tư duy này, Meta đặt câu hỏi: "Liệu chúng ta có thể xây dựng các tác nhân hiệu quả và linh hoạt, có thể sử dụng ngôn ngữ để đàm phán, thuyết phục và làm việc với mọi người để đạt được những mục tiêu chiến lược tương tự như cách con người làm không?"

Theo Meta, câu trả lời là có. Cicero đã học được kỹ năng đàm phán bằng phương pháp chơi phiên bản Ngoại giao trực tuyến trên web Diplomacy.net. Theo thời gian, AI trở thành bậc thầy trong trò chơi, được cho là đã đạt được "hơn gấp đôi số điểm trung bình" của những người chơi con người và xếp hạng nhất trong top 10% những người chơi giỏi nhất nhiều hơn lần chơi.

Để tạo ra phần mềm Cicero, Meta đã tập hợp các mô hình AI lập luận chiến lược (tương tự như AlphaGo) và xử lý ngôn ngữ tự nhiên (tương tự như GPT-3 ), tích hợp vào một tác nhân. Trong mỗi trò chơi, Cicero xem xét trạng thái của bảng trò chơi, lịch sử hội thoại và dự đoán cách những người chơi khác sẽ hành động. Mô hình AI tạo ra một kế hoạch thực hiện thông qua một mô hình ngôn ngữ có thể tạo ra cuộc đối thoại giống như con người, cho phép tương tác với những người chơi khác.

Nhóm nghiên cứu Meta tạo ra AI cho trò chơi Ngoại giao, đàm phán thắng con người ảnh 1

Sơ đồ khối của Cicero, bot chơi Diplomacy, do Meta cung cấp.

Meta gọi các kỹ năng ngôn ngữ tự nhiên của Cicero là "mô hình đối thoại có thể kiểm soát", đó là điểm cốt lõi trong tính cách của Cicero. Giống như GPT-3, Cicero sử dụng kho văn bản Internet lớn lấy từ web. Meta viết: “Để xây dựng một mô hình đối thoại có thể kiểm soát được, chúng tôi đã bắt đầu với một mô hình ngôn ngữ tương tự như bộ mã hóa tự động khử nhiễu cho các mô hình sắp xếp theo trình tự (BART) gồm 2,7 tỉ tham số được đào tạo trước trên văn bản từ Internet, được tinh chỉnh trên hơn 40.000 trò chơi của con người trên webDiplomacy.net” .

Mô hình kết quả đã làm chủ được sự tinh tế của một trò chơi phức tạp. “Ví dụ, Cicero có thể suy luận rằng, sau này trong trò chơi, AI sẽ cần sự hỗ trợ của một người chơi cụ thể,” Meta nói, “sau đó vạch ra một chiến lược để giành được sự ủng hộ của người đó, thậm chí nhận ra những rủi ro và cơ hội từ người chơi đó từ quan điểm cụ thể của game thủ."

Công trình nghiên cứu Cicero của Meta được đăng trên tạp chí Khoa học với tiêu đề, "Trò chơi cấp độ con người trong game Diplomacy bằng phương thức kết hợp các mô hình ngôn ngữ với lập luận chiến lược."

Với các ứng dụng rộng hơn, Meta cho rằng nghiên cứu Cicero có thể "xóa bỏ rào cản giao tiếp" giữa con người và AI, như duy trì một cuộc trò chuyện dài để dạy ai đó một kỹ năng mới. Hoặc nó có thể cung cấp động năng cho một trò chơi điện tử trong đó các nhân vật trong game (NPC) có thể nói chuyện tương tự như con người, giao tiếp với game thủ, hiểu được động cơ của người chơi và thích nghi trong quá trình lên level.

Đồng thời, công nghệ này có thể được sử dụng để thao túng con người, mạo danh con người và lừa đảo theo những cách nguy hiểm tiềm ẩn, tùy thuộc vào ngữ cảnh. Trên cơ sở nhận thức này, Meta hy vọng các nhà nghiên cứu khác có thể xây dựng mã của mình "một cách có trách nhiệm" và cho biết công ty đã thực hiện những bước cần thiết để phát hiện và xóa "tin nhắn độc hại trong miền mới này", đề cập đến hộp thoại mà Cicero học được từ những văn bản trên Internet đã đưa vào, luôn là một rủi ro đối với các mô hình ngôn ngữ lớn.

Meta đã ra mắt một trang web, giải thích chi tiết cách thức hoạt động của Cicero và cũng có mã nguồn mở của Cicero trên GitHub . Những fan hâm mộ Ngoại giao trực tuyến, thậm chí có thể là chính chúng ta, cần phải rất cẩn thận trên mạng xã hội vì có thể trong tương lai gần, một phiên bản tương tự Cicero có thể giao tiếp với chúng ta, đơn giản nhất là thuyết phục về một món hàng nào đó hoặc hơn nữa.

Theo Ars Technica