Meta tiết lộ mô hình ngôn ngữ mới được thiết kế cho cộng đồng nghiên cứu AI

0:00 / 0:00
0:00
  • Nam miền Bắc
  • Nữ miền Bắc
  • Nữ miền Nam
  • Nam miền Nam
VietTimes – Những gã khổng lồ công nghệ như Microsoft và Google, cùng với OpenAI đã và đang gây chú ý với những nghiên cứu và tiến bộ về AIcủa họ
Meta tiết lộ mô hình ngôn ngữ mới được thiết kế cho cộng đồng nghiên cứu AI (Ảnh: Tech Spot)
Meta tiết lộ mô hình ngôn ngữ mới được thiết kế cho cộng đồng nghiên cứu AI (Ảnh: Tech Spot)

Những gã khổng lồ công nghệ như Microsoft và Google, cùng với OpenAI đã và đang gây chú ý với những nghiên cứu và tiến bộ về AI sáng tạo của họ. Không chịu thua kém, Mark Zuckerberg và Meta đang phát triển một mô hình ngôn ngữ AI mới có tên LLaMA. Mô hình này được báo cáo là vượt trội so với GPT-3 trong hầu hết các điểm chuẩn.

Được công bố trong một bài đăng trên blog vào thứ Sáu, Mô hình ngôn ngữ lớn Meta AI (LLaMA) của Meta được thiết cho các nhóm nghiên cứu. Theo Meta, với kích thước chỉ bằng 10% của GPT-3 (Máy biến áp được đào tạo trước thế hệ thứ ba), mô hình LLaMA cung cấp một tài nguyên nhỏ nhưng hiệu suất cao có thể được tận dụng bởi ngay cả những nhóm nghiên cứu nhỏ nhất.

Kích thước mô hình này đảm bảo rằng các nhóm nhỏ với nguồn lực hạn chế vẫn có thể sử dụng mô hình và đóng góp vào những tiến bộ tổng thể của AI và học máy.

Cách tiếp cận của Meta với LLaMA khác biệt rõ rệt khi so sánh với ChatGPT của OpenAI, Bard của Google hoặc Prometheus của Microsoft. Công ty đang phát hành mô hình mới theo giấy phép phi thương mại, nhắc lại cam kết đã nêu về sự công bằng và minh bạch của AI. Truy cập cho các nhà nghiên cứu trong các tổ chức trên toàn chính phủ, học viện quan tâm đến việc tận dụng mô hình sẽ phải xin giấy phép và được cấp quyền truy cập.

Những nhà nghiên cứu nào xin được giấy phép thành công sẽ có quyền truy cập vào mô hình nền tảng nhỏ, dễ tiếp cận của LLaMA. Meta đang cung cấp LLaMA với một số tham số kích thước bao gồm 7B, 13B, 33B và 65B. Công ty cũng đã phát hành thẻ mô hình LLaMA trên GitHub, cung cấp thêm thông tin chi tiết về chính mô hình đó và các nguồn dữ liệu đào tạo công khai của Meta.

Theo thông tin đưa ra, mô hình này đã được đào tạo bằng CCNet (67%), C4 (15%), GitHub (4,5%), Wikipedia (4,5%), Sách (4,5%), ArXiv (2,5%) và Stack Exchange ( 2%).

Mặc dù đây là một mô hình nền tảng có khả năng thích ứng với một số trường hợp sử dụng khác nhau, nhưng công ty thừa nhận rằng những ẩn số liên quan đến thành kiến và các bình luận độc hại vẫn là một mối đe dọa cần được cải thiện. Hy vọng của công ty là việc chia sẻ mô hình nhỏ nhưng linh hoạt này sẽ dẫn đến những cách tiếp cận mới có thể hạn chế hoặc trong một số trường hợp loại bỏ các con đường khai thác mô hình tiềm năng.

Những người quan tâm có thể tải tài liệu nghiên cứu LLaMA hoàn chỉnh từ blog Meta Research. Những người quan tâm đến việc đăng ký quyền truy cập có thể làm như vậy trên mẫu yêu cầu trực tuyến của Meta.

Theo Tech Spot