GPT-4 ra mắt: 6 điểm vượt trội so với GPT-3.5

0:00 / 0:00
0:00
  • Nam miền Bắc
  • Nữ miền Bắc
  • Nữ miền Nam
  • Nam miền Nam
VietTimes – OpenAI đã công bố phiên bản GPT-4 sau ba tháng rưỡi ra mắt ChatGPT trên nền tảng phiên bản GPT-3.5. Microsoft cũng xác nhận rằng Bing Chat đang chạy trên GPT-4.
Greg Brockman, Chủ tịch và Đồng sáng lập OpenAI, trình diễn GPT-4
Greg Brockman, Chủ tịch và Đồng sáng lập OpenAI, trình diễn GPT-4

GPT-4 có rất nhiều cải tiến so với phiên bản trước đây:

1. GPT-4 có thể xem và hiểu hình ảnh

Thay đổi đáng chú ý nhất đối với phiên bản GPT-4 này là “đa phương thức” (multi modal). Nghĩa là nó có thể hiểu nhiều hơn một phương thức thông tin. ChatGPT trước đó và GPT-3 bị giới hạn ở văn bản (text to text). Tuy nhiên, Nếu cung cấp hình ảnh, GPT-4 sẽ xử lý để tìm thông tin liên quan.

OpenAI đã hợp tác với Be My Eyes để tạo ra một ứng dụng Virtual Volunteer (Image to text) cho những người mù và khiếm thị nhìn thấy những gì mà camera điện thoại ghi nhận, giúp họ điều hướng trong cuộc sống, giải quyết các nhu cầu hàng ngày và có được sự độc lập hơn.

Giao diện ứng dụng the Virtual Volunteer (nguồn Be My Eyes)

Giao diện ứng dụng the Virtual Volunteer (nguồn Be My Eyes)

2. GPT-4 trả lời chất lượng hơn

GPT-4 có thể tạo văn bản và hoạt động ở “cấp độ con người” (human level) trên nhiều tiêu chuẩn chuyên môn và học thuật khác nhau. Ví dụ: GPT-4 vượt qua bài kiểm tra "simulated bar exam" với số điểm nằm trong khoảng top 10% người thực hiện bài kiểm tra; ngược lại, điểm của GPT-3.5 nằm ở khoảng 10% dưới cùng.

GPT-4 đã vượt qua các bài thi trung học phổ thông AP với số điểm cũng thuộc top 15%. Như thế GPT-4 đã trở thành một học sinh khá giỏi so với GPT 3.5, một học sinh với học lực trung bình.

3. GPT-4 “nhớ” nhiều hơn

Phiên bản mới này có thể "nhớ" khoảng 50 trang nội dung nhờ cửa sổ ngữ cảnh (context windows) được mở rộng đáng kể. Lượng thông tin mà GPT-4 gốc có thể chứa trong "bộ nhớ" của nó ở điều kiện tối đa (32 ngàn tokens) gấp tám lần so với GPT-3 (4 ngàn tokens).

Các mô hình có cửa sổ ngữ cảnh nhỏ có xu hướng "quên" nội dung của các cuộc trò chuyện, thậm chí vì không nhớ được nội dung trước đó, rất dẫn đến việc lạc đề. Sau khoảng vài nghìn từ hội thoại, ChatGPT cũng quên hướng dẫn ban đầu của mình, thay vào đó ngoại suy hành vi từ thông tin cuối cùng trong cửa sổ ngữ cảnh thay vì yêu cầu ban đầu. Với một cửa sổ ngữ cảnh lớn, thông tin sẽ được nhất quán và chặt chẽ hơn. Bạn tưởng tượng có thể đưa một kịch bản phim dài 3 giờ đồng hồ cho ChatGPT phân tích, tóm tắt và trả lời những câu hỏi liên quan. Trước đây, với GPT-3.5, ChatGPT chỉ có thể làm việc trên một văn bản khoảng 3000 từ tiếng Anh hay 6 trang A4.

“Mô hình có thể sử dụng linh hoạt các tài liệu dài,” Greg Brockman, đồng sáng lập và chủ tịch OpenAI, cho biết trong buổi demo trực tiếp cách đây 6 giờ. "Chúng tôi muốn xem loại ứng dụng nào sẽ tận dụng mô hình này".

Màn hình Playground của Greg Brockman trong buổi ra mắt GPT-4

Màn hình Playground của Greg Brockman trong buổi ra mắt GPT-4

4. GPT-4 hiểu ngôn ngữ ngoài tiếng Anh tốt hơn

Hiện nay, ngôn ngữ tiếng Anh và mọi thứ từ dữ liệu thử nghiệm đến tài liệu nghiên cứu đều chiếm ưu thế. Khả năng của các mô hình ngôn ngữ lớn có thể áp dụng được trong bất kỳ ngôn ngữ nào nhưng chất lượng đầu ra phụ thuộc vào lượng dữ liệu ngôn ngữ được cung cấp.

GPT-4 tiến thêm một bước để thực hiện điều này bằng cách chứng minh rằng nó có thể trả lời hàng nghìn câu hỏi trắc nghiệm với độ chính xác cao trên 26 ngôn ngữ, từ tiếng Ý đến đến tiếng Hàn. GPT-4 giỏi nhất ở hệ ngôn ngữ Latin (Anh, Pháp, Tây Ban Nha) và tiếng Đức nhưng chất lượng trả lời bằng ngôn ngữ khác cần được cải thiện.

5. GPT-4 có những “cá tính” khác nhau

GPT-4 tích hợp nhiều khả năng điều khiển (“Steerability”) hơn GPT-3.5 và người dùng sẽ có thể thay đổi “tính cách” ChatGPT mặc định với giọng điệu (tone) và phong cách (style), phương thức tương tác (ngắn, dài) phù hợp hơn với nhu cầu của mình.

“Khả năng điều khiển” là một khái niệm trong AI, đề cập đến khả năng thay đổi hành vi của mô hình theo yêu cầu. Ví dụ mô hình có thể nhận vai trò của một người lắng nghe thông cảm, hoặc đóng vai một kẻ luôn châm biến, giọng điệu có thể vui nhộn hoặc ủ rũ, trầm cảm.

Điều này có thể được thực hiện bằng cách mồi (prime) cho ChatGPT bằng các thông báo ở mức độ hệ thống (role: system) như “Giả vờ rằng bạn là DM (Dungeon Master) trong một game nhập vai ” hoặc “Trả lời như thể bạn là một người đang được phỏng vấn về tin tức truyền hình cáp”. Đây là những lời nhắc nhập vai mà bạn đề xuất cho GPT-3.5 “mặc định”. Giờ đây với GPT 4, bạn thiết lập một vai trò cho mô hình với góc nhìn, phong cách đàm thoại, giọng điệu hoặc phương thức tương tác ngay từ lần đầu tiên.

6. GPT-4 khó bị bẻ khóa, vượt rào (jail break)

Với những mô hình ngôn ngữ lớn, người ta trang bị các lớp phòng thủ để ngăn chặn việc sử dụng ngoài ý muốn và gây hại cho con người và xã hội. Trong các phiên bản trước đó, hacker và những kẻ có ý đồ xấu đã sử dụng các kỹ thuật để vượt qua các lớp phòng vệ này (jail break) và yêu cầu ChatGPT hướng dẫn làm bomb, viết mã độc, lừa đảo (phiên bản DAN – Do Anything Now).

GPT-4 đã tăng cường hơn nữa tầng lớp bảo vệ, ví dụ phân biệt các thông báo (message) với các vai trò khác nhau như hệ thống (system, assistant, user) điều mà không có ở phiên bản trước đây hay mới chỉ xuất hiện ở phiên bản GPT-3.5 turbo.

OpenAI mô tả, GPT-3.5 (hỗ trợ ChatGPT) là một “cuộc thử nghiệm” kiến trúc huấn luyện mới và Open AI đã áp dụng các bài học cho phiên bản mới, phiên bản này “ổn định chưa từng có”. Hãng khởi nghiệp về AI dự đoán khả năng của ChatGPT tốt hơn, điều này khiến ít bất ngờ hơn.