OpenAI hôm 14/5 đã ra mắt phiên bản GPT-4o cho máy tính để bàn, cùng với giao diện người dùng được cập nhật. Đây là nỗ lực mới nhất của công ty nhằm mở rộng việc sử dụng chatbot ChatGPT phổ biến của mình.
Chữ "o" trong GPT-4o là viết tắt của "omni", có nghĩa là "mọi lúc" hoặc "mọi nơi". Mô hình mới này có khả năng xử lý 50 ngôn ngữ khác nhau với tốc độ nhanh hơn và chất lượng tốt hơn nhiều. Khả năng hiểu và tạo ra nội dung dạng văn bản, hình ảnh và giọng nói đều được nâng lên tầm cao mới.
GPT-4o hoàn toàn miễn phí cho tất cả người dùng vì OpenAI đã quyết định mở rộng quyền truy cập công nghệ AI cao cấp cho mọi người thay vì chỉ giới hạn cho khách hàng trả phí như trước. Tuy nhiên, khách hàng trả phí sẽ được sử dụng lượng truy vấn lớn gấp 5 lần so với khách hàng miễn phí, trong khi người dùng trả phí ChatGPT Team và Enterprise sẽ có giới hạn sử dụng lớn hơn nữa.
Các tính năng xử lý văn bản và hình ảnh mới sẽ có mặt trên GPT-4o ngay từ hôm nay. Trong khi khả năng nhận diện và tạo ra nội dung giọng nói sẽ được bổ sung trong thời gian sắp tới.
OpenAI cũng sẽ mở API, cho phép các nhà phát triển xây dựng các ứng dụng từ mô hình GPT-4o này. CEO Sam Altman của OpenAI thừa nhận rằng công ty đã điều chỉnh tầm nhìn của mình. Thay vì tự mình tạo ra các ứng dụng tốt nhất, OpenAI giờ đây chia sẻ API cho các bên thứ ba khai thác và phát triển những sản phẩm đột phá.
Theo chia sẻ của bà Mira Murati, giám đốc công nghệ OpenAI, công ty dự định sẽ cho phép người dùng trò chuyện video với ChatGPT trong tương lai.
"Đây là lần đầu tiên chúng tôi thực sự tiến một bước lớn về mặt dễ sử dụng," bà Murati nói.
Bà cho biết thêm rằng GPT-4o nhanh gấp đôi và có chi phí bằng một nửa so với GPT-4 Turbo.
OpenAI đã được các nhà đầu tư định giá hơn 80 tỉ USD. Công ty, được thành lập vào năm 2015, đang chịu áp lực phải duy trì vị trí dẫn đầu trên thị trường AI tạo sinh. Công ty đã chi một số khổng lồ cho các bộ xử lý và cơ sở hạ tầng để xây dựng và huấn luyện các mô hình AI của mình.
Về tính năng giọng nói, GPT-4o sẽ hoạt động giống như trợ lý ảo Her trong phim điện ảnh nổi tiếng cùng tên. Nó có thể tương tác qua giọng nói, đáp ứng thời gian thực và quan sát môi trường xung quanh.
Chuyên gia Mark Chen của OpenAI cho biết GPT-4o có thể "cảm nhận được cảm xúc của bạn," và nói thêm rằng mô hình cũng có thể xử lý khi người dùng ngắt lời nó. Chatbot này có thể phân tích biểu cảm khuôn mặt của người dùng để nhận xét về cảm xúc mà người đó đang trải qua.
“Chào bạn, có chuyện gì vậy? Làm thế nào tôi có thể làm cho ngày của bạn tươi sáng hơn?” GPT-4o nói khi một người dùng chào nó.
Công ty dự định thử nghiệm Chế độ giọng nói trong vài tuần tới, với quyền truy cập sớm cho những người đăng ký trả phí của ChatGPT Plus, theo một bài đăng trên blog. OpenAI cũng cho biết mô hình mới có thể đáp ứng các yêu cầu âm thanh của người dùng "trong thời gian ngắn chỉ 232 mili giây, so với mức trung bình 320 mili giây, tương tự như thời gian phản hồi của con người trong một cuộc trò chuyện."
Ông Chen đã trình diễn khả năng kể chuyện trước khi đi ngủ của GPT-4o và yêu cầu nó thay đổi giọng điệu để trở nên kịch tính hoặc như robot hơn. Ông thậm chí đã yêu cầu nó hát.
Ngoài ra, mô hình mới của OpenAI có thể hoạt động như một dịch giả, công ty cho biết. GPT-4o có thể nghe 2 người nói 2 ngôn ngữ và dịch sang ngôn ngữ tương ứng của họ khi họ trò chuyện.
OpenAI cũng đã trình diễn khả năng giải các phương trình toán học và viết mã của GPT-4o, gọi nó là một đối thủ mạnh hơn đối với GitHub Copilot của Microsoft.
Đối với OpenAI, đây là một trong những màn ra mắt lớn nhất của công ty kể từ khi trình làng ChatGPT Enterprise vào tháng 8 năm ngoái.
OpenAI, Microsoft và Google đang dẫn đầu cuộc đua AI tạo sinh khi các công ty công nghệ đều chạy đua để tích hợp AI vào các dịch vụ chính để tránh bị tụt lại phía sau đối thủ. Đầu tháng này, đối thủ của OpenAI, công ty Anthropic, đã công bố dịch vụ doanh nghiệp AI đầu tiên và một ứng dụng miễn phí cho iPhone.
Theo thống kê của PitchBook, 29.1 tỉ USD đã được đầu tư vào gần 700 thương vụ AI tạo sinh vào năm 2023, tăng hơn 260% so với năm trước, Thị trường được dự đoán sẽ đạt doanh thu 1 nghìn tỉ USD trong vòng một thập kỷ.
Một số người trong ngành đã bày tỏ lo ngại về tốc độ mà các dịch vụ mới chưa được thử nghiệm đang ra mắt, và các nhà nghiên cứu cũng như nhà đạo đức học lo lắng về xu hướng của công nghệ này trong việc truyền bá thành kiến.
Sau khi ChatGPT ra mắt vào tháng 11 năm 2022, nó đã phá vỡ kỷ lục vào thời điểm đó với tư cách là ứng dụng có lượng cài đặt nhanh nhất trong lịch sử. Hiện ChatGPT có khoảng 100 triệu người dùng hoạt động hàng tuần. OpenAI cho biết hơn 92% công ty thuộc Fortune 500 đang sử dụng nền tảng này.
GPT-4o sẽ được cung cấp cho người dùng ChatGPT Plus và Team vào ngày 15/5, và cho Enterprise vào ngày 16/5. Người dùng miễn phí được sử dụng ngay từ hôm 14/5.