OpenAI phát hành phần mềm Point-E trên cơ sở Trí tuệ nhân tạo, tạo mô hình 3D bằng văn bản

27/12/2022 10:37

VietTimes – Một nhóm nghiên cứu thuộc OpenAI tại San Francisco công bố phát triển hệ thống Máy học, tạo mô hình 3D từ văn bản với tốc độ cao. Nhóm kỹ sư đã xuất bản một bài báo mô tả hệ thống này, được gọi là Point-E.

Các mô hình 3D được tạo dựng từ OpenAI. Ảnh OpenAI.

OpenAI đã phát hành phần mềm mã nguồn mở Point-E, một hệ thống Máy học tạo đối tượng 3D với lời nhắc văn bản. Theo một bài báo được xuất bản cùng mã nguồn trên trang trên arXiv, Point-E có thể tạo các mô hình 3D trong một đến hai phút trên bộ xử lý đồ họa (GPU) Nvidia V100.

Point-E không tạo đối tượng 3D theo phương thức truyền thống. Thay vào đó, phần mềm tạo ra các đám mây điểm hoặc tập hợp các điểm dữ liệu riêng biệt trong không gian đại diện cho hình dạng 3D, do đó có tên viết tắt táo bạo Point –E. (Chữ “E” trong Point-E là viết tắt của “hiệu quả”) do có tốc độ cao hơn các phương pháp tạo đối tượng 3D hiện nay. Những đám mây điểm dễ tổng hợp hơn từ quan điểm tính toán, nhưng những điểm phi vector không hình thành được cấu trúc chi tiết của đối tượng, hình dạng hoặc kết cấu, một hạn chế chính của Point-E.

Point -E chuyển đổi từ nhắc văn bản thành các mô hình 3D. Ảnh OpenAI

Để giải quyết hạn chế này, nhóm Point-E đào tạo một hệ thống AI bổ sung, chuyển đổi các đám mây điểm của Point-E thành dạng lưới tam giác bao gồm tập hợp các đỉnh, cạnh và mặt, thường được sử dụng trong thiết kế và mô hình 3D. Nhưng nhóm nghiên cứu lưu ý trong bài báo, mô hình đôi khi có thể bỏ sót một số phần nhất định của đối tượng, khiến đối tượng có dạng khối hoặc méo mó.

Ngoài mô hình tạo lưới độc lập, Point-E bao gồm hai mô hình AI: Mô hình chuyển văn bản thành hình ảnh và Mô hình chuyển hình ảnh thành 3D. Mô hình chuyển văn bản thành hình ảnh, tương tự như các hệ thống AI nghệ thuật tổng quát như DALL-E 2 và Stable Diffusion của OpenAI, được đào tạo trên những hình ảnh dán nhãn để AI hiểu mối liên hệ giữa từ ngữ và khái niệm hình ảnh. Mô hình chuyển hình ảnh sang 3D được cung cấp một tập hợp những hình ảnh, liên kết với các đối tượng 3D để Máy học cách dịch hiệu quả giữa ảnh và đối tượng.

Khi đưa ra lời nhắc văn bản — ví dụ: “một bánh răng có thể in 3D, một bánh răng đơn có đường kính 3 inch và dày nửa inch” — Mô hình chuyển văn bản thành hình ảnh của Point-E, tạo ra một đối tượng kết xuất tổng hợp, đối tượng này được chuyển vào mô hình 3D, tạo ra một đám mây các điểm.

Các nhà nghiên cứu OpenAI cho biết, sau khi đào tạo những mô hình trên tập dữ liệu gồm “vài triệu” đối tượng 3D và siêu dữ liệu liên quan, Point-E có thể tạo ra các đám mây điểm màu khớp với những lời nhắc văn bản. Đối tượng 3D không hoàn hảo — Mô hình chuyển hình ảnh sang 3D của Point-E đôi khi không hiểu được hình ảnh từ mô hình chuyển văn bản sang hình ảnh, dẫn đến hình dạng không khớp với lời nhắc văn bản. Nhưng Point-E tạo đối tượng 3D có tốc độ nhanh hơn so với các phần mềm truyền thống.

Chuyển đổi các đám mây điểm Point-E thành các mắt lưới. Ảnh OpenAI

Trong bài báo khoa học, nhóm nghiên cứu viết: “Mặc dù phương pháp của chúng tôi thực hiện theo đánh giá chung kém hơn nhiều so với những kỹ thuật hiện đại, nhưng mô hình tạo ra các mẫu trong một khoảng thời gian rất ngắn. Đặc điểm này khiến công nghệ có thể trở nên thiết thực hơn đối với một số ứng dụng nhất định hoặc cho phép khám phá vật thể 3D với chất lượng cao.”

Các nhà nghiên cứu OpenAI cho rằng, những đám mây điểm Point-E có thể được sử dụng để chế tạo các vật thể trong thế giới thực, sử dụng công nghệ in 3D. Với mô hình chuyển đổi từ dạng đám mây điểm dạng lưới bổ sung, hệ thống có thể, khi được học sâu hơn nữa có thể tìm được ứng dụng trong phát triển trò chơi tùy chỉnh và hoạt hình 3D do người dùng sáng tạo.

OpenAI là công ty mới nhất tham gia vào cuộc cạnh tranh tạo đối tượng 3D, nhưng không phải là công ty đầu tiên. Đầu năm 2022, Google phát hành DreamFusion, phiên bản mở rộng của Dream Fields, một hệ thống 3D chung mà công ty ra mắt vào năm 2021. Mạnh hơn Dream Fields, DreamFusion không yêu cầu đào tạo trước, nghĩa là mô hình có thể tạo ra các đối tượng 3D từ một bức ảnh mà không cần dữ liệu 3D.

Mặc dù hiện nay tất cả đang tập trung sự quan tâm và lo lắng vào các trình tạo nghệ thuật 2D, nhưng AI tổng hợp mô hình có thể là phần mềm gây rối lớn tiếp theo trong lĩnh vực Trí tuệ Nhân tạo. Mô hình 3D được sử dụng rộng rãi trong phim và TV, thiết kế nội thất, kiến trúc và các lĩnh vực khoa học khác nhau. Đặc biệt, các công ty kiến trúc thường xuyên sử dụng mô hình 3D để trình diễn các tòa nhà và cảnh quan được đề xuất, các kỹ sư cũng sử dụng những mô hình 3D để thiết kế các trang thiết bị, phương tiện và cấu trúc mới.

Các trường hợp lỗi của Point-E. Ảnh OpenAI

Thường phải mất nhiều thời gian để sản xuất (đồ họa) các mô hình 3D, khoảng từ vài giờ đến vài ngày. Trong tương lai, Point-E có thể thay đổi điều đó nếu trong quá trình đào tạo AI, giải quyết những thách thức khác nhau giữa mô hình đồ họa và tạo mô hình từ văn bản nhắc. Đạt được điều này, OpenAI có thể sẽ có một nguồn doanh thu không nhỏ.

Nhưng Point-E cũng đặt ra vấn đề tranh chấp sở hữu trí tuệ. Có một thị trường rộng lớn cho các mô hình 3D, một số thị trường trực tuyến như CGStudio và CreativeMarket, cho phép các nhà đồ họa bán các sản phẩm đã tạo ra. Trong tương lai gần, Point-E có thể nhanh chóng bắt kịp và các mô hình 3D xuất hiện trên thị trường, điều đó sẽ dẫn đến tranh chấp bản quyền do AI tổng quát hiện đại, như phần mềm Point-E sẽ sử dụng rất nhiều hình ảnh từ dữ liệu đào tạo, những mô hình 3D hiện có. Tương tự như DALL-E 2, Point-E không ghi nguồn gốc của bất kỳ nhà sáng tạo nào, đã ảnh hưởng đến những đối tượng 3D được tạo ra.

Nhóm nghiên cứu giới thiệu hệ thống Point-E với quyền truy cập mở, người dùng muốn làm việc với phần mềm có thể truy cập mã trên trang GitHub. Các kỹ sư OpenAI thận trọng mô tả, Point-E là “điểm khởi đầu” sẽ truyền cảm hứng cho “những nghiên cứu và phát triển tiếp theo” của cộng đồng trong lĩnh vực tổng hợp văn bản thành 3D.

Theo Tech Crunch