Phần mềm cho phép người không chuyên đào tạo Máy học bằng cử chỉ trực quan

0:00 / 0:00
0:00
  • Nam miền Bắc
  • Nữ miền Bắc
  • Nữ miền Nam
  • Nam miền Nam
VietTimes – Trong quá trình cung cấp dữ liệu đầu vào cho Máy học để xây dựng mô hình, các nhà khoa học Nhật Bản phát triển phần mềm, ghi lại đối tượng và các cử chỉ tay, giúp máy phân biệt giữa đối tượng và nền môi trường.
Trong mỗi video của bộ dữ liệu tùy chỉnh HuTics, bàn tay của người dùng được hiển thị bằng màu xanh lam và đối tượng có màu xanh lá cây, được sử dụng để đào tạo mô hình Máy học. Ảnh © 2022 Yatani và Zhou
Trong mỗi video của bộ dữ liệu tùy chỉnh HuTics, bàn tay của người dùng được hiển thị bằng màu xanh lam và đối tượng có màu xanh lá cây, được sử dụng để đào tạo mô hình Máy học. Ảnh © 2022 Yatani và Zhou

Nhiều hệ thống máy tính mà mọi người tương tác hàng ngày đòi hỏi kiến ​​thức về những khía cạnh nhất định của thế giới thực, hoặc các mô hình để hoạt động. Những hệ thống này phải được đào tạo, thường cần học cách nhận dạng các đối tượng từ dữ liệu video hoặc hình ảnh.

Nguồn dữ liệu này thường chứa các nội dung thừa làm giảm độ chính xác của mô hình. Do đó, các nhà nghiên cứu đưa ra phương pháp kết hợp những cử chỉ tay tự nhiên vào quá trình giảng dạy. Bằng phương pháp này, người dùng có thể dễ dàng dạy máy về các đối tượng hơn và máy cũng có thể học hiệu quả hơn.

Chúng ta đã quen với thuật ngữ Máy học trước đây, nhưng chưa hề quen thuộc với việc dạy máy. Máy học là những gì xảy ra đằng sau hậu trường khi một máy tính sử dụng dữ liệu đầu vào để tạo thành các mô hình hoạt động, sau này được sử dụng để thực hiện những chức năng hữu ích. Nhưng dạy bằng máy là phần ít được khám phá hơn của quy trình, dù liên quan đến cách máy tính lấy dữ liệu đầu vào để bắt đầu học.

Trong trường hợp những hệ thống trực quan, như các hệ thống có thể nhận biết các đối tượng, người dạy cần hiển thị những đối tượng cho máy tính để máy tính có thể tìm hiểu về những đối tượng này.

Nhưng những phương thức thường được thực hiện này có những hạn chế, điều mà các nhà khoa học thuộc Phòng thí nghiệm Hệ thống Thông minh Tương tác của Đại học Tokyo, Nhật Bản tìm cách cải thiện.

Mô hình được tạo ra với sự hỗ trợ của HuTics cho phép LookHere sử dụng cử chỉ và vị trí tay cung cấp thêm ngữ cảnh cho hệ thống lựa chọn và xác định đúng đối tượng, mang màu đỏ. Video: © 2022 Yatani và Zhou

Mô hình được tạo ra với sự hỗ trợ của HuTics cho phép LookHere sử dụng cử chỉ và vị trí tay cung cấp thêm ngữ cảnh cho hệ thống lựa chọn và xác định đúng đối tượng, mang màu đỏ. Ảnh: © 2022 Yatani và Zhou

Nghiên cứu sinh TS Zhongyi Zhou cho biết: “Trong một kịch bản đào tạo dạy máy tương tác đối tượng điển hình, người dạy có thể cầm một đối tượng đến trước camera và quay đối tượng xung quanh các trục khác nhau để máy tính có thể phân tích đối tượng từ mọi góc độ, từ đó xây dựng mô hình”.

"Nhưng máy móc thiếu khả năng phát triển của con người để cô lập các đối tượng khỏi môi trường xung quanh, vì vậy những mô hình máy tạo ra có thể vô tình bao gồm thông tin không cần thiết từ nền của hình ảnh đào tạo.

Tình huống này khiến người dùng phải dành thời gian tinh chỉnh những mô hình mà máy tính tạo ra, một nhiệm vụ kỹ thuật không dễ dàng và tốn thời gian. Chúng tôi nghĩ rằng phải có một phương pháp tốt hơn để thực hiện công tác đào tạo hiệu quả hơn cho cả người dùng và máy tính. Với phần mềm mới, Look Here, tôi tin rằng chúng ta đã tìm ra giải pháp. "

Nghiên cứu sinh TS Zhou, làm việc với GS Koji Yatani, tạo ra LookHere để giải quyết 2 vấn đề cơ bản trong dạy học cho máy: thứ nhất, tăng hiệu quả giảng dạy, nhằm giảm thiểu thời gian của người dùng và kiến ​​thức kỹ thuật cần thiết. Thứ hai, về hiệu quả học tập, đảm bảo dữ liệu học tập tốt hơn cho Máy học để tạo mô hình từ dữ liệu đầu vào thu được.

Nhóm nghiên cứu phát triển LookHere, tích hợp những chú thích đối tượng tại chỗ vào hệ thống Dạy máy tương tác trên tầm nhìn. LookHere khai thác những cử chỉ của người dùng để phân đoạn các đối tượng cần quan tâm trong thời gian thực. Thông tin phân đoạn này được sử dụng bổ sung để đào tạo.

Để đạt được hiệu suất cao của phân đoạn đối tượng này, nhóm nghiên cứu sử dụng tập dữ liệu tùy chỉnh có tên HuTics, bao gồm 2040 video mặt trước về các cử chỉ khéo léo đối với các đối tượng khác nhau của 170 người. Kết quả định lượng của nghiên cứu người dùng của chúng tôi cho thấy rằng, những người tham gia tạo mô hình với phần mềm LookHere nhanh hơn 16,3 lần so với hệ thống Dạy máy tương tác tiêu chuẩn với quy trình chú thích hậu kỳ, đồng thời có độ chính xác cao hơn.

Ví dụ: người dùng có thể chỉ đến hoặc trình bày một đối tượng trước máy ảnh theo cách nhấn mạnh tầm quan trọng của đối tượng so với những yếu tố khác trong cảnh. Đây chính xác là cách mọi người giới thiệu các đối tượng cho nhau. Bằng cách loại bỏ những chi tiết không liên quan nhờ vào hành vi nhấn mạnh thêm vào những gì thực sự quan trọng trong hình ảnh, máy tính thu được dữ liệu đầu vào tốt hơn cho những mô hình của máy.

Ông Zhou nói: “Ý tưởng này khá đơn giản, nhưng thực hiện hóa rất khó khăn. Mọi người đều khác nhau và không có bộ cử chỉ tay tiêu chuẩn nào. Vì vậy, trước hết, chúng tôi thu thập 2.040 video ví dụ của 170 người trình bày vật thể trước camera vào HuTics. Những nội dung này được chú thích để đánh dấu đâu là một phần của vật thể và những phần nào của hình ảnh bàn tay người người giới thiệu.

"LookHere được đào tạo với HuTics và khi so sánh với các phương pháp nhận dạng vật thể khác, có thể xác định tốt hơn những phần nào của hình ảnh nên được sử dụng để xây dựng mô hình của máy.”

Để đảm bảo dễ tiếp cận nhất, người dùng có thể sử dụng điện thoại thông minh, cài đặt Look Here để làm việc, quá trình xử lý thực tế được thực hiện trên các máy chủ từ xa. Chúng tôi cũng đã phát hành mã nguồn và tập dữ liệu của nhóm nghiên cứu để những nhà khoa học khác có thể xây dựng dựa trên cơ sở phần mềm này. "

Chu và Yatani nhận thấy rằng, sử dụng LookHere, máy tính có thể xây dựng mô hình nhanh hơn tới 14 lần so với một số hệ thống đào tạo máy học hiện đang sử dụng. Hiện nay, LookHere đang giải quyết đào tạo Máy học về những đối tượng vật lý và chỉ sử dụng dữ liệu trực quan cho đầu vào.

Nhưng về lý thuyết, khái niệm này có thể được mở rộng để sử dụng các loại dữ liệu đầu vào khác như dữ liệu âm thanh hoặc dữ liệu khoa học.Những mô hình được tạo ra từ các dữ liệu đó cũng sẽ có chất lượng tốt hơn từ những cải tiến tương tự về độ chính xác.

Theo Tech Explore