Toyota tạo đột phá trong phương pháp huấn luyện AI

Hãng Toyota mới đây tuyên bố họ đã tạo ra một bước đột phá lớn, mở ra khái niệm Mô hình hành vi tập thể ở robot.

Các kỹ sư của Toyota, MIT và Columbia Engineering đã cho thấy những kết quả vượt trội từ phương pháp huấn luyện AI mới giúp tăng tốc đáng kể tốc độ mà robot có thể tiếp thu các kỹ năng mới. Đột phá này giống như một “khoảnh khắc ChatGPT” dành cho robot.

Hiện hầu hết các trường hợp sử dụng ban đầu đều thuộc loại danh mục Planet Fitness, chỉ hành động nâng lên và đặt xuống của robot. Điều đó sẽ rất hữu ích cho hoạt động hậu cần trong nhà kho, bốc dỡ xe tải, cũng như di chuyển mọi thứ xung quanh các nhà máy.

Để những khả năng này mở rộng đến mức robot có thể đi vào bất kỳ địa điểm làm việc nào và bắt đầu đảm nhận nhiều nhiệm vụ khác nhau, cần nâng cấp những khả năng của chúng, sao cho robot có thể dựa trên sự hướng dẫn hoặc minh họa của con người để thao tác và bắt chước. Hãng Toyota mới đây tuyên bố họ đã tạo ra một bước đột phá lớn, mở ra khái niệm Mô hình hành vi tập thể ở robot.

huấn luyện AI

Chính sách phổ biến là một khái niệm mà Toyota đã phát triển với sự cộng tác của Columbia Engineering và MIT, nhóm mô tả ý tưởng chung là "một cách mới để tạo ra hành vi của robot bằng cách thể hiện vận động thị giác của robot như một quá trình khuếch tán khử nhiễu có điều kiện”.

Về cơ bản, trong đó các Mô hình ngôn ngữ lớn (LLM) như ChatGPT có khả năng tiếp thu vô tận từ những văn bản của con người để tự tạo ra tác phẩm. Chính sách khuếch tán cho phép các AI robot có thể xem cách con người thực hiện một nhiệm vụ nhất định trong thế giới thực và sau đó về cơ bản tự lập trình để thực hiện nhiệm vụ đó một cách linh hoạt.

Trong khi một số công ty khởi nghiệp đang dạy robot của họ thông qua khả năng ngoại cảm VR – cung cấp cho người vận hành con người chính xác những gì mắt robot có thể nhìn thấy và cho phép họ điều khiển bàn tay và cánh tay của robot để hoàn thành nhiệm vụ – thì cách tiếp cận của Toyota tập trung hơn vào xúc giác. Người vận hành không đeo tai kính VR, nhưng họ nhận được phản hồi xúc giác từ bộ kẹp mềm, linh hoạt của robot thông qua bộ điều khiển bằng tay, cho phép họ cảm nhận được cảm giác của robot khi người điều khiển tiếp xúc với đồ vật.

Sau khi người điều khiển đã chỉ cho rô-bốt cách thực hiện một nhiệm vụ cụ thể, AI của rô-bốt sẽ xây dựng mô hình bên trong của riêng nó, ý thức về thành công và thất bại, sau đó thực hiện và chạy hàng nghìn hàng nghìn giả định, dựa trên mô phỏng dựa trên các mô hình nội bộ của nhiệm vụ, để tập trung vào một tập hợp các kỹ thuật để hoàn thành công việc.

Ben Burchfiel, người có chức danh hài hước là Người quản lý Thao tác, cho biết: “Quá trình này bắt đầu bằng việc giáo viên thể hiện một số kỹ năng nhỏ thông qua hoạt động từ xa”. "Sau đó, Chính sách phổ biến dựa trên AI sẽ học ở chế độ nền trong vài giờ. Để tối ưu nhất, chúng tôi thường dạy rô-bốt vào buổi chiều, để nó học qua đêm và sáng hôm sau bắt đầu thực hiện hành vi mới."

huấn luyện AI

 

Cho đến nay, nhóm đã sử dụng phương pháp này để nhanh chóng huấn luyện các bot thực hiện hơn 60 nhiệm vụ nhỏ, chủ yếu là các công việc trong bếp – mỗi nhiệm vụ tương đối đơn giản đối với người trưởng thành bình thường, nhưng mỗi nhiệm vụ đều yêu cầu robot phải tự tìm ra cách nắm, giữ. và thao tác các loại vật phẩm khác nhau, sử dụng đa dạng các loại công cụ và đồ dùng, như sử dụng một con dao để phết đều lên một lát bánh mì, hoặc dùng thìa để lật chiếc bánh kếp, hoặc gọt vỏ khoai tây,... điều này cũng giống như dạy những đứa trẻ bằng cách cho chúng bắt chước hành vi của chúng ta.

Toyota cho biết họ sẽ kiểm soát hàng trăm nhiệm vụ vào cuối năm nay và đặt mục tiêu đạt hơn 1.000 nhiệm vụ vào cuối năm 2024. Do đó, họ đang phát triển thứ mà họ tin rằng sẽ là Mô hình Hành vi Lớn đầu tiên, hay LBM – một mô hình khuôn khổ mà cuối cùng sẽ mở rộng để trở thành thứ gì đó giống như robot hiện thân giống như với ChatGPT. Điều đó có nghĩa là, một mô hình hoàn toàn do AI tạo ra về cách robot có thể tương tác với thế giới vật chất để đạt được những kết quả nhất định, biểu hiện dưới dạng một lượng dữ liệu khổng lồ.

Russ Tedrake, Phó Giám đốc Nghiên cứu Robot tại Viện Nghiên cứu Toyota, cho biết: “Những nhiệm vụ mà tôi đang theo dõi những robot này thực hiện thật đáng kinh ngạc – ngay cả một năm trước, tôi cũng không thể dự đoán rằng chúng ta đã tiến gần đến mức độ khéo léo đa dạng cỡ này”. . “Điều thú vị về phương pháp mới này là tốc độ và độ tin cậy mà chúng tôi có thể bổ sung các kỹ năng mới. Bởi vì những kỹ năng này hoạt động trực tiếp từ hình ảnh máy ảnh và cảm biến xúc giác, chỉ sử dụng các biểu diễn đã học nên chúng có thể thực hiện tốt ngay cả những nhiệm vụ liên quan đến vật thể, vải và chất lỏng có thể biến dạng - tất cả những điều này theo truyền thống đều cực kỳ khó khăn đối với robot.” 

Hoàng Nguyên (theo newatlas)