Gemini Robotics: Google Ra Mắt Hai Mô Hình AI Mới6 min read

gemini-robotics

Google vừa giới thiệu hai mô hình AI mới, Gemini Robotics và Gemini Robotics-ER, nhằm mục đích điều khiển robot và nâng cao khả năng hiểu biết không gian cho các ứng dụng robotics. Đây là một bước tiến quan trọng trong việc mang trí tuệ nhân tạo (AI) vào thế giới vật lý, giúp robot trở nên thông minh và linh hoạt hơn trong việc thực hiện các nhiệm vụ phức tạp.

Gemini Robotics: Mô hình tổng quát cho robot

Gemini Robotics là một mô hình tổng quát có khả năng giải quyết các nhiệm vụ khéo léo trong nhiều môi trường khác nhau và hỗ trợ các robot khác nhau. Dựa trên nền tảng của Gemini 2.0, mô hình này kết hợp khả năng hiểu biết về ngôn ngữ, hình ảnh và hành động để điều khiển robot trực tiếp. Gemini Robotics có thể thực hiện các động tác mượt mà và phản ứng nhanh chóng để giải quyết các nhiệm vụ thao tác phức tạp, đồng thời có khả năng thích ứng với sự thay đổi của đối tượng và vị trí, xử lý môi trường chưa từng thấy và tuân theo các hướng dẫn đa dạng, mở rộng từ văn bản.

Một số tính năng nổi bật của Gemini Robotics bao gồm:

  • Khả năng tổng quát hóa: Mô hình này có khả năng tổng quát hóa để giải quyết các tình huống mới, ngay cả khi chưa được huấn luyện trước đó. Điều này giúp robot thích ứng với các đối tượng mới, hướng dẫn đa dạng và môi trường không quen thuộc.
  • Tương tác tự nhiên: Gemini Robotics hiểu và phản hồi các lệnh được diễn đạt bằng ngôn ngữ hàng ngày, giúp robot tương tác tự nhiên hơn với con người và môi trường xung quanh.
  • Khéo léo cao: Mô hình này cho phép robot thực hiện các nhiệm vụ đòi hỏi sự khéo léo cao, như gấp giấy origami hay mở nắp chai.

Gemini Robotics-ER: Hiểu biết không gian vượt trội

Gemini Robotics-ER (Embodied Reasoning) là một mô hình ngôn ngữ hình ảnh tiên tiến được thiết kế đặc biệt để nâng cao khả năng hiểu biết không gian cho các ứng dụng robotics. Mô hình này cải thiện đáng kể khả năng phát hiện 3D và chỉ dẫn của Gemini 2.0, kết hợp lý luận không gian với khả năng lập trình của Gemini để tạo ra các chức năng mới theo yêu cầu.

Gemini Robotics-ER có thể:

  • Phát hiện đối tượng: Nhận diện và theo dõi vị trí và kích thước của các đối tượng trong không gian 2D và 3D.
  • Chỉ dẫn: Xác định các đối tượng và các phần tử trong đối tượng để tương tác với chúng.
  • Dự đoán nắm bắt: Tính toán cách nắm bắt đối tượng, điều chỉnh khi cần thiết.
  • Lý luận quỹ đạo: Tạo ra kế hoạch các hành động cần thiết để hoàn thành nhiệm vụ.
  • Tương ứng đa góc nhìn: Lý luận trong không gian 3D và nhận diện đối tượng từ các góc nhìn khác nhau.

Ứng dụng thực tế

humanoid-robot
Photo by Alex Knight on Unsplash

Google DeepMind đang hợp tác với Apptronik để xây dựng thế hệ robot humanoid tiếp theo với sự hỗ trợ của Gemini 2.0. Ngoài ra, các “người thử nghiệm đáng tin cậy” như Agile Robots, Agility Robotics, Boston Dynamics và Enchanted Tools đã được cấp quyền truy cập vào mô hình Gemini Robotics-ER.

Những mô hình này hứa hẹn sẽ thay đổi cách chúng ta tương tác với robot, từ việc sử dụng trong sản xuất, chăm sóc sức khỏe đến hỗ trợ tại nhà. Với khả năng hiểu biết không gian và tương tác tự nhiên, robot sẽ trở nên hữu ích và linh hoạt hơn trong việc thực hiện các nhiệm vụ hàng ngày.

Gemini Robotics và Gemini Robotics-ER đánh dấu một bước tiến lớn trong việc phát triển robot tổng quát, mang lại tiềm năng to lớn cho AI trong thế giới vật lý. Với khả năng tổng quát hóa, tương tác tự nhiên và hiểu biết không gian vượt trội, những mô hình này mở ra cánh cửa cho một tương lai nơi robot có thể hỗ trợ con người một cách thông minh và hiệu quả hơn

Nguồn: Tổng hợp

Tin cùng chuyên mục