Google DeepMind анонсировала две новые модели искусственного интеллекта, предназначенные для расширения возможностей роботов в реальном мире. Первая, Gemini Robotics, представляет собой модель, объединяющую зрение, язык и действия, что позволяет ей адаптироваться к новым ситуациям, даже если они не входили в её обучающий набор данных. Gemini Robotics основана на Gemini 2.0, последней версии флагманской модели Google. По словам Каролины Парады, старшего директора и главы отдела робототехники в Google DeepMind, эта система сочетает мультимодальное понимание мира с возможностью выполнения физических действий, добавляя новый уровень взаимодействия с окружающей средой.

Разработка включает три ключевых улучшения — обобщение, интерактивность и ловкость. Система Gemini Robotics способна не только адаптироваться к новым сценариям, но и лучше взаимодействовать с людьми и окружающей средой. Она также демонстрирует высокую точность при выполнении сложных физических задач, таких как складывание бумаги или откручивание крышки бутылки. Второй анонсированной моделью стала Gemini Robotics-ER. Это продвинутая система визуально-языкового понимания, которая помогает роботам лучше ориентироваться в сложных и динамичных условиях. Например, при упаковке ланч-бокса робот должен понимать расположение предметов, способы их захвата и размещения. Всё это позволит в будущем создавать более продвинутых роботов, которые могут выполнять сложные задачи.