
Alibaba Cloud представила Qwen-Robot Suite: полный стек для воплощённого ИИКоманда Qwen анонсировала набор из трёх фундаментальных моделей, призванных закрыть главный разрыв в Embodied AI: научить нейросети не просто «понимать» физический мир на уровне текста, но и действовать в нём.Вместо точечных решений Qwen предлагает системный подход, разбитый на три направления:1. Qwen-RobotNav (Навигация) База: Qwen3-VL. Уникальность в том, что одна модель с едиными весами решает сразу 5 классов задач: от следования по маршруту и трекинга целей до автономного вождения. - Особенности: Параметризуемый протокол наблюдения (бюджет токенов, затухание, веса камер). Модель сама адаптирует обработку визуальной памяти под задачу. - Факты: 15,6 млн образцов. В zero-shot режиме робот Unitree Go2 (1 камера, NVIDIA Jetson Thor) уверенно навигирует по незнакомой квартире с инференсом всего 196 мс.2. Qwen-RobotManip (Манипуляции) База: Qwen3.5-4B VL + DiT. Это VLA-модель (Vision-Language-Action), переводящая картинку и текст в моторные команды. - Особенности: 80-мерный фреймворк выравнивания. Он решает проблему несовместимости данных от разных роботов, переводя действия в дельта-позиции системы координат камеры. - Факты: 38 100+ часов открытых данных. Точность 91,4% в LIBERO-Plus, 1-е место в RoboChallenge (+20% к SOTA). Успешно работает на платформах Franka, UR, AgileX ALOHA.3. Qwen-RobotWorld (Предвидение) База: 60-слойный MMDiT + Qwen2.5-VL. Языково-обусловленная видео-модель мира, которая предсказывает, как изменится физическая сцена после действия. - Особенности: Естественный язык как универсальный интерфейс для любого агента (от манипулятора до автопилота). - Факты: Корпус EWK (8,6 млн пар видео-текст, 200+ млн кадров, 500+ категорий действий). Лидер бенчмарков на соответствие физическим законам (EWMBench, DreamGen Bench).Экосистема: - Chat2Robot: браузерное демо для управления роботом через текст. - Qwen-RobotClaw: агентный фреймворк, где VLM использует модели Suite как инструменты.






