阿里通义千问团队推出 Qwen-VLA,正式进入具身 AI 方向。VLA 通常指视觉—语言—动作模型,重点不只是生成文本或图像,而是把视觉理解、语言指令与动作决策连接起来,面向机器人、智能体控制等场景;这与 OpenAI、Anthropic 等以对话和通用推理为主的模型路线不同,也不同于仅做视觉识别的多模态模型。此次素材未披露 Qwen-VLA 的参数规模、训练数据、性能基准、硬件适配或客户落地情况,因此其与同类具身 AI 模型的真实差距仍需看后续测试。该模型可能推动阿里 AI 从云端应用延伸到物理世界,但落地仍受机器人硬件、安全控制和场景泛化能力限制。据Pandaily报道。
来源:Pandaily
原始发布时间:Tue, 02 Jun 2026 01:44:13 GMT