基于视觉语言模型的具身智能机器人操作研究
陆 丽 ( 广西产研院人工智能与大数据应用研究所有限公司 )
https://doi.org/10.37155/2717-5170-0805-3Abstract
本文综述了视觉语言模型(VLMs)在具身智能机器人操作中的关键作用,重点阐述了三类核心研究方 法:一是基于VLM的端到端策略学习,直接映射多模态输入到动作输出;二是分层任务分解与符号-神经混合推理, 将高层语义指令逐步转化为可执行子任务;三是基于提示工程与上下文学习,利用VLM的ICL能力,以提示引导避免 参数微调;四是人机协同交互范式,依托VLM实现自然语言引导下的实时干预与反馈。研究表明,VLMs显著提升了 机器人在零样本泛化、跨任务迁移和语义理解方面的能力,然而,当前研究仍面临具身对齐偏差、动作空间离散化、 实时性限制及安全伦理等挑战[1]。
Keywords
具身智能;视觉语言模型;机器人操作;多模态学习;任务规划Full Text
PDFReferences
[1]杜国锋,邵士博,李尚霖,等.融合视觉语言模型与近
端策略优化算法的人形机器人步态切换方法[J].机械工程
学报,2025,61(21):204-212.
[2]刘政鑫.跨维智能:“AI定义机器人”的具身实践
[J].机器人产业,2026,(01):67-71.
[3]孔祥鑫.基于轻量化网络设计的具身智能复合机器
人控制与AI视觉系统研发[J].科学技术创新,2025,(18):203-
206.
端策略优化算法的人形机器人步态切换方法[J].机械工程
学报,2025,61(21):204-212.
[2]刘政鑫.跨维智能:“AI定义机器人”的具身实践
[J].机器人产业,2026,(01):67-71.
[3]孔祥鑫.基于轻量化网络设计的具身智能复合机器
人控制与AI视觉系统研发[J].科学技术创新,2025,(18):203-
206.
Copyright © 2026 陆 丽
Publishing time:2026-05-31
This work is licensed under a Creative Commons Attribution 4.0 International License