基于视觉语言模型的具身智能机器人操作研究

陆 丽

doi:https://doi.org/10.37155/2717-5170-0805-3

Home > Current

基于视觉语言模型的具身智能机器人操作研究

陆丽（广西产研院人工智能与大数据应用研究所有限公司）

https://doi.org/10.37155/2717-5170-0805-3

Abstract

本文综述了视觉语言模型（VLMs）在具身智能机器人操作中的关键作用，重点阐述了三类核心研究方法：一是基于VLM的端到端策略学习，直接映射多模态输入到动作输出；二是分层任务分解与符号-神经混合推理，将高层语义指令逐步转化为可执行子任务；三是基于提示工程与上下文学习，利用VLM的ICL能力，以提示引导避免参数微调；四是人机协同交互范式，依托VLM实现自然语言引导下的实时干预与反馈。研究表明，VLMs显著提升了机器人在零样本泛化、跨任务迁移和语义理解方面的能力，然而，当前研究仍面临具身对齐偏差、动作空间离散化、实时性限制及安全伦理等挑战[1]。

Keywords

具身智能；视觉语言模型；机器人操作；多模态学习；任务规划

Full Text

PDF

References

[1]杜国锋,邵士博,李尚霖,等.融合视觉语言模型与近
端策略优化算法的人形机器人步态切换方法[J].机械工程
学报,2025,61(21):204-212.
[2]刘政鑫.跨维智能：“AI定义机器人”的具身实践
[J].机器人产业,2026,(01):67-71.
[3]孔祥鑫.基于轻量化网络设计的具身智能复合机器
人控制与AI视觉系统研发[J].科学技术创新,2025,(18):203-
206.

Publishing time:2026-05-31
This work is licensed under a Creative Commons Attribution 4.0 International License