李奥林 | 具身导航研究

📝 ICRA 2026 Accepted

ReThinkNav：基于零样本大语言模型的视觉语言导航框架

2025.03 - 2025.09

针对机器人指令遵循不准、易陷入循环的问题，设计基于大模型的任务规划与决策算法。通过 Transformer 路点预测与 VLM 语义理解，将视觉观测转化为文本描述供大模型决策。设计目标导向的思维链推理机制与基于位姿一致性的循环检测方案，引导大模型重规划。

成功率 +21% 路径效率 +10% Chain-of-Thought 循环检测 VLM

📂 GitHub 代码

🦾 Sim2Real 部署

基于 Unitree G1 人形机器人的具身导航 Sim2Real 部署

2025.10 - 2026.03

仿真验证：在 Isaac Sim 高保真仿真环境中，智能体接收多轮自然语言指令（如“穿过客厅前往阳台的花瓶处”、“左转进入卧室停在床前”），通过大模型进行语义理解与路径规划，成功完成多房间长程导航任务。右侧终端实时显示指令解析与系统状态。

真机部署：将开源具身导航模型从 Isaac Sim 仿真环境迁移至 Unitree G1 真机，完成端到端全流程部署。设计端云协同架构，通过 ROS2 订阅 RGB-D 与里程计数据，经 Flask 与服务端模型通信，由 MPC 控制器执行运动指令。开发语音交互模块，支持多轮指令与实时语义中断。

Isaac Sim ROS2 MPC 控制语音交互端云协同

🧭 视觉语言导航

基于多层级语义场景图的机器人视觉语言导航

2026.03 - 至今

面向机器人在复杂室内环境中的自然语言目标导航任务，构建基于多层级语义场景图的视觉语言导航系统。系统从带位姿的 RGB-D 序列中进行语义建图，提取物体、区域与楼层等不同尺度的空间结构，并组织为层次化场景表示。在接收到自然语言指令后，系统先进行粗粒度空间检索，定位可能相关的区域，再结合视觉语言模型进行细粒度目标确认与导航位姿选择，从而将语言目标转化为可执行的机器人导航目标。

该项目完成了从离线语义建图、场景图可视化、自然语言目标查询，到 RViz 中导航目标点显示的完整流程，并进一步接入机器人导航模块，为真实场景下的语言交互式导航和后续在线视觉记忆研究提供基础。

多层级语义场景图视觉语言导航 RGB-D 语义建图 ROS2 / RViz 联调

👋 李奥林

🚀 研究项目

ReThinkNav：基于零样本大语言模型的视觉语言导航框架

基于 Unitree G1 人形机器人的具身导航 Sim2Real 部署

基于多层级语义场景图的机器人视觉语言导航

📝 发表论文

💡 技术栈

具身导航

多模态大模型

仿真与部署

工程能力