👋 李奥林

🤖 具身智能 · 视觉语言导航 · Sim2Real

武汉大学测绘学院硕士在读,专注于大模型驱动的机器人导航算法研究。 致力于让机器人理解自然语言指令,在复杂环境中自主导航。

📧 liaolin@whu.edu.cn 💬 微信 lal_1804 🎓 武汉大学

🚀 研究项目

从仿真到真机,探索具身智能的边界

📝 ICRA 2026 Accepted

ReThinkNav:基于零样本大语言模型的视觉语言导航框架

2025.03 - 2025.09

针对机器人指令遵循不准、易陷入循环的问题,设计基于大模型的任务规划与决策算法。 通过 Transformer 路点预测与 VLM 语义理解,将视觉观测转化为文本描述供大模型决策。 设计目标导向的思维链推理机制与基于位姿一致性的循环检测方案,引导大模型重规划。

成功率 +21% 路径效率 +10% Chain-of-Thought 循环检测 VLM
🦾 Sim2Real 部署

基于 Unitree G1 人形机器人的具身导航 Sim2Real 部署

2025.10 - 2026.03

仿真验证:在 Isaac Sim 高保真仿真环境中,智能体接收多轮自然语言指令(如“穿过客厅前往阳台的花瓶处”、“左转进入卧室停在床前”),通过大模型进行语义理解与路径规划,成功完成多房间长程导航任务。右侧终端实时显示指令解析与系统状态。

真机部署:将开源具身导航模型从 Isaac Sim 仿真环境迁移至 Unitree G1 真机,完成端到端全流程部署。设计端云协同架构,通过 ROS2 订阅 RGB-D 与里程计数据,经 Flask 与服务端模型通信,由 MPC 控制器执行运动指令。开发语音交互模块,支持多轮指令与实时语义中断。

Isaac Sim ROS2 MPC 控制 语音交互 端云协同
🧭 视觉语言导航

基于多层级语义场景图的机器人视觉语言导航

2026.03 - 至今

面向机器人在复杂室内环境中的自然语言目标导航任务,构建基于多层级语义场景图的视觉语言导航系统。 系统从带位姿的 RGB-D 序列中进行语义建图,提取物体、区域与楼层等不同尺度的空间结构,并组织为层次化场景表示。 在接收到自然语言指令后,系统先进行粗粒度空间检索,定位可能相关的区域,再结合视觉语言模型进行细粒度目标确认与导航位姿选择,从而将语言目标转化为可执行的机器人导航目标。

该项目完成了从离线语义建图、场景图可视化、自然语言目标查询,到 RViz 中导航目标点显示的完整流程,并进一步接入机器人导航模块,为真实场景下的语言交互式导航和后续在线视觉记忆研究提供基础。

多层级语义场景图 视觉语言导航 RGB-D 语义建图 ROS2 / RViz 联调

📝 发表论文

持续探索具身智能前沿

ICRA 2026 · 一作

ReThinkNav: Zero-Shot Vision-and-Language Navigation with Open-Source LLMs via Contextual Reasoning and Loop Recovery

武汉大学学报 2025 · 一作

以空间智能导航:基于场景图谱的目标驱动导航综述

ICRA 2026 · 二作

Commonsense-Guided Object Graph Reasoning with Policy Regularization for Object Goal Navigation

IEEE RA-L 2025 · 二作

Context-aware graph inference and generative adversarial imitation learning for object-goal navigation in unfamiliar environment

💡 技术栈

从算法研究到工程落地

🧭

具身导航

熟悉 VLN/ObjectNav 任务设定与评估体系,掌握大模型驱动的导航决策算法

🧠

多模态大模型

Qwen3 本地部署、CoT 提示工程、Transformer 架构、CLIP 视觉语言对齐

🤖

仿真与部署

ROS2 通信架构、Habitat-Sim、Isaac Sim、Unitree G1 真机 Sim2Real

工程能力

Python / PyTorch / Linux 开发环境,具备完整项目开发与开源协作经验