ReThinkNav:基于零样本大语言模型的视觉语言导航框架
2025.03 - 2025.09
针对机器人指令遵循不准、易陷入循环的问题,设计基于大模型的任务规划与决策算法。 通过 Transformer 路点预测与 VLM 语义理解,将视觉观测转化为文本描述供大模型决策。 设计目标导向的思维链推理机制与基于位姿一致性的循环检测方案,引导大模型重规划。
🤖 具身智能 · 视觉语言导航 · Sim2Real
武汉大学测绘学院硕士在读,专注于大模型驱动的机器人导航算法研究。 致力于让机器人理解自然语言指令,在复杂环境中自主导航。
从仿真到真机,探索具身智能的边界
2025.03 - 2025.09
针对机器人指令遵循不准、易陷入循环的问题,设计基于大模型的任务规划与决策算法。 通过 Transformer 路点预测与 VLM 语义理解,将视觉观测转化为文本描述供大模型决策。 设计目标导向的思维链推理机制与基于位姿一致性的循环检测方案,引导大模型重规划。
2025.10 - 2026.03
仿真验证:在 Isaac Sim 高保真仿真环境中,智能体接收多轮自然语言指令(如“穿过客厅前往阳台的花瓶处”、“左转进入卧室停在床前”),通过大模型进行语义理解与路径规划,成功完成多房间长程导航任务。右侧终端实时显示指令解析与系统状态。
真机部署:将开源具身导航模型从 Isaac Sim 仿真环境迁移至 Unitree G1 真机,完成端到端全流程部署。设计端云协同架构,通过 ROS2 订阅 RGB-D 与里程计数据,经 Flask 与服务端模型通信,由 MPC 控制器执行运动指令。开发语音交互模块,支持多轮指令与实时语义中断。
2026.03 - 至今
面向机器人在复杂室内环境中的自然语言目标导航任务,构建基于多层级语义场景图的视觉语言导航系统。
系统从带位姿的 RGB-D 序列中进行语义建图,提取物体、区域与楼层等不同尺度的空间结构,并组织为层次化场景表示。
在接收到自然语言指令后,系统先进行粗粒度空间检索,定位可能相关的区域,再结合视觉语言模型进行细粒度目标确认与导航位姿选择,从而将语言目标转化为可执行的机器人导航目标。
该项目完成了从离线语义建图、场景图可视化、自然语言目标查询,到 RViz 中导航目标点显示的完整流程,并进一步接入机器人导航模块,为真实场景下的语言交互式导航和后续在线视觉记忆研究提供基础。
持续探索具身智能前沿
ReThinkNav: Zero-Shot Vision-and-Language Navigation with Open-Source LLMs via Contextual Reasoning and Loop Recovery
以空间智能导航:基于场景图谱的目标驱动导航综述
Commonsense-Guided Object Graph Reasoning with Policy Regularization for Object Goal Navigation
Context-aware graph inference and generative adversarial imitation learning for object-goal navigation in unfamiliar environment
从算法研究到工程落地
熟悉 VLN/ObjectNav 任务设定与评估体系,掌握大模型驱动的导航决策算法
Qwen3 本地部署、CoT 提示工程、Transformer 架构、CLIP 视觉语言对齐
ROS2 通信架构、Habitat-Sim、Isaac Sim、Unitree G1 真机 Sim2Real
Python / PyTorch / Linux 开发环境,具备完整项目开发与开源协作经验