你有没有在路口前被迫急刹,只因为导航还没来得及更新前方的临时施工?
你是否遇到过因地图未及时更新而错过出口、走错匝道、在拥堵中无奈掉头?
你是否在城市绕行时发现前方道路早已改成单向通行,而地图仍显示可以直行?
这些看似偶发的紧张瞬间,其实源于同一个问题:现实道路变化太快,而地图更新却总慢半拍。如今,这一难题正在被一种全新的地图生产能力所改变。百度地图 LD-VLG 端到端多模态地图生成大模型,通过自动理解道路、识别变化并生成最新车道级地图,成为真正意义上的“地图大脑”。
百度地图 LD-VLG 是如何做到让地图实时“保持新鲜”的?本文带你一探究竟!
01 “LD-VLG”是什么
面向高阶智能驾驶与车道级导航,地图数据生产经历了从“规则驱动的分段式 pipeline”到“端到端多模态大模型”的技术变革。LD-VLG(LD Vision-Language Map Generation Model)通过端到端的模型架构,实现了从数据采集到地图更新的全流程自动化。
LD-VLG 以海量的观测数据(图像、BEV、轨迹)和 LD 车道级地图为输入,经过3D 视觉重建前馈网络、多模态对齐融合、地图变化思维链推理、车道级地图更新生成等模型 module,直接输出满足制图规范的车道级矢量地图,大幅提升制图自动化率与更新时效,在丰富的场景下保持稳定泛化。
02 技术演进脉络
1.LD 地图数据生成与更新的核心任务
LD 地图的生成与更新可抽象为三个任务:
地图生成:从多源异构数据(如图像、点云、轨迹、BEV、卫星影像等)中,生成符合车道级精度要求的矢量地图要素,包括车道线、地面箭头等。
地图差分:对比现实世界与现有地图之间的差异,涵盖从道路级(如新增道路、道路封闭)到车道级(如占道施工、标线更新、拓扑关系变动)的各类变化。
地图修改:将地图要素的变化无损地融合到地图数据中,确保几何、拓扑与语义层面的一致性,维持地图数据的完整性、连通性、高精度。
2.技术发展阶段
阶段一|规则驱动
方法:基于 CNN 卷积神经网络与规则算法,实现地图要素的识别、变化检测与融合。
流程:多源数据输入,经过一系列识别模型与规则模块,生成并更新地图。
优势:规则逻辑清晰,问题定位与修复路径明确。
局限:泛化能力差,难以应对多场景规模化的复杂性,存在长尾问题。
阶段二|模型驱动
方法:利用规模化生产数据,将传统规则模块升级为专用深度学习模型,形成“子任务模型化”的解决方案。
基于 Transformer 的矢量生成模型,直接从资料中感知并预测矢量序列;
基于 Transformer 的变化检测模型,直接输出变化差分区域;
引入基于图神经网络的地图融合模型,解决新旧数据的拓扑对齐与冲突融合。
突破:自动化率与处理一致性显著提升。
局限:属于模仿学习范式,依赖高质量标注数据,且模块间信息传递存在损失,导致累积误差,难以实现全局最优。
阶段三|多模态大模型
方法:将生成与变化检测模型整合升级为多模态大模型,能够同时处理图像、BEV、轨迹、点云、卫星影像与地图数据。
地图生成:利用跨模态统一表征直接生成矢量结果;
地图变化:引入大语言模型的推理能力,判别变化并生成决策依据。
突破:增强了跨模态信息融合与场景理解能力。
局限:系统仍是模块化拼接,非端到端;人为定义的模块接口制约了全局优化潜力。
阶段四|端到端生成大模型
方法:构建 LD-VLG 端到端生成大模型,将 LD 地图生产全流程集成于一个端到端的神经网络中进行联合优化。
最终输出:更新后的车道级矢量地图。
过程监督:在训练阶段,通过多任务学习对矢量建图、拓扑构建、场景理解等关键过程任务进行监督,以增强模型收敛的可靠性与内部推理的可解释性。
突破:模型以前向计算完成复杂的地图更新决策,其端到端架构实现了从感知到输出的全局梯度优化。
优势:系统实现了极致的接口收敛,从根本上消除了模块间 loss 传播累积误差;基于统一表征进行多源信息融合与协同推理,做出高一致性、高可靠的自动化更新决策。
03 LD-VLG 模型架构
LD-VLG 端到端生成大模型构建了新一代地图数据生产的统一技术架构,实现从多源感知输入到地图生成的端到端,变革车道级地图数据的生产模式。
模型设计理念:通过 feedforward 3DGS 重建、多模态对齐、地图更新推理决策、结构化矢量地图生成与增量更新的一体化建模,端到端直接输出高质量的车道级地图数据。
V(3d Visual intelligence):基于 feedforward 几何感知模型重建3D 场景,修正低质量采集资料,精准还原现实世界;
L(Language-based CoT):基于结构化的思维链推理,理解车道级道路场景,差分 LD 地图数据的现势性变化;
G(map Generation):基于预训练地图生成模型,生成更新后的 LD 地图数据;
Data Close-Loop:基于舱驾数据闭环,更新迭代地图数据和模型。
04 训练范式
LD-VLG 采用渐进式训练策略,系统性地构建并逐步强化其多模态理解、结构化生成、变化推理与增量更新的综合能力。
1.基座预训练:多模态编码与对齐能力奠基
目标:为模型奠定坚实的多模态理解与矢量化生成基础。
训练策略:
多模态对齐:通过对比学习与重建任务,使图像、矢量、轨迹、点云与地图在统一语义空间中实现对齐与互译。
结构化生成预训练:采用自回归方式,对矢量元素的 Token 化序列进行建模,构建强大的矢量化生成能力基座。
关键能力:预训练模型基座,具备高质量的矢量生成、深度估计与3D 空间感知等通用能力。
2.多任务微调:生成-变化-融合的协同优化
目标:将各分项能力注入统一框架,并对齐到“地图更新”这一终极任务。
训练任务:
变化推理训练:输入观测数据与地图,监督模型输出符合逻辑的变化发现决策 token,构建端到端的推理链条。
结构化生成与融合训练:联合监督矢量生成结果与地图融合指令,使模型学习输出可直接驱动地图更新的、几何与拓扑一致的结构化数据。
关键能力:具备直接输出更新后车道级矢量的核心能力。
3.强化学习与数据飞轮:策略对齐与持续演进
目标:精细化模型的更新决策策略,并建立自我演进的闭环。
训练机制:
多目标奖励模型:围绕几何精度、拓扑正确性、更新必要性与规范符合度构建综合奖励函数,通过强化学习使模型输出贴近专家偏好。
闭环数据飞轮:将线上推理的不确定案例、人工审核反馈等数据持续训练模型,优先用于训练低置信度与长尾场景样本,实现模型的持续优化与能力的稳健爬升。
关键能力:模型能力逐步提升,人工标注持续减少,自动化率超过90%。
05 成果与展望
LD-VLG 作为新一代车道级地图数据更新基座大模型,以3D 视觉重建、多模态融合、思维链推理、地图生成为核心技术路径,创新地将地图生成、地图变化和地图更新进行端到端一体化建模。模型直接输出更新后 LD 矢量地图,同时通过过程监督与一致性约束,确保了输出结果的高可靠性、可解释性与规模化维护能力。结合持续学习的数据飞轮,LD-VLG 为支撑车道级地图的鲜活、高精、高质量提供了坚实的技术基础。自 LD-VLG 部署应用以来,支撑全国360城市车道级数据生成,覆盖全国1300万公里道路,支撑百度地图成为第一家落地全域车道级导航/智驾的地图产品。
■ 落地案例
车道导向箭头:实时更新地面箭头识别易受道路磨损、车辆遮挡等干扰,结合地图数据+多张序列图像,分析地面箭头的构组,判别是否发生变化。
车道级施工:实时发现施工,自动化更新动态图层,牵引 LD 车道级地图全要素更新。
路侧停车场:全国城市全域覆盖,导航到达点可推荐路侧停车位。
窄路:全国城市全域覆盖。