自动驾驶数据集的生成模型之WoVoGen框架原理
2024-03-08 来源:elecfans
1. 写在前面
最近自动驾驶数据集的生成模型很火,主要包括NeRF和扩散模型两类。其中扩散模型的难点在于保持世界范围内的一致性和传感器间的一致性。今天笔者为大家推荐一篇复旦大学最新的开源方案WoVoGen,可以根据车辆控制输入生成街区视频,还可以做场景编辑。
2. 摘要
生成多摄像头的街景视频对于增加自动驾驶数据集至关重要,解决了对广泛而多样的数据的迫切需求。由于多样性的限制和处理光照条件的挑战,传统的基于渲染的方法越来越多的被基于扩散的方法所取代。然而,基于扩散的方法的一个重要挑战是确保生成的传感器数据同时保持世界范围内的一致性和传感器间的一致性。为了解决这些挑战,我们结合了一个额外的显式世界体素,并提出了世界体素感知多摄像头驱动场景生成器( Wovogen )。该系统专门用来利用4D世界体素作为视频生成的基础元素。我们的模型运行在两个不同的阶段:( i )基于车辆控制序列来设想未来的4D时间世界体素,( ii )生成多摄像机视频,由这个设想的4D时间世界体素和传感器互连性知识。4D世界体素的加入使得WoVoGen不仅可以根据车辆控制输入生成高质量的街景视频,而且可以方便场景编辑任务。
3. 效果展示
WoVoGen可以预测周围环境并产生合理的视觉反馈,以响应自车的驾驶操作。为了发挥快速发展的生成模型的能力,WoVoGen将结构化的交通信息编码到一个规则的网格框架中,即世界体素,并设计了一种新的基于潜在扩散的世界模型来自回归地执行世界体素预测。

WoVoGen可以很好得生成具有时间一致性的未来世界体素(前两行)。然后,利用世界模型输出的世界体素感知的2D图像特征,合成同时具有多相机一致性和时间一致性的驾驶视频(最下面两行)。

4. 具体原理是什么?
WoVoGen的总体框架。Top:世界模型分支。作者对AutoencoderKL进行微调,从头开始训练4D扩散模型,根据过去的世界体素和自车动作生成未来世界体素。Bottom:世界体素感知合成分支。利用生成的未来量作为输入,通过世界编码器得到Fw。随后的采样产生Fimg,然后进行聚合。该过程通过应用全景扩散来产生未来的视频来完成。

5. 和其他SOTA方法对比如何?
nuScenes验证集上图像/视频生成质量的定量比较。WoVoGen同时实现了多视角和多帧生成,在所有方法中FID和FVD得分最低。

6. 总结
这篇文章提出了WoVoGen,利用4D世界体素将时间和空间数据结合起来,在保证一致性的同时解决了从多传感器数据创建内容的复杂性。这种两阶段系统不仅可以基于车辆控制产生高质量的视频,还可以实现复杂的场景编辑。
- 智驾定型之战:一文看透自动驾驶“端到端”的底层逻辑与架构演进
- 美光预测:L4 自动驾驶汽车将需超 300GB 内存
- 时间同步如何让自动驾驶感知系统认知统一?
- 美光 CEO:L4 级自动驾驶普及后,一辆车所需的内存将超 300GB
- Arm成立物理AI事业部后,负责人首次亮相中国
- 英伟达自动驾驶三大核心技术升级,拉上车企组建L4联盟
- GTC2026 | 比亚迪、吉利、五十铃和日产采用 NVIDIA DRIVE Hyperion 开发 L4 级自动驾驶汽车
- 自动驾驶又提速了?英伟达在GTC 2026放出一套“全家桶”方案
- 比亚迪、吉利、五十铃和日产采用 NVIDIA DRIVE Hyperion 开发 L4 级自动驾驶汽车
- 加速 L4 级自动驾驶落地:英伟达携手比亚迪、吉利等车企,提升汽车“智商”
- 嵌入式的风向变了:2026纽伦堡嵌入式展透露这些趋势
- 高通确认不在GDC 2026发布新款骁龙G系列掌机处理器SoC
- 阿里达摩院发布玄铁C950,打破全球RISC-V CPU性能纪录
- 行业评论 从工具到平台:如何化解跨架构时代的工程开发和管理难题
- 面向嵌入式部署的神经网络优化:模型压缩深度解析
- Mujoco中添加Apriltag标签并实现相机识别教程
- 摩尔线程MTT S5000全面适配Qwen3.5三款新模型
- 英飞凌与宝马集团携手合作,基于Neue Klasse架构塑造软件定义汽车的未来
- 物理AI仿真新突破:摩尔线程与五一视界共建全栈国产化生态
- 爆火的OpenClaw! 告别云端,米尔RK3576开发板本地部署
- 中国芯片研发重要成果!中科院发布香山、如意系统
- Miniconda环境隔离教程:解决Python版本冲突的完整指南
- Jetson GPU Burn烤机测试与PTX编程详解
- LabelImg安装使用教程:YOLOv12训练数据标注完整指南
- 根据题意,水位上升记为正,下降记为负。汛期水位上升3分米(即0.3米)记作+3分米,此时达到最高水位12.5米,因此基准水位(记作0时的水位)为: 12.5米 - 0.3米 = 12.2米。 汛期过后水位下降4分米(即0.4米),是从最高水位下降,故实际水位为: 12.5米 - 0.4米 = 12.1米。 实际水位相对于基准水位的变化量为: 12.1米 - 12.2米 = -0
- YOLOv12训练实战:train.py常用参数详解
- Altera 与 Arm 深化合作,共筑 AI 数据中心高效可编程新方案
- 莱迪思加入英伟达 Halos生态系统,通过Holoscan传感器桥接技术提升物理人工智能安全性
- 芯科科技闪耀2026嵌入式世界展 以Connected Intelligence赋能,构建边缘智能网联新生态




