(今日)成人游戏18㊙️单机热点发布

首页 >新闻 >社会新闻

登上NeurIPS，Genesis开创无需OCC引导的多模态生成新范式

2025-09-22 18:15:59

来源：

猫眼电影

作者：

章漪

手机查看

　　猫眼电影记者李永壮报道P6F3X2M7T9QJ8L1B4WZR

由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架Genesis。该算法只需基于场景描述和布局（包括车道线和 3D 框），就可以生成逼真的图像和点云视频。

论文题目：Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency论文链接：https://arxiv.org/abs/2506.07497Github 链接：xiaomi-research/genesis

Genesis 采用两阶段架构：第一阶段基于透视图投影的布局和场景描述等条件，利用基于 DiT 的扩散模型学习 3D 变分自编码器编码的环视图特征；第二阶段将第一阶段多视角视频序列转到鸟瞰图的特征空间，并结合场景描述和布局等条件，学习 2D 自编码器编码的点云特征。

为了以结构化语义引导生成过程，本文引入了 DataCrafter (一个基于 VLM 的数据标注模块)，可提供场景级与实例级的信息描述。在 nuScenes 基准数据集上的大量实验表明，Genesis 在视频与激光雷达指标上均达到了当前 SOTA 水平。

本文的主要贡献总结如下：

统一的多模态生成架构。Genesis 采用统一的 pipeline，视频和 LiDAR 分支都在共享相同的条件输入，包括场景描述和布局等，这确保了生成的多模态数据的一致性。为进一步保证点云和图像背景的信息一致性，我们将 RGB 透视图转到鸟瞰图视角下的特征下，并把该特征作为条件输入到基于点云扩散模型中，从而加强两种模态的一致性，该过程无需依赖 occupancy 或体素等中间体。通过 DataCrafter 进行结构化语义信息提取。为了提高语义可控性，本文引入了 DataCrafter，这是一个基于视觉语言模型构建的 caption 数据处理模块。它提取多视图、场景级和实例级描述，这些描述融合到密集的语言引导式先验中。这些 caption 数据为视频和 LiDAR 生成器提供了详细的语义指导，从而产生不仅逼真而且可解释和可控的输出。

引言

在自动驾驶技术向高阶迈进的进程中，构建多样化、高拟真度的驾驶场景数据集，已成为不可或缺的关键环节。合成数据因为其可编辑，易泛化的特点得到了广泛的关注。现有研究虽在视频生成、LiDAR 序列合成领域取得显著进展，但如何实现视觉与几何模态间的深度协同与一致性表达，仍属亟待攻克的前沿课题。

如图 1，当前主流的驾驶场景生成方案，多聚焦于 RGB 视频或 LiDAR 点云的单模态数据生成。这些方法虽极大推动了场景生成技术的发展，却未能充分挖掘多模态融合的协同优势。在处理 RGB 视频与其他传感器数据时，模态间的对齐精度不足，导致生成结果难以满足实际应用需求。许多方法采用基于 BEV 地图或 3D 框的 “布局 - 数据” 单步生成模式，这种依赖粗略空间先验的架构，在捕捉复杂交通动态与精细语义细节时存在天然缺陷。

尽管 UniScene 等研究尝试引入占用网格实现多模态生成，但实际自动驾驶场景中 OCC 标签的获取是非常昂贵的，这严重限制了生成模型在工业界的应用。另外，现有多模态生成方案多依赖粗略标签或通用标题模型提供语义标签，未能有效利用现代视觉语言模型（VLM）的细粒度语义解析能力。这种语义标签的缺失，直接影响生成场景的真实性、可控性，以及时空逻辑的连贯性。

具体工作

DataCrafter 模块

本文提出 DataCrafter, 一个专为多视角自动驾驶视频设计的 Caption 数据生成模块，旨在实现以下两项核心功能：

(1) 训练阶段数据筛选：借助预训练视觉语言模型的图像理解能力，对原始训练片段进行评估，仅筛选高质量片段用于训练。(2) 结构化语义提取：利用视觉语言模型对多视角视频片段提取细粒度语义信息，为多模态生成任务提供丰富的结构化语义条件。

评分体系涵盖三类关键视觉属性：(1) 图像清晰度：如模糊、畸变、脏污等；(2) 结构合理性：如遮挡程度、结构混乱、场景完整性等；(3) 美学特性：如逆光、过暗过亮、曝光异常、色彩偏差等。

视频生成模型

如图 2 中 camera_branch，Genesis 的视频生成模块以 DiT 为骨干，引入 3D-VAE 编码与结构化语义先验，构建出具备时空一致性的生成架构。Camera 分支将场景布局信息与语言描述通过注意力机制深度耦合，使生成的视频不仅具备视觉真实感，更能遵循语义逻辑。

我们发现，目前自动驾驶场景视频生成的疼点在于行人难以清晰地生成，为此，我们创新性地利用 YOLOv8x-Pose 检测行人姿态并投影到各视角，以此增强动态场景的语义表达。

具体实现上，我们首先构建包含车道段和 3D 边界框的结构化场景布局，将其投影到各视角 2D 图像平面形成语义控制图，再通过 Control-DiT 模块的交叉注意力机制在每个去噪时间步融入这些结构化先验，实现对生成过程的引导。

在隐空间编码方面，借助 3D VAE 将多帧 BEV 图压缩为隐空间表示，解码器从去噪词元中重建 BEV 语义。训练目标函数为：

最后，模块集成的语义对齐控制 Transformer 通过控制注意力将语义特征注入扩散块早期阶段，并结合空间自注意力、跨视角注意力和时间注意力机制，全面保障多视角视频生成的时空连贯性与语义保真度。

激光雷达生成模型

如图 2 中 lidar_branch，激光雷达生成模块致力于生成几何精确且时空连贯的点云序列，通过点云自动编码器与时空扩散模块的协同设计，结合跨模态语义条件实现多传感器数据的一致性生成。

如图 4，首先，点云自动编码器将稀疏点云体素化为 BEV 网格，利用 Swin Transformer 骨干网络压缩为隐空间特征，再通过 Swin 解码器与 NeRF 渲染模块重建点云，过程中采用空间跳跃算法减少空网格误差，并通过深度 L1 损失、占用损失和表面正则化损失优化训练，同时引入后处理过滤噪声点。

时空扩散模块以自动编码器的隐空间特征为基础，采用双 DiT 网络结合 ControlNet 架构，集成场景描述、道路图等语义条件，以及 3D 边界框几何条件；为保证跨模态一致，通过 LSS 算法将视频分支的 RGB 图像转为 BEV 特征，与道路图特征拼接后输入 ControlNet。扩散过程中，隐空间词元通过交叉注意力融合语义与几何嵌入，交叉注意力操作的公式为：

实验结果

视频生成结果

在无首帧条件设定下，本文的方法实现了 83.10 的多帧 FVD 和 14.90 的多帧 FID，优于 DriveDreamer-2 等先前的工作。在有首帧条件设定下，本文的方法进一步提升至 16.95 的 FVD 和 4.24 的 FID，与 MiLA 相比展现出具有竞争力的结果，同时保持了时间一致性和结构保真度。在有噪声隐空间设定下，在 6019 个样本上实现了 67.87 的 FVD 和 6.45 的 FID，超过了 UniScene 报告的先前最佳结果。

LiDAR 生成结果

表 2 展现了先前最先进的方法与本文提出的 Genesis 框架在激光雷达序列生成性能方面的定量比较。评估标准遵循 HERMES 的设定进行，在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空间范围内，使用 Chamfer distance 作为主要指标。在短期和长期预测方面，Genesis 始终优于现有方法。在预测时长为 1 秒时，它的 Chamfer distance 达到 0.611，比之前的最佳值（HERMES 的 0.78）高出 21%。在预测时长为 3 秒时，优势扩大到相对减少 45%（从 1.17 降至 0.633）。

下游任务实验

本文的方法在多个下游感知任务上评估了生成数据的效用。如表 5 所示，本文的方法在 BEVFormer 3D 目标检测中取得了最佳的平均交并比（38.01）和平均精度均值（27.90）。如表 6 所示，本文评估了生成数据在 BEVFusion 3D 目标检测框架上的有效性。在所有设置中，本文的方法都取得了一致的改进，mAP 从 66.87 提高到 67.78，NDS 从 69.65 提高到 71.13。摄像头和激光雷达模态的联合生成实现了的最高增益（+0.91 mAP / +1.48 NDS），证明了多模态生成的互补优势。

??时事1：二女一杯的食屎原视频在哪里看

??09月22日,八旬老人被噎倒地浙江嘉兴老板娘“教科书级”施救,

　　尊敬的各位领导，房地产业各位同仁，现场的各位朋友们：

,偷玩男生大jiji㊙️免费网站。

??09月22日,最大仿古福船“福宁”号在马来西亚马六甲交流上海环球马术冠军赛落幕观众与骑手感受“人马一心”,　　据新华社报道，2018年6月，在中国福利会成立80周年之际，中共中央总书记、国家主席、中央军委主席新万博体育：发来贺信，代表中共中央，并以他个人的名义，表示热烈的祝贺。,体育生自慰喷浆Gay学长小说,少萝吃大狙,18禁🈲🈲流浆❌❌水动漫。

??时事2：男生露jiji受虐30分钟

??09月22日,羽绒服价格上涨消费者不买账企业如何赢得市场,

　　一路上说着笑着，不一会儿，就走到了植树的果园。一位农民伯伯正在那里笑盈盈的迎接我们呢。

,中国美女无遮挡㊙️视频,国漫3dmax成品资源,免费无遮挡视频网站17c。

??09月22日,习近平给中国科学院院士、清华大学教授姚期智回信,

　　8、设备管理、定置管理和安全文明生产稳步推进。20年在重新完善设备管理、定置管理和安全文明生产实施细则的基础上，大力推行设备管理和6S管理，使公司的基础管理向规范化、标准化迈进。

,扒下初音的乳罩和内裤亲吻,17c-起草,全透明无裆内衣图片。

??时事3：2024年内谢中国老婆

??09月22日,当过兵创过业这位90后村支书接过乡村振兴“接力棒”,

　　“我要看下去，要知道结果。”小不点攥紧拳头，虽然知道那是早已发生过的事情，但心中仍旧很紧张。

,欲梦直播奶头走光视频,男人和女人猛交XXXX免费,女闺蜜掀开奶罩露出乳头让我吸。

??09月22日,我科学家克隆出抗大豆锈病基因,

　　穿山甲冲来，与小不点激战，它身大力猛，拥有极尽力量，每一次拍落下金色的爪子，都气息猛烈，都足以将一座小山给震裂。

,只有XX才能变聪明芭华第三集,91偷拍老师更衣裸体㊙️,歪歪漫画在线观看入口。

??时事4：成人软件免费下载

??09月22日,巴基斯坦“读懂中国”论坛理事长：全世界都在用“中国制造”,　　李鹏新严重违反党的政治纪律、组织纪律、廉洁纪律和生活纪律，构成严重职务违法并涉嫌受贿犯罪，且在党的十八大后不收敛、不收手，性质严重，影响恶劣，应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定，经中央纪委常委会会议研究并报中共中央批准，决定给予李鹏新开除党籍处分；由国家监委给予其开除公职处分；收缴其违纪违法所得；将其涉嫌犯罪问题移送检察机关依法审查起诉，所涉财物一并移送。,男生取精㊙️视频,寸止挑战㊙️入口,91娇喘❌❌⭕⭕白丝少林寺。

??09月22日,以制度型开放拓展发展空间（来自新时代改革开放一线·现场评论）,

　　这数日间，倒是有不少强者进军山脉深处，想了解究竟是什么圣物竟惹得太古遗种争斗了两年还不肯离去。

,女被c黄扒衣服本子,日韩欧美zzzooo,美女搂着小奶头❌❌❌视频。

【舞台剧《遗失的第24个白键》讲鹭岛故事力助两岸交流】

【【东西问·中外对话】丘索维金娜：中国举办奥运会可靠、有序，这对运动员很重要】

责编：乌塔

审核：洛兰

责编：卡普埃