2025-09-23 20:37:42 9,592次浏览

由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架Genesis。该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。

论文题目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency论文链接:https://arxiv.org/abs/2506.07497Github 链接:xiaomi-research/genesis

Genesis 采用两阶段架构:第一阶段基于透视图投影的布局和场景描述等条件,利用基于 DiT 的扩散模型学习 3D 变分自编码器编码的环视图特征; 第二阶段将第一阶段多视角视频序列转到鸟瞰图的特征空间,并结合场景描述和布局等条件,学习 2D 自编码器编码的点云特征。

为了以结构化语义引导生成过程,本文引入了 DataCrafter (一个基于 VLM 的数据标注模块),可提供场景级与实例级的信息描述。在 nuScenes 基准数据集上的大量实验表明,Genesis 在视频与激光雷达指标上均达到了当前 SOTA 水平。

本文的主要贡献总结如下:

统一的多模态生成架构。Genesis 采用统一的 pipeline,视频和 LiDAR 分支都在共享相同的条件输入,包括场景描述和布局等,这确保了生成的多模态数据的一致性。为进一步保证点云和图像背景的信息一致性,我们将 RGB 透视图转到鸟瞰图视角下的特征下,并把该特征作为条件输入到基于点云扩散模型中,从而加强两种模态的一致性,该过程无需依赖 occupancy 或体素等中间体。通过 DataCrafter 进行结构化语义信息提取。为了提高语义可控性,本文引入了 DataCrafter,这是一个基于视觉语言模型构建的 caption 数据处理模块。它提取多视图、场景级和实例级描述,这些描述融合到密集的语言引导式先验中。这些 caption 数据为视频和 LiDAR 生成器提供了详细的语义指导,从而产生不仅逼真而且可解释和可控的输出。

引言

在自动驾驶技术向高阶迈进的进程中,构建多样化、高拟真度的驾驶场景数据集,已成为不可或缺的关键环节。合成数据因为其可编辑,易泛化的特点得到了广泛的关注。现有研究虽在视频生成、LiDAR 序列合成领域取得显著进展,但如何实现视觉与几何模态间的深度协同与一致性表达,仍属亟待攻克的前沿课题。

如图 1,当前主流的驾驶场景生成方案,多聚焦于 RGB 视频或 LiDAR 点云的单模态数据生成。这些方法虽极大推动了场景生成技术的发展,却未能充分挖掘多模态融合的协同优势。在处理 RGB 视频与其他传感器数据时,模态间的对齐精度不足,导致生成结果难以满足实际应用需求。许多方法采用基于 BEV 地图或 3D 框的 “布局 - 数据” 单步生成模式,这种依赖粗略空间先验的架构,在捕捉复杂交通动态与精细语义细节时存在天然缺陷。

尽管 UniScene 等研究尝试引入占用网格实现多模态生成,但实际自动驾驶场景中 OCC 标签的获取是非常昂贵的,这严重限制了生成模型在工业界的应用。另外,现有多模态生成方案多依赖粗略标签或通用标题模型提供语义标签,未能有效利用现代视觉语言模型(VLM)的细粒度语义解析能力。这种语义标签的缺失,直接影响生成场景的真实性、可控性,以及时空逻辑的连贯性。

具体工作

DataCrafter 模块

本文提出 DataCrafter, 一个专为多视角自动驾驶视频设计的 Caption 数据生成模块,旨在实现以下两项核心功能:

(1) 训练阶段数据筛选:借助预训练视觉语言模型的图像理解能力,对原始训练片段进行评估,仅筛选高质量片段用于训练。(2) 结构化语义提取:利用视觉语言模型对多视角视频片段提取细粒度语义信息,为多模态生成任务提供丰富的结构化语义条件。

评分体系涵盖三类关键视觉属性:(1) 图像清晰度:如模糊、畸变、脏污等;(2) 结构合理性:如遮挡程度、结构混乱、场景完整性等;(3) 美学特性:如逆光、过暗过亮、曝光异常、色彩偏差等。

视频生成模型

如图 2 中 camera_branch,Genesis 的视频生成模块以 DiT 为骨干,引入 3D-VAE 编码与结构化语义先验,构建出具备时空一致性的生成架构。Camera 分支将场景布局信息与语言描述通过注意力机制深度耦合,使生成的视频不仅具备视觉真实感,更能遵循语义逻辑。

我们发现,目前自动驾驶场景视频生成的疼点在于行人难以清晰地生成,为此,我们创新性地利用 YOLOv8x-Pose 检测行人姿态并投影到各视角,以此增强动态场景的语义表达。

具体实现上,我们首先构建包含车道段和 3D 边界框的结构化场景布局,将其投影到各视角 2D 图像平面形成语义控制图,再通过 Control-DiT 模块的交叉注意力机制在每个去噪时间步融入这些结构化先验,实现对生成过程的引导。

在隐空间编码方面,借助 3D VAE 将多帧 BEV 图压缩为隐空间表示,解码器从去噪词元中重建 BEV 语义。训练目标函数为:

最后,模块集成的语义对齐控制 Transformer 通过控制注意力将语义特征注入扩散块早期阶段,并结合空间自注意力、跨视角注意力和时间注意力机制,全面保障多视角视频生成的时空连贯性与语义保真度。

激光雷达生成模型

如图 2 中 lidar_branch,激光雷达生成模块致力于生成几何精确且时空连贯的点云序列,通过点云自动编码器与时空扩散模块的协同设计,结合跨模态语义条件实现多传感器数据的一致性生成。

如图 4,首先,点云自动编码器将稀疏点云体素化为 BEV 网格,利用 Swin Transformer 骨干网络压缩为隐空间特征,再通过 Swin 解码器与 NeRF 渲染模块重建点云,过程中采用空间跳跃算法减少空网格误差,并通过深度 L1 损失、占用损失和表面正则化损失优化训练,同时引入后处理过滤噪声点。

时空扩散模块以自动编码器的隐空间特征为基础,采用双 DiT 网络结合 ControlNet 架构,集成场景描述、道路图等语义条件,以及 3D 边界框几何条件;为保证跨模态一致,通过 LSS 算法将视频分支的 RGB 图像转为 BEV 特征,与道路图特征拼接后输入 ControlNet。扩散过程中,隐空间词元通过交叉注意力融合语义与几何嵌入,交叉注意力操作的公式为:

实验结果

视频生成结果

在无首帧条件设定下,本文的方法实现了 83.10 的多帧 FVD 和 14.90 的多帧 FID,优于 DriveDreamer-2 等先前的工作。在有首帧条件设定下,本文的方法进一步提升至 16.95 的 FVD 和 4.24 的 FID,与 MiLA 相比展现出具有竞争力的结果,同时保持了时间一致性和结构保真度。在有噪声隐空间设定下,在 6019 个样本上实现了 67.87 的 FVD 和 6.45 的 FID,超过了 UniScene 报告的先前最佳结果。

LiDAR 生成结果

表 2 展现了先前最先进的方法与本文提出的 Genesis 框架在激光雷达序列生成性能方面的定量比较。评估标准遵循 HERMES 的设定进行,在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空间范围内,使用 Chamfer distance 作为主要指标。在短期和长期预测方面,Genesis 始终优于现有方法。在预测时长为 1 秒时,它的 Chamfer distance 达到 0.611,比之前的最佳值(HERMES 的 0.78)高出 21%。在预测时长为 3 秒时,优势扩大到相对减少 45%(从 1.17 降至 0.633)。

下游任务实验

本文的方法在多个下游感知任务上评估了生成数据的效用。如表 5 所示,本文的方法在 BEVFormer 3D 目标检测中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文评估了生成数据在 BEVFusion 3D 目标检测框架上的有效性。在所有设置中,本文的方法都取得了一致的改进,mAP 从 66.87 提高到 67.78,NDS 从 69.65 提高到 71.13。摄像头和激光雷达模态的联合生成实现了的最高增益(+0.91 mAP / +1.48 NDS),证明了多模态生成的互补优势。

"90日本X🏃🏾‍♂‍➡️X🧑🏽‍🍳XXXXXXX72"专业点评_新万博体育

新万博体育

图片 登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式
登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式

登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式

「统计」P6F3X2M7T9QJ8L1B4WZR

971.11MB
版本V3.3.26
下载调教打屁股惩罚(SP)视频安装你想要的应用 更方便 更快捷 发现新万博体育:
喜欢 95%好评(23499人)
评论 19
登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式截图0 登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式截图1 登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式截图2 登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式截图3 登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式截图4
详细信息
  • 软件大小: 95815.75863MB
  • 最后更新: 2025-09-23 20:37:42
  • 最新版本: V3.72166.4
  • 文件格式: apk
  • 应用分类:ios-Android 被躁B多人❌❌❌❌在线观看
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 7.32991以上
应用介绍
一,白丝jK水手服掀裙脱内内视频,女性向男帅纯爱❌片
二,体育生自慰喷浆Gay学长小说,温迪被扒开双腿疯狂输入小说
三,中国男同志小蓝免费🆓,国产➕黄➕无码➕瑜伽pp
四,甘雨疯狂揉❌难受,日本色情肛门交
五,美女隐私㊙黄WWW网站图片,免费观看片的app下载
六,军婚H圆房~H嗯啊1V2电影,仆人阿蕾奇诺失去尊严的图片大全,玖辛奈脱了内裤撅起来屁股被打
七,免费看黄禁片MC珍妮
【联系我们】
客服热线:134-2881-646
加载新万博体育:
版本更新
V5.3.60
紫悦被主人扒开腿狂躁漫画
  • 杨钰莹被黑人无套内谢

    旅游换伴王雪梅的闺蜜是谁

    无尽❌裸体❌触手❌

    75354.53MB
    105好评

    春露0930美臀裤

  • 男女裸交姿势动图

    操少女av在线直播

    青少年汇编

    55561.70MB
    536869好评

    把腿扒开臊烂你就不疼了

  • 被触手侵犯高潮3D无码动漫

    苍井空被躁45分钟无码流出

    熊出没纳雅去布料

    13.46MB
    312好评

    Y丫aSS明泬PicS大全

  • 巨胸爆乳动漫下载

    泄密偷拍妇产科视频

    女女你奶牛奶牛 女人愛你

    53.74MB
    276好评

    91在线无码精品㊙️一姬入口

  • 绝区零艾莲被扒开裆部

    扒开千仞雪❌狂揉❌难受

    视频成人app❤色多多

    71.17MB
    708好评

    谷歌老司机版(海外版)apk

  • 掀起衣服揉她的奶头动漫图片

    XXXX💋❤👙👙241

    军警Gay呻吟XXX

    83.37MB
    334好评

    女自慰被❌❌喷水免费看

  • Z〇Z○女人另类Z〇Zo挤奶

    动漫美女被🌿

    亚洲GAY无套✅小鲜肉

    23.49MB
    107好评

    亚洲 日韩 中文字幕 无码

  • 少年骇客同人漫画小班小玫

    星野鱼哥在线完整版免费观看

    爆乳の姉动漫在线观看

    50.17MB
    926好评

    装睡被陌生人揉到高潮

  • 小南被鸣人骗到房间里生孩子的

    唐舞桐被❌吸乳脱内内微博小说

    91PORN永久地址

    83.11MB
    565好评

    ⅩNXⅩ69老师HD

  • 老师两腿间乳液自慰羞羞

    碧蓝档案污图无码本子

    小苮H性8电台免费

    83.36MB
    753好评

    爆c18🈲开襟乳液狂飙游戏

  • 陆雪琪摇臀呻吟求欢

    ▉丝瓜视频▉在线导航

    无尽讨得到向上动漫

    24.72MB
    3302好评

    51成人精品午夜福利Av免费七

  • 在飞机上和空少做h

    偷拍女厕美女拉屎秘

    18欧美Gay男男1069少年

    95.60MB
    372好评

    12裸体㊙️无遮挡奶

  • 江楠楠裸乳被爆❌白浆的小说

    拔出来~啊你tm别㖭了软件

    爽好大快深点高H杰克奈布

    65.48MB
    745好评

    王丽丁爆乳中文在线

  • 被消防员c哭高H野外糙汉动漫

    女女百合舌伸腿间湿润动漫

    儿子强妍母亲并内射体内

    54.95MB
    758好评

    绳精病|vK

  • 王心凌裸被❌高清网站

    动漫爆乳3d火影

    西施爆乳18禁动漫视频

    57.44MB
    684好评

    客厅ying乱亲女h小婷yin视频

  • 打美女白嫩㊙️屁屁

    白丝校花🌸

    美女的下部㊙️动漫

    24.85MB
    352好评

    按摩做爰A片在线观看

  • 校花穿白丝夹得我好爽视频

    18禁成人🍆🍑🔞男男

    西施裸体被❌羞羞

    13.45MB
    314好评

    永久成人㊙️免费网游戏

  • futa动漫女同3D同人

    初音未来被❌吸乳羞羞动漫

    男生撕女生👙小说

    84.44MB
    215好评

    清冷师尊受露着屁股夹玉势

  • 莱欧斯利本本E站2024

    日本少妇无奶罩潮喷A片

    银狼和布洛妮娅是一个人吗

    45.48MB
    737好评

    原神心海裸身❌羞羞

  • 鸣人❌玖辛奈同人羞羞漫画

    扒开柯莱塔疯狂揉❌难受3d

    长瀞同学同人H

    10.69MB
    184好评

    欧美大荫蒂AV高潮网站

  • 学生❌❌爽翻了

    日本❌❌❌❌❌色情21

    群交爆乳派对

    44.86MB
    369好评

    姬小满污h涩爽文

  • 老妇女擦他毛耸耸隂户

    二次元美女㊙️无遮挡胸视频

    苹果商店伪装的黄油

    91.32MB
    206好评

    三年片免费观看大全国语2第二季

  • 奇优影院高清免费

    美女直播全婐app免费真人

    欧美人妻9l❤️丨白浆

    30.57MB
    901好评

    男男性H❤动漫同人粗大怪物

  • 男人的🍌伸到🍑里亲真人

    用力别停受不了动态图

    Gay Fuck Gay Fucking China

    30.34MB
    545好评

    女学生光屁股㊙️网站

  • 男女晚上做❌❌❌❌

    动漫美女被❌爆乳白丝网站

    向日葵被狂揉下部❌羞羞

    29.97MB
    123好评

    俄罗斯美女做爰XXXⅹ性视频

  • 桥本香菜vlog最新版本更新内容

    BRAZZERS高潮十八次

    18x男主播by

    70.35MB
    452好评

    动漫被c到爽🔞巨乳动漫

  • 动漫❌❌爆乳❌❌3D扶她XXXX45🍆🍆🍆HD title="龟速流伽罗" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    yy6080❤论

    高清码🔞❌♋裸身网站

  • 18禁女人自慰男女c🔞黄㊙️❌网站一起草 title="少妇w搡BBB搡BBB出血" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    福利姬51吃瓜爆料黑料

    小🐤🐤入🍑🍑蘑菇视频

  • 男生撕开👙👙暍奶动漫玖辛奈裸体被❌羞羞的游戏 title="芙蕾娜裸体被❌羞羞" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    女学生喷浆电视

    缅甸女交乣女XXX

红桃91精品㊙️入口内裤包裹 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
包含 饿了么 的应用集
评论
  • 擼擼社 免费下载 9天前
    偷拍美女裸身搓澡视频
  • 彪虎影视大全高清免费追剧 5天前
    体内射精日本老太
  • 户外美女撒尿❌❌❌ 6天前
    🌿我~慢点~好爽好大~男男
  • 男生撕开👙👙暍奶 1天前
    被老师粗大jib捣出了白浆
  • 哎呦绅士请注意您的身体健康 9天前
    日美嫩B嫩BBBBBB
  • 动漫同人18❌漫画免费本 5天前
    小天⋯受不了⋯进来视频
  • 丝袜老师把我🐔出精 2天前
    www7777cao.cnm
  • 女子被拳交高潮狂喷 3天前
    欧美做受❌❌❌高溯视频
  • 性AV➕丰满AV➕无码 8天前
    美女赤裸身体㊙️奶头蜘蛛精网站
  • 浣腸ちょうきょう調教 9天前
    🌿我~慢点~好爽好大~炮机