威尼斯人官网登陆页面 登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式 2025‘-09’-23_新万博体育
威尼斯人官网登陆页面 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件帝王计划:怪兽遗产 → 威尼斯人官网登陆页面 v3.979 安卓最新版

威尼斯人官网登陆页面

威尼斯人官网登陆页面

  • 电脑版下载
猜你喜欢
标签: 威尼斯人官网登陆页面 威尼斯人在线登录
详情
介绍
猜你喜欢
相关版本

内容详情

威尼斯人官网登陆页面

由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架Genesis。该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。

论文题目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency论文链接:https://arxiv.org/abs/2506.07497Github 链接:xiaomi-research/genesis

Genesis 采用两阶段架构:第一阶段基于透视图投影的布局和场景描述等条件,利用基于 DiT 的扩散模型学习 3D 变分自编码器编码的环视图特征; 第二阶段将第一阶段多视角视频序列转到鸟瞰图的特征空间,并结合场景描述和布局等条件,学习 2D 自编码器编码的点云特征。

为了以结构化语义引导生成过程,本文引入了 DataCrafter (一个基于 VLM 的数据标注模块),可提供场景级与实例级的信息描述。在 nuScenes 基准数据集上的大量实验表明,Genesis 在视频与激光雷达指标上均达到了当前 SOTA 水平。

本文的主要贡献总结如下:

统一的多模态生成架构。Genesis 采用统一的 pipeline,视频和 LiDAR 分支都在共享相同的条件输入,包括场景描述和布局等,这确保了生成的多模态数据的一致性。为进一步保证点云和图像背景的信息一致性,我们将 RGB 透视图转到鸟瞰图视角下的特征下,并把该特征作为条件输入到基于点云扩散模型中,从而加强两种模态的一致性,该过程无需依赖 occupancy 或体素等中间体。通过 DataCrafter 进行结构化语义信息提取。为了提高语义可控性,本文引入了 DataCrafter,这是一个基于视觉语言模型构建的 caption 数据处理模块。它提取多视图、场景级和实例级描述,这些描述融合到密集的语言引导式先验中。这些 caption 数据为视频和 LiDAR 生成器提供了详细的语义指导,从而产生不仅逼真而且可解释和可控的输出。

引言

在自动驾驶技术向高阶迈进的进程中,构建多样化、高拟真度的驾驶场景数据集,已成为不可或缺的关键环节。合成数据因为其可编辑,易泛化的特点得到了广泛的关注。现有研究虽在视频生成、LiDAR 序列合成领域取得显著进展,但如何实现视觉与几何模态间的深度协同与一致性表达,仍属亟待攻克的前沿课题。

如图 1,当前主流的驾驶场景生成方案,多聚焦于 RGB 视频或 LiDAR 点云的单模态数据生成。这些方法虽极大推动了场景生成技术的发展,却未能充分挖掘多模态融合的协同优势。在处理 RGB 视频与其他传感器数据时,模态间的对齐精度不足,导致生成结果难以满足实际应用需求。许多方法采用基于 BEV 地图或 3D 框的 “布局 - 数据” 单步生成模式,这种依赖粗略空间先验的架构,在捕捉复杂交通动态与精细语义细节时存在天然缺陷。

尽管 UniScene 等研究尝试引入占用网格实现多模态生成,但实际自动驾驶场景中 OCC 标签的获取是非常昂贵的,这严重限制了生成模型在工业界的应用。另外,现有多模态生成方案多依赖粗略标签或通用标题模型提供语义标签,未能有效利用现代视觉语言模型(VLM)的细粒度语义解析能力。这种语义标签的缺失,直接影响生成场景的真实性、可控性,以及时空逻辑的连贯性。

具体工作

DataCrafter 模块

本文提出 DataCrafter, 一个专为多视角自动驾驶视频设计的 Caption 数据生成模块,旨在实现以下两项核心功能:

(1) 训练阶段数据筛选:借助预训练视觉语言模型的图像理解能力,对原始训练片段进行评估,仅筛选高质量片段用于训练。(2) 结构化语义提取:利用视觉语言模型对多视角视频片段提取细粒度语义信息,为多模态生成任务提供丰富的结构化语义条件。

评分体系涵盖三类关键视觉属性:(1) 图像清晰度:如模糊、畸变、脏污等;(2) 结构合理性:如遮挡程度、结构混乱、场景完整性等;(3) 美学特性:如逆光、过暗过亮、曝光异常、色彩偏差等。

视频生成模型

如图 2 中 camera_branch,Genesis 的视频生成模块以 DiT 为骨干,引入 3D-VAE 编码与结构化语义先验,构建出具备时空一致性的生成架构。Camera 分支将场景布局信息与语言描述通过注意力机制深度耦合,使生成的视频不仅具备视觉真实感,更能遵循语义逻辑。

我们发现,目前自动驾驶场景视频生成的疼点在于行人难以清晰地生成,为此,我们创新性地利用 YOLOv8x-Pose 检测行人姿态并投影到各视角,以此增强动态场景的语义表达。

具体实现上,我们首先构建包含车道段和 3D 边界框的结构化场景布局,将其投影到各视角 2D 图像平面形成语义控制图,再通过 Control-DiT 模块的交叉注意力机制在每个去噪时间步融入这些结构化先验,实现对生成过程的引导。

在隐空间编码方面,借助 3D VAE 将多帧 BEV 图压缩为隐空间表示,解码器从去噪词元中重建 BEV 语义。训练目标函数为:

最后,模块集成的语义对齐控制 Transformer 通过控制注意力将语义特征注入扩散块早期阶段,并结合空间自注意力、跨视角注意力和时间注意力机制,全面保障多视角视频生成的时空连贯性与语义保真度。

激光雷达生成模型

如图 2 中 lidar_branch,激光雷达生成模块致力于生成几何精确且时空连贯的点云序列,通过点云自动编码器与时空扩散模块的协同设计,结合跨模态语义条件实现多传感器数据的一致性生成。

如图 4,首先,点云自动编码器将稀疏点云体素化为 BEV 网格,利用 Swin Transformer 骨干网络压缩为隐空间特征,再通过 Swin 解码器与 NeRF 渲染模块重建点云,过程中采用空间跳跃算法减少空网格误差,并通过深度 L1 损失、占用损失和表面正则化损失优化训练,同时引入后处理过滤噪声点。

时空扩散模块以自动编码器的隐空间特征为基础,采用双 DiT 网络结合 ControlNet 架构,集成场景描述、道路图等语义条件,以及 3D 边界框几何条件;为保证跨模态一致,通过 LSS 算法将视频分支的 RGB 图像转为 BEV 特征,与道路图特征拼接后输入 ControlNet。扩散过程中,隐空间词元通过交叉注意力融合语义与几何嵌入,交叉注意力操作的公式为:

实验结果

视频生成结果

在无首帧条件设定下,本文的方法实现了 83.10 的多帧 FVD 和 14.90 的多帧 FID,优于 DriveDreamer-2 等先前的工作。在有首帧条件设定下,本文的方法进一步提升至 16.95 的 FVD 和 4.24 的 FID,与 MiLA 相比展现出具有竞争力的结果,同时保持了时间一致性和结构保真度。在有噪声隐空间设定下,在 6019 个样本上实现了 67.87 的 FVD 和 6.45 的 FID,超过了 UniScene 报告的先前最佳结果。

LiDAR 生成结果

表 2 展现了先前最先进的方法与本文提出的 Genesis 框架在激光雷达序列生成性能方面的定量比较。评估标准遵循 HERMES 的设定进行,在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空间范围内,使用 Chamfer distance 作为主要指标。在短期和长期预测方面,Genesis 始终优于现有方法。在预测时长为 1 秒时,它的 Chamfer distance 达到 0.611,比之前的最佳值(HERMES 的 0.78)高出 21%。在预测时长为 3 秒时,优势扩大到相对减少 45%(从 1.17 降至 0.633)。

下游任务实验

本文的方法在多个下游感知任务上评估了生成数据的效用。如表 5 所示,本文的方法在 BEVFormer 3D 目标检测中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文评估了生成数据在 BEVFusion 3D 目标检测框架上的有效性。在所有设置中,本文的方法都取得了一致的改进,mAP 从 66.87 提高到 67.78,NDS 从 69.65 提高到 71.13。摄像头和激光雷达模态的联合生成实现了的最高增益(+0.91 mAP / +1.48 NDS),证明了多模态生成的互补优势。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    千亿入口登录 信誉最好的十大娱乐平台 火狐体育下载入口 优博在线登陆 葡京体育买球 cc彩球官网平台入口 澳门太阳集团城网址55 w66体育 七星彩官方网站投注 球球体育比分 二八杠app有哪些 乐鱼电子注册 皇冠在线开户 新际国际网站 棋牌游戏牛牛 六合传说(心水版) 云顶国际登录 立博官网是多少 申博APP安卓 银河娱乐捕鱼辅助器 九五至尊下载地址 m6米乐官网是多少 天博体育登录的 188体育开户 皇冠体育外围 皇城国际 九五至尊线路检测 ayx赌场网站 365BET亚洲体育下载 365育网上开户官方 乐鱼im电竞 tvt体育平台app体育 奔驰娱乐平台 亚盈平台真实情况 爱玩体育官网 黄家体育软件app下载 菲律宾亚星娱乐 外围足球 真钱诈金花网址 龙8娱乐网站登陆 千亿国际登录 欧宝体育APP 国际银河博彩 亚博开户网址 九游会官网地址 ayx网址是多少 聚星登陆 所有体育平台app 让一球是什么意思 银河网上官 九游会下载版本吗 原来的m6app呢 真人德州下载安装 利澳登录网址 188体育官方平台 升博快速开户 世界杯滚球app 真人国际娱乐官网 美高梅国际平台 亚洲城游戏官网 爱游戏最新版本下载 皇冠充值游戏登录 宝博棋牌官网地址 nba在哪里押注 老版宝博棋牌 沙巴sb体育官网首页 pg电子游戏试玩模拟器 365最新地址体育 竞彩买买球软件 万兴国际真人平台下载 米乐旧版 bet9中文网 MG电子网站是多少 12bet官方网站玩法 千亿国际手机登录版 12bet在线开户 MG真人入口 乐鱼足彩 三亿体育ios 乐虎娱乐平台注册 利来国际真人 伟德体育最新网站 十大正规买球网站 开心捕鱼游戏 欧博注册送18 必威betway手机登录 体育app官网下载 大富豪网站赌博事件 永乐国际乐在其中勇往直前 澳门永利8196 腾龙公司客服 九州BET备用线路 66棋牌游戏平台 万博ManBetX客服 立博app官网 亚星官网注册登陆 ayx电竞 彩之星下载 365滚球手机客户端 报名国际真人cs 凯时国际 真金斗地主官方版 ayx爱游戏体育平台 天石国际烧烤露营基地真人CS镭战 足彩平均优化 AG88环亚 AG捕鱼王打鱼游戏技巧 米乐手机版登录 皇马官方网站 太阳城最新地址 大富豪彩票平台官网 银河app官网下载 js6666金沙登录入口 泛亚电竞手机端 澳门金沙游戏下载 皇冠棋牌网站 千亿网站 ag捕鱼网页版 九五至尊赌场网站 金沙js333备用地址
    热门网络工具