今‘日格丽’乔奥特曼浮计狂飙 新闻快讯_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式

2025-09-25 08:09:51
来源:

猫眼电影

作者:

左千牛

手机查看

  猫眼电影记者 杨斌庆 报道P6F3X2M7T9QJ8L1B4WZR

由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架Genesis。该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。

论文题目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency论文链接:https://arxiv.org/abs/2506.07497Github 链接:xiaomi-research/genesis

Genesis 采用两阶段架构:第一阶段基于透视图投影的布局和场景描述等条件,利用基于 DiT 的扩散模型学习 3D 变分自编码器编码的环视图特征; 第二阶段将第一阶段多视角视频序列转到鸟瞰图的特征空间,并结合场景描述和布局等条件,学习 2D 自编码器编码的点云特征。

为了以结构化语义引导生成过程,本文引入了 DataCrafter (一个基于 VLM 的数据标注模块),可提供场景级与实例级的信息描述。在 nuScenes 基准数据集上的大量实验表明,Genesis 在视频与激光雷达指标上均达到了当前 SOTA 水平。

本文的主要贡献总结如下:

统一的多模态生成架构。Genesis 采用统一的 pipeline,视频和 LiDAR 分支都在共享相同的条件输入,包括场景描述和布局等,这确保了生成的多模态数据的一致性。为进一步保证点云和图像背景的信息一致性,我们将 RGB 透视图转到鸟瞰图视角下的特征下,并把该特征作为条件输入到基于点云扩散模型中,从而加强两种模态的一致性,该过程无需依赖 occupancy 或体素等中间体。通过 DataCrafter 进行结构化语义信息提取。为了提高语义可控性,本文引入了 DataCrafter,这是一个基于视觉语言模型构建的 caption 数据处理模块。它提取多视图、场景级和实例级描述,这些描述融合到密集的语言引导式先验中。这些 caption 数据为视频和 LiDAR 生成器提供了详细的语义指导,从而产生不仅逼真而且可解释和可控的输出。

引言

在自动驾驶技术向高阶迈进的进程中,构建多样化、高拟真度的驾驶场景数据集,已成为不可或缺的关键环节。合成数据因为其可编辑,易泛化的特点得到了广泛的关注。现有研究虽在视频生成、LiDAR 序列合成领域取得显著进展,但如何实现视觉与几何模态间的深度协同与一致性表达,仍属亟待攻克的前沿课题。

如图 1,当前主流的驾驶场景生成方案,多聚焦于 RGB 视频或 LiDAR 点云的单模态数据生成。这些方法虽极大推动了场景生成技术的发展,却未能充分挖掘多模态融合的协同优势。在处理 RGB 视频与其他传感器数据时,模态间的对齐精度不足,导致生成结果难以满足实际应用需求。许多方法采用基于 BEV 地图或 3D 框的 “布局 - 数据” 单步生成模式,这种依赖粗略空间先验的架构,在捕捉复杂交通动态与精细语义细节时存在天然缺陷。

尽管 UniScene 等研究尝试引入占用网格实现多模态生成,但实际自动驾驶场景中 OCC 标签的获取是非常昂贵的,这严重限制了生成模型在工业界的应用。另外,现有多模态生成方案多依赖粗略标签或通用标题模型提供语义标签,未能有效利用现代视觉语言模型(VLM)的细粒度语义解析能力。这种语义标签的缺失,直接影响生成场景的真实性、可控性,以及时空逻辑的连贯性。

具体工作

DataCrafter 模块

本文提出 DataCrafter, 一个专为多视角自动驾驶视频设计的 Caption 数据生成模块,旨在实现以下两项核心功能:

(1) 训练阶段数据筛选:借助预训练视觉语言模型的图像理解能力,对原始训练片段进行评估,仅筛选高质量片段用于训练。(2) 结构化语义提取:利用视觉语言模型对多视角视频片段提取细粒度语义信息,为多模态生成任务提供丰富的结构化语义条件。

评分体系涵盖三类关键视觉属性:(1) 图像清晰度:如模糊、畸变、脏污等;(2) 结构合理性:如遮挡程度、结构混乱、场景完整性等;(3) 美学特性:如逆光、过暗过亮、曝光异常、色彩偏差等。

视频生成模型

如图 2 中 camera_branch,Genesis 的视频生成模块以 DiT 为骨干,引入 3D-VAE 编码与结构化语义先验,构建出具备时空一致性的生成架构。Camera 分支将场景布局信息与语言描述通过注意力机制深度耦合,使生成的视频不仅具备视觉真实感,更能遵循语义逻辑。

我们发现,目前自动驾驶场景视频生成的疼点在于行人难以清晰地生成,为此,我们创新性地利用 YOLOv8x-Pose 检测行人姿态并投影到各视角,以此增强动态场景的语义表达。

具体实现上,我们首先构建包含车道段和 3D 边界框的结构化场景布局,将其投影到各视角 2D 图像平面形成语义控制图,再通过 Control-DiT 模块的交叉注意力机制在每个去噪时间步融入这些结构化先验,实现对生成过程的引导。

在隐空间编码方面,借助 3D VAE 将多帧 BEV 图压缩为隐空间表示,解码器从去噪词元中重建 BEV 语义。训练目标函数为:

最后,模块集成的语义对齐控制 Transformer 通过控制注意力将语义特征注入扩散块早期阶段,并结合空间自注意力、跨视角注意力和时间注意力机制,全面保障多视角视频生成的时空连贯性与语义保真度。

激光雷达生成模型

如图 2 中 lidar_branch,激光雷达生成模块致力于生成几何精确且时空连贯的点云序列,通过点云自动编码器与时空扩散模块的协同设计,结合跨模态语义条件实现多传感器数据的一致性生成。

如图 4,首先,点云自动编码器将稀疏点云体素化为 BEV 网格,利用 Swin Transformer 骨干网络压缩为隐空间特征,再通过 Swin 解码器与 NeRF 渲染模块重建点云,过程中采用空间跳跃算法减少空网格误差,并通过深度 L1 损失、占用损失和表面正则化损失优化训练,同时引入后处理过滤噪声点。

时空扩散模块以自动编码器的隐空间特征为基础,采用双 DiT 网络结合 ControlNet 架构,集成场景描述、道路图等语义条件,以及 3D 边界框几何条件;为保证跨模态一致,通过 LSS 算法将视频分支的 RGB 图像转为 BEV 特征,与道路图特征拼接后输入 ControlNet。扩散过程中,隐空间词元通过交叉注意力融合语义与几何嵌入,交叉注意力操作的公式为:

实验结果

视频生成结果

在无首帧条件设定下,本文的方法实现了 83.10 的多帧 FVD 和 14.90 的多帧 FID,优于 DriveDreamer-2 等先前的工作。在有首帧条件设定下,本文的方法进一步提升至 16.95 的 FVD 和 4.24 的 FID,与 MiLA 相比展现出具有竞争力的结果,同时保持了时间一致性和结构保真度。在有噪声隐空间设定下,在 6019 个样本上实现了 67.87 的 FVD 和 6.45 的 FID,超过了 UniScene 报告的先前最佳结果。

LiDAR 生成结果

表 2 展现了先前最先进的方法与本文提出的 Genesis 框架在激光雷达序列生成性能方面的定量比较。评估标准遵循 HERMES 的设定进行,在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空间范围内,使用 Chamfer distance 作为主要指标。在短期和长期预测方面,Genesis 始终优于现有方法。在预测时长为 1 秒时,它的 Chamfer distance 达到 0.611,比之前的最佳值(HERMES 的 0.78)高出 21%。在预测时长为 3 秒时,优势扩大到相对减少 45%(从 1.17 降至 0.633)。

下游任务实验

本文的方法在多个下游感知任务上评估了生成数据的效用。如表 5 所示,本文的方法在 BEVFormer 3D 目标检测中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文评估了生成数据在 BEVFusion 3D 目标检测框架上的有效性。在所有设置中,本文的方法都取得了一致的改进,mAP 从 66.87 提高到 67.78,NDS 从 69.65 提高到 71.13。摄像头和激光雷达模态的联合生成实现了的最高增益(+0.91 mAP / +1.48 NDS),证明了多模态生成的互补优势。

??时事1:女人扒开屁股爽6〇分钟

??09月25日,朝鲜公布韩国无人机事件最终调查结果,

  最后,恭祝各位朋友及你们的家人:健康如意,福慧双增!

,色月亮国产欧美麻豆。

??09月25日,白宫证实:美国总统气候问题特使克里将卸任,  “我支教所在的一所县城中学,一个学期招来了70多名正式编老师,很多是一流师范大学的毕业生。”张华向记者表示,外面铺天盖地宣传大凉山缺支教老师,与实际情况并不符。但他也不否认,目前大凉山确实还存在现实问题,“新招聘的老师需花精力提升孩子文化课。孩子们平时学习压力比较大,一方面要学习新知识,另一方面还得补基础。因此,真正的公益支教还是需要的。”,张天爱性做爰A片免费看,男生自愿露jiji㊙️视频,白嫩小泬无套学生。

??时事2:竹菊影视无码

??09月25日,“五一”假期上海邮轮港口超3.2万人次出入境,  常泰长江大桥是长江上首座集高速公路、城际铁路、普通公路三种方式于一体的过江通道。大桥全长10.03公里,其中公铁合建段长5299.2米,由一座主跨1208米的钢桁梁斜拉桥、两座主跨388米的钢桁拱桥和一座3×124米的连续钢桁梁桥组成,创下了最大跨度斜拉桥、最大跨度公铁两用钢桁拱桥和最大连续长度钢桁梁的世界纪录。,原神丽莎被强❌禁欲视频,欧美sex湿激情XX❌❌❌,13小男生Gay自慰脱裤子。

??09月25日,(文化中国行)“中国第一座公共博物馆”南通博物苑为何取名“苑”?,

  通过这次安全日教育,了解了相关知识,具有了国家安全观,我们身为一个大学生,在面对任何事情上,都要考虑国家安全,维护国家安全,人人都是主角!在疫情期间,坚持网上网下结合不断提高国家安全法治宣传的影响力与传播力。让国家安全意识在全体人民心中生根发芽,让13亿人民成为国家安全的坚定维护者,我们必将推动中华号巨轮在时代风云中破浪前行,为实现两个一百年为奋斗目标,为实现中华民族伟大复兴中国梦筑牢安全保障。

,黄➕流水➕大胸,在教室伦流澡到高潮H爽视频动漫,扒开🍑伸进🍌不带☂️。

??时事3:男同gv🔞禁网站国内洗澡

??09月25日,首届浙江省中美合作办学工作研讨会召开,

  要做到服从命令,一切行动听指挥。服从命令是军人的天职,是战胜困难的重要条件。同学们在军训期间要牢记自己是一名军人,要用严格的纪律约束自己,遵纪守法,令行禁止。通过军训,增强纪律观念,为高中期间的刻苦学习和健康有序的生活以及今后投身于祖国建设事业打下坚实的基础。本次军训工作时间紧、任务重、强度大,对每一位参训同学都是不小的考验。大家要树立竞争和创新意识,形成良好氛围,夺取军训成果和精神文明建设双丰收。对在军训中,成绩显著的集体和个人将分别予以奖励,对违反纪律的要严格进行批评教育。

,雏田爆乳被❌🔞㊙动漫网站,小男生趴着露屁股的小视频,禁漫画天堂原神p站p站。

??09月25日,沪滇专家携手成功探索恙虫病临床特点,

  二要充分认识村干部工作的艰巨性,切实增强当好村干部的压力感和紧迫感。一个村就是一个小社会,大到村庄发展的宏观规划,小到鸡毛蒜皮的矛盾纠纷,全靠村干部去解决和落实。因此,村干部的工作繁重而艰巨,而且在实际工作中还将面对各种矛盾和困难。一方面,村庄内部存在一些矛盾,比如干群之间的矛盾,班子内部的矛盾,组与组及邻里之间的矛盾,包含换届选举后留下的一些后遗症,这些矛盾都要靠大家的智慧和能力去化解、去调和。另一方面,村庄发展面临一些实际困难。比如,一些村庄集体收入比较薄弱,面临“无钱办事”的问题。村庄没有钱怎么办?坐在家里等是永远不会有钱掉在你头上的。这就需要大家去跑、去找,找政策、找项目。另外,项目落户后,就存在调地、拆迁、补偿等问题,这些事项都非常的繁琐,需要大家有处理问题的责任心、突破阻力的决心和解决问题的恒心。因此,希望大家对困难估计得更加充分一些,准备工作做得更细致一些,办法措施想得更周全具体一些。在面对困难和问题的时候,还要勇于面对,敢于挑战,不断创新工作思路,转变思维方式,准确寻找工作的突破口,切实办成事、办好事。

,嘼与人❌❌oo,免费看男男Gay啪啪动漫,表妺洗澡让我捏她胸亲她嘴巴漫画。

??时事4:欧美激情婬乱A片野外偷拍寡妇

??09月25日,贵州省遵义市委党校常务副校长韦圣福被“双开”,

  加强学习,强化素质,这是党委系统办公室工作人员为经济社会发展服务的前提条件。我这里所指的学习,不仅指一般意义上的读书学习,而且有着更高的要求,具体讲,就是要做到“四个坚持”,即,坚持学习的适用性,立足于管用、能用,精心选择学习内容,对重要的知识,尤其是政治理论,党的路线方针政策,要学得深,研究得透,掌握得牢,不能满足于一知半解,蜻蜓点水;坚持学习的广泛性,尽可能多地涉猎知识,拓宽视野,不强求门门精,但必须做到样样通;坚持学习的创新性,向基层和群众学习,敢于突破一些与时代发展不相适应的工作理念和工作模式,善于用新的思路、新的途径、新的办法来解决办公室工作中遇到的新矛盾和新问题;坚持学习的经常性, “在工作中学习,在学习中工作”,通过坚持不懈地刻苦学习和实践锻炼,达到张口能讲、提笔能写、遇事能办,使自己成为党委系统办公室工作的行家里手。工作中要克服“三个误区”:一是要克服办公室工作主要就是搞文字工作的误区,养成多思考的习惯。确实,作为一名党委办公室工作人员,具有一定的文字功底十分重要,但是,办公室的文字工作决不能满足于一般要求,而应该重在为领导出思路。大家一定要养成勤于动脑、善于思考的习惯,突出“以文辅政”这一灵魂,加强政策理论学习,结合党委中心工作进行认真思考,抓住一切可利用的时间和机会,深入了解、准确把握基层情况,力争在各方面比领导知道的新万博体育:、更详细,从较高层次和更广阔的视野丰富和完善领导的思想观点,使新万博体育:的文稿进入决策,发挥作用,指导全局工作的开展。二是要克服为领导服务只能是被动服务的误区,养成善总结的习惯。在领导身边工作,并不意味着领导让干什么就干什么,大家要化被动为主动,充分利用直接为领导服务的优势,善于学习和总结领导的思维方法、领导艺术,学会站在党委的高度、领导的高度、全局的高度研究和思考问题,力求在思路上与党委工作合拍,与领导思想同步,努力培养自己统揽全局、高瞻远瞩、开拓创新的立体化思维能力。三是要克服办公室只要按部就班就不会出大问题的误区,养成重修养的习惯。大家都知道,党委办公室的每一项工作都很重要,大到办文办会,小到接个电话、收份文件、传递信息,一旦失误,往往难以弥补。可以说,“办公室工作无小事”,做好办公室工作,一样需要我们把握规律,开拓创新,坚持细致再细致,周密再周密,保证党委工作的高效有序运转。因此,希望大家加强修养,严于律己,保持头脑清醒,坚定政治立场,努力做一个品德高尚、无私奉献的人。

,温迪被❌到深处喷水文微博,男女裸体办公室㊙️网站,乖~腿打开一点白光莹庞尊。

??09月25日,张青松任中投公司党委书记,

  ④ 部分设备陈旧,使用年限过长,装备能力尚需加强。

,搡80老女人老太婆视频在线观看,小樱裸体❌开腿小说,www.acfun.aun.com。

责编:匡时秋

审核:哈蒙

责编:小资

相关推荐 换一换