InfinityDrive:突破驾驶世界模型的时间限制
24年12月来自商汤绝影和清华大学的论文“InfinityDrive: Breaking Time Limits in Driving World Models”。由于无法获取对于安全导航至关重要的多样化、广泛性和分布外的驾驶数据,自动驾驶系统在应对复杂场景时举步维艰。世界模型为这一挑战提供一个有希望的解决方案;然而,当前的驾驶世界模型受到短时窗和有限场景多样性的限制。为了弥补这一差距, Infi
24年12月来自商汤绝影和清华大学的论文“InfinityDrive: Breaking Time Limits in Driving World Models”。
由于无法获取对于安全导航至关重要的多样化、广泛性和分布外的驾驶数据,自动驾驶系统在应对复杂场景时举步维艰。世界模型为这一挑战提供一个有希望的解决方案;然而,当前的驾驶世界模型受到短时窗和有限场景多样性的限制。为了弥补这一差距, InfinityDrive,一个具有泛化能力的驾驶世界模型,通过分钟级视频生成提供高保真度、一致性和多样性的最先进性能。 InfinityDrive 引入高效的时空协同建模模块与扩展的时域训练策略,实现具有一致空间和时间连贯性的高分辨率(576×1024)视频生成。通过结合内存注入和保留机制以及一个自适应内存曲线损失来最大限度地减少累积错误,实现持续超过 1500 帧(超过 2 分钟)的一致视频生成。
如图所示:InfinityDrive生成的例子
由于对安全导航至关重要的多样化、分布式数据访问受限,自动驾驶系统面临巨大挑战。世界模型通过生成高质量、一致且多样的长时间视频来模拟复杂的真实世界场景来解决这一问题。长期视频生成至关重要,因为它使模型能够捕捉扩展的时间依赖性,从而使车辆能够以足够的反应时间预测、规划并主动响应未来事件。此外,高分辨率视频可以保留细节,时间一致性确保真实感。模拟场景的多样性进一步增强适应性,使系统能够处理各种各样的情况。这些能力共同使自主系统能够在动态环境中做出准确、长期的决策。
然而,现有的驾驶世界模型在生成长时间视频序列时仍然存在很大的局限性:1)时空分辨率差:许多当前的驾驶世界模型 [2, 12, 23, 30、44、53、64] 在相对较短的时间窗口(<30 帧)内操作,从而生成的序列仅持续几秒钟。这种限制是由于模型在较长时间范围内编码和处理特征的能力有限造成的。尝试进行长期生成的模型 [18, 21, 47] 通常会采用较低的分辨率,牺牲准确表示复杂驾驶环境所需的关键细节。这种限制源于高分辨率时-空建模对 GPU 内存的巨大需求,从而导致模拟驾驶场景的质量和真实感降低。 2)自回归误差累积:驱动世界模型[2、12、18]通过迭代预测短期剪辑并用最后一个剪辑重置条件图像来执行长期展开。然而,预测不准确会导致与原始条件的细微偏差,这种偏差会随着时间的推移而放大,并造成长序列中与真实状态的显著偏差,从而降低生成视频的准确性和一致性。 3)缺乏多样性:当前模型[2、12、30、44、53、64]的输出表现出有限的多样性,在相同的初始输入和随机噪声条件下产生几乎相同的视频。这一限制阻碍模型生成多样化驾驶情况的能力。
自动驾驶的世界模型
世界模型根据历史观察和替代的自我行为推断世界未来的可能状态[4, 16, 25, 41, 55, 59, 65]。对于自动驾驶智体来说,必须适应复杂且分布外的情况,而世界模型提供一个有希望的解决方案[21、22、38、46]。为了使自动驾驶智体受益,世界模型应该产生高保真度和分辨率的数据,以及多样化的场景以满足泛化要求。尽管已经提出许多自动驾驶世界模型来解决这一任务,但其中很少有模型能够完全解决上述挑战 [23、26、27、30、32、44、46、51、53、63、64]。大多数现有方法仅限于产生低分辨率和低帧率的数据,无法传达现实世界的细粒度细节[21, 26, 30, 44, 46, 53]。此外,它们只能生成 8-25 帧的短时窗视频,其中生成的视频往往与初始帧非常相似,从而限制它们的多样性[23、26、30、44、46, 53,64]。 GAIA-1[21]在大量驾驶数据上进行训练,能够以高帧率生成长时间、多样化的驾驶场景;然而,其低分辨率限制它的实用性。 Vista [12] 等自回归方法可以生成更长的高分辨率视频,但 Vista 最多只能预测 15 秒的视频,并且在复杂场景中其视觉质量会迅速下降。
长视频生成
视频生成是理解和预测世界的有效方法,近年来由于扩散模型[3、9、11、17、19、20、34、37]和自回归方法的进步,视频生成取得显着进步[ 28、50、52]。当前的视频生成方法通常建立在预训练的扩散模型之上,并通过对视频-文本对数据进行进一步训练来实现视频生成[5、6、13、15、24、36、39、43]。然而,由于资源限制和时间复杂性,这些方法通常仅限于制作短而低分辨率的视频。最近提出几种通过聚合短视频块或对锚图像进行调节来扩展到长视频生成的方法[1、7、18、24、28、29、31、33、35、42、47、50、56、57 ,61,62]。例如,FreeNoise[35]和Gen-L[42]通过滑动窗机制组合短视频段来生成长视频。 StreamingT2V [18] 利用自回归方法,注入锚帧和长-短记忆模块来保持时间一致性。 Loong [47] 采用从短到长的训练规划和损失重加权方案,训练基于自回归 LLM 的模型。然而,这些方法通常仅限于以目标为中心的视频生成,并且它们处理复杂驾驶场景的能力仍然值得怀疑。此外,与驾驶世界模型不同,大多数现有的视频生成方法并非设计用于生成具有明确可控性的视频 [8, 14, 45, 48, 54, 58]。
为了解决现有自动驾驶世界模型的局限性,本文努力提高长期视频生成的质量和多样性。其方法与其他方法的特点进行比较,在下表中进行总结。模型在时空分辨率和长期一致性部署方面表现出卓越的能力。
高效的时空-协同建模
为了解决现有驾驶世界模型中观察的时空分辨率局限性,提出高效的时空协同建模 (STCM) 模块。如果没有时空协同建模 (STCM),GPU 内存限制会阻止模型同时在高分辨率 (576×1024) 和长期序列 (128 帧) 上进行训练。 STCM 允许模型在较高分辨率下优先考虑空间细节,同时在较低分辨率下改进时间建模。
动态信息密度调整
在标准训练配置中,训练数据的基本分辨率为(H,W),最大帧率为K,训练序列长度为L帧,能够观察未来L/K秒的情景。在每次训练迭代中,首先随机选择一个分辨率缩放因子 α ∈ [1, 4],然后将分辨率缩放为(H×α,W×α)。结果,允许的序列长度按比例减少至 L_curr = L/(α2)。为了适应较短的 L_curr,从原始 L 帧序列中均匀采样 L_curr 帧,同时保留它们在序列中的原始索引 P = […, T −α2, T, T +α^2, …]。此外,对于时间位置编码,引入一种称为 skip-ROPE[40] 的新位置嵌入,以原始 K 帧速率而不是下采样索引对帧进行编码。通过以原始时间步长对帧进行编码,skip-ROPE 可确保在低分辨率和高分辨率下的一致时间嵌入。这种较低分辨率的曝光使模型能够建立对时间的连贯理解,从而能够在由于内存限制而无法直接训练的高分辨率、长视野场景中准确解释和预测时间信息。
扩展时间范围训练策略
为了降低长期学习的难度,引入一种使用课程学习方法的扩展时间范围训练策略。该策略逐步扩大时间窗口,每次迭代最多可达 128 帧,从而允许模型学习在较短窗口中可能遗漏的扩展依赖关系和行为模式。从对 L = 16 帧序列进行训练开始,利用 ROPE 的推断能力将该模型用作预训练基础。然后将训练扩展到 32、64 帧并最终达到 128 帧。在16帧阶段,较大的批次大小可以提高训练效率和稳定性。随着帧数的增加,批量大小会相应减小,以超出 GPU 内存限制,但训练有素、稳定的预训练模型有助于缓解这些限制。
长时展开
驾驶世界模型通过迭代预测短片并重置最后一个片段的条件图像来执行长期展开。然而,自回归误差累积是长时间视频生成中的一个常见问题,其中小的初始预测误差会随着时间的推移而放大,导致与真实情况的显着偏差。为了解决这个问题,引入记忆注入和重新保留机制以及记忆曲线自适应损失,共同提高长期预测的一致性。
记忆注入和保留机制
令输入潜向量 x = {x1, x2, . . . ,xT,. . . , xL} 表示输入的帧序列,其中 L 是序列中的总帧数。将 x 分成两部分:1)记忆段 x_mem ={x1, x2, …, xM},由前M个帧组成。 2)未来预测段 x_future = {xM+1,…,x^L},其中M < L。
M 的选择取决于分辨率。高分辨率输入具有较小的M,而低分辨率输入具有较大的M,以确保不同配置之间的记忆持续时间一致,从而为模型提供稳定的记忆窗口。
在记忆注入期间,记忆模块中的时间步长设置为 t = 0,意味着不添加任何噪音,保留原始历史信息。模型只将这些信息保留在“记忆”模块中,而不执行任何预测。
在未来预测过程中,由于记忆段 t = 0,因此将其排除在去噪过程之外,而未来段则经历完全扩散去噪过程。
该损失函数旨在提高近期帧的记忆保留,同时为远期帧提供更大的生成自由。靠近记忆模块的帧,优先保留历史细节以增强一致性并减少错误积累。相反,对于更远未来的帧,鼓励模型减少对记忆的依赖,更多地依赖其生成能力,从而有效减少对过去信息的依赖。
受到 Ebbinghaus 遗忘曲线 [10] 的启发,该曲线描述记忆保持随时间的逐渐衰减,类似的衰减原理应用于模型的损失权重。这种方法使得靠近记忆模块的帧具有更高的损失权重,从而强化这些帧中详细记忆保留的必要性。然而,对于远的未来帧,权重逐渐减小,使得模型可以更自由地“想象”或独立于记忆进行预测,从而减少对记忆的依赖。
增强场景多样性
文本数据比图像具有更大的变化性,增强训练的多样性。然而,一些世界模型(例如 SVD [2]、Vista [12])缺乏基于文本的生成,这限制它们的多样性。此外,各种文本字幕对于强大的视频生成至关重要。因此,开发一种利用多模态基础模型 [60] 重新描述自动驾驶数据集的方案。具体来说,挑选以摄像机位置信息为前缀的提示,在其余提示中,要求模型描述视频片段中的场景。提示被格式化为提取描述场景信息(例如天气、时间、位置)和上下文信息(例如车道布局和物体)以及动态信息(例如自我和其他车辆的动作)的字幕。
如图所示 InfinityDrive 流水线:
更多推荐
所有评论(0)