欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

快手可灵&港大提出 Context-as-Memory,上下文记忆力媲美 Genie3 且问世更早

作者:心靈之曲 | 点击: | 来源:心靈之曲
2608
2025
香港大学与快手可灵团队近期联合发布论文《ContextasMemory:Scene-ConsistentInteractiveLongVideoGenerationwithMemoryRetrieval》,提出了一种新颖的长视频生成框架——将过往生成的视频帧作为“记忆”(Context-as-Memory),借助contextlearning机制学习上下文依赖关系,从而有效维持长视频中场景的一致性。研究指出,该模型能隐式地从数据中捕捉3D结构先验,无需依赖显式的3D建模,这一思路与G...

香港大学与快手可灵团队近期联合发布论文《context as memory: scene-consistent interactive long video generation with memory retrieval》,提出了一种新颖的长视频生成框架——将过往生成的视频帧作为“记忆”(context-as-memory

),借助context learning机制学习上下文依赖关系,从而有效维持长视频中场景的一致性。研究指出,该模型能隐式地从数据中捕捉3d结构先验,无需依赖显式的3d建模,这一思路与google deepmind最新推出的genie 3模型理念高度契合。

为高效处理可能无限延伸的历史帧序列,论文进一步引入基于相机视场(FOV)重叠度的记忆检索机制(Memory Retrieval),从全部历史帧中动态筛选出与当前生成视角最相关的帧作为条件输入。该策略显著减少了参与计算的上下文数量,大幅降低了训练和推理时的计算负担。

在数据集构建方面,团队利用Unreal Engine 5构建了包含多样化虚拟场景的长视频数据集,配备精确的相机轨迹标注,用于充分训练和验证所提方法。用户仅需提供一张起始图像,即可沿着预设或交互式相机路径,在生成的虚拟环境中自由漫游。

据论文介绍,Context as Memory 能在数十秒的时间跨度内稳定保持对原始场景中静态元素的记忆能力,并展现出良好的跨场景泛化性能。该方法致力于实现无需显式三维重建的、具有一致性的长视频生成。其主要创新点包括:

  • 提出 Context as Memory 框架,将历史生成帧视为记忆存储,通过上下文学习实现无需3D建模的场景一致性长视频生成。
  • 设计 Memory Retrieval 模块,采用基于相机FOV重叠的检索策略,动态选取关键历史帧作为记忆条件,极大提升了模型效率。
  • 实验验证表明,该方法在长视频场景记忆能力上显著优于现有SOTA模型,并能在未见过的开放场景中保持良好的记忆连贯性。

如上图(a)所示,Context-as-Memory 的长视频生成基于自回归视频生成框架,结合context learning技术,将所有已生成的历史帧作为上下文输入,充当“记忆”的载体。

如上图(b)所示,为避免全历史帧参与带来的计算爆炸,研究团队设计了Memory Retrieval模块。该模块依据当前预测帧与历史帧之间的相机视场(FOV)重叠程度,动态检索最相关的关键帧作为记忆条件,有效减少了上下文学习负担,显著提升了训练与推理效率。

实验结果表明,相较于当前最先进的方法,Context-as-Memory 在长视频生成中的场景一致性与记忆保持能力方面均实现了显著提升。

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询