HG官网(HoGaming) 惩办视频生成穿帮问题!浙大&微软3000条纯文本让模子交融3D

视频生成有个老纰谬,镜头一动就"穿帮",终于有了靠谱的解法。
浙大相连微软亚洲盘考院最新提议的World-R1,不改架构、不要 3D 数据,纯靠强化学习就让视频生成模子学会了"交融"三维寰宇。

是以,AI 视频为啥总穿帮?
目前的视频生成模子,画面精细是精细了,但有个致命伤:不懂三维。
你让镜头转个弯,成立就扭了;鼓舞去看个近景,物体就消亡了。
本色上,这些模子仅仅在二维像素层面作念统计拟合,根底不睬解目下的寰宇是个三维空间。
过去的解法呢?往模子里硬塞 3D 模块,但代价是推理本钱飙升、泛化智力变差,况兼只可作念图生视频,文生视频根底搞不定。
World-R1 的念念路:不改架构,靠 RL "唤醒"
World-R1 的起点很简单:
预测验的视频模子内部仍是有 3D 学问了,仅仅"千里睡"着。用强化学习把它唤醒就行。
开云体育官方网站 - KAIYUN具体奈何操作?三板斧。

第一斧:把相机轨迹"藏进"噪声
别东说念主适度相机通达,需要颠倒测验一个适度集合。
World-R1 说:不需要。
它从笔墨里提真金不怕火通达关节词(比如" push in "" orbit left "),生成相机轨迹,然后通过光流投影,平直把通达讯息编码进扩散模子的入手噪声里。
一溜代码不改,一个参数不加,相机就能随着笔墨走。
第二斧:让 3D 模子当"裁判"
RL 的中枢是奖励函数。
World-R1 谋划了一套四维复合奖励:元视角评分,用 Depth Anything 3 把视频"抬"成 3D 高斯溅射,再从一个十足不同的角度去看。
正面看没问题?换个角度可能就"清楚"了。
用 Qwen3-VL 当评审员,颠倒持"纸片东说念主"。
重建保真度,3D 重建完再渲染且归,跟原视频逐像素比对。
轨迹对都度,看生成的相机通达有莫得淳厚听话。
通用画质,hg真人游戏官方网站HPSv3 打分,确保画面不变丑。

整套奖励通过 **Flow-GRPO 框架优化。
第三斧:让模子"又硬又软"
纯追求 3D 一致性会出问题:行东说念主不会步碾儿了,旗号不会飘了,统共寰宇像冻住了相同。
World-R1 的解法是周期性解耦测验:闲居阶段,用竣工奖励猛练几何一致性;
每 100 步,切换到"动态专场",只用通用奖励在高动态数据上测验。
后果平直成立牢不行破,旗号照样飘。
3000 条纯文本,莫得一帧视频
你可能会问:测验数据从哪来?
谜底是:不要视频,不要 3D 财富,纯文本就够了。
盘考团队用 Gemini 生成了约 3000 条高质料场景形色,涵盖峡谷、城市、深海、蘑菇丛林等千般场景,按相机通达难度分了三级。
模子就这么在"纯遐想"中,学会了信得过寰宇的物理门径。
本质数据
基于 Wan 2.1 测验了两个版块:World-R1-Small(1.3B)和 World-R1-Large(14B)。
3D 一致性

Small 版比基线 PSNR 涨了 10.23 dB,Large 版涨了 7.91 dB。LPIPS 从 0.467 降到 0.201,几何幻觉被干掉了泰半。
画质不降反升

在 VBench 上,World-R1-Small 好意思学质料 65.74、成像质料 67.53,全面越过基线 Wan 2.1-1.3B。
而那些装了颠倒相机适度模块的法子(ReCamMaster、DAS),好意思学质料惟一 38~42 分。
3D 增强了,画质也更好了,鱼和熊掌兼得!
百闻不如一见

3D 重建的点云也能看出差距:基线模子的重建像一堆散沙,World-R1 的像一座信得过的成立。
消融:每一刀都切在重要上

消融本质的论断很明晰:去掉 3D 感知奖励,几何一致性平直崩盘;
去掉通用生成奖励,画面好意思学肉眼可见解劣化;
去掉噪声包裹的隐式相机适度,敛迹速率慢了一倍;
去掉周期性解耦测验,动态场景的生成智力委果全废。
四个组件为德不终紊,不行偏废。
World-R1 让视频模子"交融"三维寰宇,无须推倒重来——
只需用正确的奖励信号,唤醒它已有的空间感知。
论文贯串:https://arxiv.org/abs/
名目主页:https://aka.ms/world-r1
代码:https://github.com/microsoft/World-R1
一键三连「点赞」「转发」「防备心」
宽宥在驳斥区留住你的方针!
— 完 —
咱们正在招聘别称眼疾手快、护理 AI 的学术剪辑实习生 � �
感有趣有趣的小伙伴宽宥护理 � � 了解细目

� � 点亮星标 � �
科技前沿发挥逐日见HG官网(HoGaming)