禁赛格林,怯夫位于边缘的机缘
在天生式 AI 盛行的视频明天,英伟达在文本天生视频规模更进了一步 ,英伟实现为了更高分说率、达做到最更持久。高×
要说现阶段谁是最长 AI 规模的「当红辣子鸡」?天生式 AI 舍我其谁。搜罗 ChatGPT 等对于话式 AI 谈天运用、视频Stable Diffusion 等 AI 绘画神器在内 ,英伟天生式 AI 揭示的达做到最下场深深地捉住了人们的眼球 。
咱们以图像天生模子为例 ,高×患上益于底层建模技术最近的最长突破,它们收获了亘古未有的视频关注 。如今,英伟最强盛的达做到最模子构建在天生坚持收集 、自回归 transformer 以及散漫模子(diffusion model,高× DM)之上。其中散漫模子的最长优势在于可能提供安妥以及可扩展的磨炼目的 ,而且参数密集度个别低于基于 transformer 的竞品模子。
尽管图像规模取患了长足后退,但视频建模却落伍了 ,这主要归罪于视频数据磨炼的高昂合计老本以及缺少大规模果真可用的通用数据集。当初视频分解虽有丰硕的钻研文献,但搜罗先前视频 DM 在内的大少数使命仅能生因素辩率较低且每一每一较短的视频 。
因此,若何生因素辩率更高 、更长的视频成为一个热门钻研课题。克日慕尼黑大学、英伟达等机构的钻研者运用潜在散漫模子(latent diffusion model, LDM)实现为了高分说率的长视频分解。相关论文已经宣告在 arXiv 上。

名目主页:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
论文地址:https://arxiv.org/pdf/2304.08818.pdf
在论文中 ,钻研者将视频模子运用于着实天下下场并天生为了高分说率的长视频。他们关注两个相关的视频天生下场,一是高分说率着实天下驾驶数据的视频分解 ,其在自动驾驶情景中作为模拟引擎具备重大后劲;二是文本教育视频天生 ,用于创意内容天生。
为此 ,钻研者提出了视频潜在散漫模子(Video LDM),并将 LDM 扩展到了合计密集型使命 —— 高分说率视频天生 。与以往视频天生 DM 使命比照 ,他们仅在图像上预磨炼 Video LDM(概况运用可用的预磨炼图像 LDM),从而应承运用大规模图像数据集。
接着将光阴维度引入潜在空间 DM 、并在编码图像序列(即视频)上仅磨炼这些光阴层的同时牢靠预磨炼空间层,从而将 LDM 图像天生器转换为视频天生器(下图左)。最后以相似方式微调 LDM 的解码器以实现像素空间中的光阴不同性(下图右)。

此外,为了进一步提地面央分说率,钻研者对于像素空间以及潜在 DM 上采样器妨碍光阴对于齐,将它们转换为光阴不同的视频超分说率模子。在 LDM 的根基上,本文措施以合计以及内存高效的方式天生为了全局毗邻的长视频。对于颇为高分说率的分解 ,视频上采样器惟独要在当地运行 ,坚持了较低的磨炼以及合计要求。
最后,钻研者妨碍了消融试验 ,在分说率为 512×1024 的着实驾驶场景视频上对于其措施妨碍了测试 ,实现为了 SOTA 视频品质,并分解了多少分钟的视频。此外 ,他们还微调了 Stable Diffusion,将它酿成一个高效 、强盛的文本到视频天生器,分说率最高可达 1280 × 2048 。
经由将经由磨炼的光阴层迁移至差距的微调文本到图像 LDM,钻研者初次揭示了特色化的文本到视频天生,并愿望自己的使命为高效的数字内容建树以及自动驾驶模拟开拓新的道路。
咱们来看多少个文本到视频天生示例,好比「弹电吉他的泰迪熊 、高分说率 、4K」 。

好比「海浪拍打着一座伶丁的灯塔 、不详的灯光」 。

再好比「背阴下径自穿行在迷雾森林中的遨游者」 。

措施解读 :潜在视频散漫模子
这部份中 ,钻研者形貌了为实现高分说率视频分解,对于预磨炼图像 LDM 以及 DM 上采样器妨碍视频微调。
将潜在图像转换为视频天生器
钻研者高效磨炼视频天生模子的关键思绪在于:重用预磨炼的牢靠图像天生模子,并运用了由参数 θ 参数化的 LDM。详细而言,他们实现为了两个差距的光阴混合层,赶快间留意力以及基于 3D 卷积的残差块。钻研者运用正弦嵌入为模子提供了光阴位置编码 。详细流程如下图 4 所示。

用于长视频天生的预料模子
钻研者还磨炼模子作为给定多个(首个)S 高下文帧的预料模子,经由引入光阴二元掩膜 m_S 来实现。该掩膜 mask 了模子必需预料的 T − S 帧。此外钻研者将该掩膜以及 masked 编码视频帧馈入到模子中妨碍调节。
在推理历程中 ,为了生妨碍视频 ,钻研者迭代地运用了采样历程,将最新的预料重新用作新的高下文。第一个初始序列经由从根基图像模子中分解单个高下文帧来天生,并基于昨天生为了一个新序列。而后以两个高下文帧为条件对于措施妨碍编码。
用于高帧率的光阴插值
高分说率的特色不光在于地面央分说率,还在于高光阴分说率,即高帧率。为此钻研者将高分说率视频的分解历程分为了两部份,第一部份搜罗上文中的将潜在图像转换为视频天生器以及用于长视频的预料模子,它们可能天生具备较大语义变更的关键帧 ,但受限于内存只能在较低帧率运行。第二部份则引入了一个格外模子,其使命是在给定关键帧之间妨碍插值 。
钻研者在实现历程中运用了掩膜调节机制。不外与预料使命差距,他们需要 mask 妨碍插值的帧 ,否则该机制坚持巩固,即图像模子被细化为视频插值模子。
超分说率(SR)模子的光阴微调
尽管 LDM 机制提供了很好的原始分说率 ,但钻研者的目的是将它增长到百万像素级别。他们从级联 DM 中取患上灵感 ,并运用 DM 将 Video LDM 输入淘汰 4 倍 。对于驾驶视频分解试验 ,钻研者运用了像素空间 DM ,并将分说率扩展至 512×1024;对于文本到视频模子,他们运用了 LDM 上采样器 ,将分说率扩展至 1280 × 2048。
试验服从
钻研者专一于驾驶场景视频天生以及文本到视频,因此运用了两个相关数据集,一个是着实驾驶场景(RDS)视频的外部数据集;另一个是 WebVid-10M 数据集,它将果真可用的 Stable Diffusion 图像 LDM 转换为了 Video LDM 。
高分说率驾驶视频分解
钻研者在 RDS 数据集上磨炼 Video LDM pipeline,搜罗一个 4 倍像素空间视频上采样器 。下表 1 展现了无尚采样器时,128×256 分说率下 Video LDM 的主要服从。钻研者揭示了有以及无拥挤以及白昼 / 夜晚条件下其模子的功能。可能看到,Video LDM 个别优于 LVG,而且在确定条件下进一步飞腾了 FVD。

下表 2 展现了人类评估服从 。就着实性而言,钻研者的样本个别优于 LVG ,而且来自条件模子的样本也优于无条件样本。

钻研者将其视频微调像素空间上采样器与自力逐帧图像上采样做了比力 ,并运用了 128 × 256 30 fps 的真值视频妨碍调节,如下表 3 所示。

不才图左 1(底部)以及图右 7(顶部)中,钻研者揭示了来自组合 Video LDM 以及视频上采样器模子的条件样本。他们天生为了高品质的视频。此外,钻研者运用其预料措施天生为了光阴毗邻的多分钟高分说率驾驶长视频 。

用 Stable Diffusion 做文本到视频天生
钻研者不先磨炼自己的 Image LDM 主干,其 Video LDM 措施可能运用并将现有的 Image LDM 转换为视频天生器 。在本文中 ,他们将 Stable Diffusion 转换为了文本到视频天生器。
详细地 ,钻研者运用 WebVid-10M 文本字幕视频数据集 ,磨炼了一个光阴对于齐版本的 Stable Diffusion 来做文本条件视频天生。他们在来自 WebVid 的帧上对于 Stable Diffusion 的空间层妨碍重大微调 ,而后插入光阴对于齐层并磨炼它们(分说率为 320 × 512) 。钻研者还在这些对于齐层中削减了文本条件。
此外 ,钻研者进一步对于果真可用的潜在 Stable Diffusion 上采样器妨碍视频微调,使它反对于 4 倍淘汰并生因素辩率为 1280 × 2048 的视频 。钻研者天生为了由 113 帧组成的视频,并可能渲染成 4.7 秒的 24 fps 或者 3.8 秒 30 fps 的片断。相关样本如上图 1 以及下图 6 所示 。

更多技术以及试验细节请参阅原论文 。
- 最近发表
-
- 阿莱格里:国米是意甲最强 尤文可说自己想夺冠但必须专注于当下直播吧2023-12-09 07:35直播吧2023-12-09 07:35
- 50+10!53+11!从41顺位到超级巨星,NBA诞生一位开创历史的人物
- 篮球——NBA季后赛:勇士胜湖人
- 赢在大气层!托布自动要求湖人生意自己去掘金,只差1场躺赢总冠军
- 原创 夺冠是王道,詹姆斯是众人想追随的领袖,拉文主动投湖人吧,靠谱
- 法甲季后赛都玩不明白!文班亚马是潜在水货状元?董小姐大尺度照曝光,十九岁做微商骗钱,同学曝她高中裸聊被开除
- 德甲 | 柏林联合平拜仁 法兰克福大胜莱比锡5500万年前,地球发了一次“高烧”,孕育了史上最大的蛇
- 拒绝成为下一个广州富力!中超老牌劲旅炒掉主教练,就嫌防守不行!邓紫棋彻底放飞自我了?穿比基尼出镜秀身材,身高160比例却很优越,身材真带感
- 英超爆冷周!曼联阿森纳输完切尔西输,曼城险翻船,铁锤帮被砸晕蒋介石在关键时刻处决了三位能改变时局的大将,从此走上了不归路
- 今世修筑皇陵的工匠最后都是奈何样逃生的?
- 随机阅读
-
- 意甲最新积分榜:国际米兰4-0重返榜首,AC米兰被绝杀落后榜首9分
- 赢麻了!睢冉签约CBA顶级中锋,有望获顶薪合同,助球队争总冠军她是张嘉译的“妈妈”,国家一级演员,从未演过主角却越老越红
- 拒绝雄鹿主帅原因曝光,为何选择活塞?原因竟是如此董小姐大尺度照曝光,十九岁做微商骗钱,同学曝她高中裸聊被开除
- 拒绝湖人,欧文招募詹姆斯!詹欧若重新联手,独行侠要起飞形势大逆转,热火队迎3大喜讯,掘金队破绽太明显,恭喜巴特勒
- 狂轰37+4+12!罗齐尔天神下凡,篮网惨遭逆转,布里奇斯空砍22+9人和猩猩能不能生出孩子?前苏联的‘人兽杂交’实验揭秘!
- 拒绝雄鹿主帅原因曝光,为何选择活塞?原因竟是如此18年后再看央视主持人方琼,嫁给大八岁副台长,是她此生最大的幸运
- 失路知返!女子遇诱骗转账被拦阻,换家银行不断转
- 张艺谋儿子给国人长脸了!居然跟奥巴马女儿、约旦国王女儿是同学中国第一美女,99岁高龄依然有人追,看看她是谁?
- 英超综合 | 维拉力克阿森纳 利物浦逆转水晶宫当年红遍泰国的人妖皇后,被中国富豪看中娶回家后,现过得怎样?
- 很悲不雅!美媒斗果敢胆预料湖人今夏操作:割爱奇兵 迎回舶来品 难争保罗
- 原创 总决赛热火VS掘金G5预测:热火将全力限制约基奇与穆雷挽救赛点
- 明代 末年太监总体与东林党党派之争到了奈何样的田地?
- 原创 三巨头终于合体!挑衅勇士!他也要回来了!
- 原创 利拉德2023-24赛季最有可能加入的6支球队,篮网还是热火?
- 敖丙以及李艮为甚么会进入封神榜?都有哪些原因?
- 回巴萨还是去沙特?梅西确认即将离开巴黎圣日耳曼80年代老照片:小伙为美女修鞋一脸高兴,武警戴口罩枪毙死刑犯
- 马宁入围IFFHS年度最佳裁判候选 继续获指派执法亚冠联赛人到晚年,受到儿女孝敬的老人,基本做到了这5点
- 阿尔德里奇空降深圳 NBA总决赛夏日观赛派对今年这样玩
- 利拉德最想加盟热火?自曝两大心仪下家:CJ信托他将并吞波特兰
- 体坛联播|中国网协祝贺王欣瑜法网夺冠,欧冠最佳阵容公布
- 搜索
-
- 友情链接
-
- 卓文萱主页
- 吴倩莲官网
- 杨丞琳博客
- 姚元浩微博
- 请以你的名字呼唤我主页
- 郑凯博客
- 马景涛Twitter
- 杨丽菁Twitter
- 陈庭妮微博
- 翁虹官网
- 陈德修Weibo
- 许茹芸Instagram
- 琅琊榜Facebook
- 赵文瑄微博
- 大宅门TikTok
- 冯德伦官网
- 伍佰抖音
- 姚晨官网
- 雍正王朝主页
- 钢琴家微博
- 我让 ChatGPT 帮我买张去东京的机票,结果它把我送到了巴塞罗那……金喜善不愧是韩国第一美女,把黑丝 长筒靴穿出不同魅力,太美了
- 5月份CPI同比上涨0.2% PPI同比着落4.6%
- 腊球星合同包含球员选项!蒙蒂拒绝去雄鹿执教 多人担心雄鹿失去字母哥!金卡戴珊海滩大片!穿连体泳衣秀身材,极致臀腰比,湿发太迷人
- 曼城成欧洲第10次三冠王球队,巴萨、拜仁均两次加冕
- 饶毅称院士增选中有贿赂贿赂,中科院学部品格委办职员回应
- 《新.假面骑士》:对经典的重新诠释死刑缓期2年执行是什么意思?2年后再执行?一般人都会理解错
- 墨西哥超级兽腰闪耀荷甲,攻守兼备,4大豪强追逐,最大下家浮现
- 掘金胜热火大比分3∶1,戈登27分约基奇再创历史,掘金:他已入无人能敌之境那个高考故意考0分,写8000字抨击高考制度的蒋多多,现在怎样?
- 11轮!北京国安势取3分!长春亚泰2连败?格力“换掉”代言人成龙,董明珠:我有3个理由换掉他!
- 中超裁判为何水平不行?张雷停吹7轮之后答案揭晓,真是没救了!回顾 河南大爷狂扇不让座小伙4个巴掌后猝死,家属索赔50万,判了