谷歌展示AI生成超分辨率长视频,结合Imagen Video Phenaki两种模型

1个月前 (11-17 23:57)阅读2回复0
路人甲
路人甲
  • 管理员
  • 注册排名2
  • 经验值84850
  • 级别管理员
  • 主题16970
  • 回复0
楼主

好像比来一年 DALL-E 2、Stable Diffusion 等文本生成图像模子开展一样,用文原来生成视频的 AI 东西也正变得越来越多。

继 Meta 的 Make-A-Video 之后,谷歌也接连发布了两款视频模子 Imagen Video 和 Phenaki。两者别离强调视频的量量和长度等差别功用。

Meta日前,在人工智能活动上,谷歌初次发布了由 Imagen Video 和 Phenaki 一同生成的视频。该视频连系了 Phenaki 生生长视频才能和 Imagen 的高分辩率细节。

“我认为利用一系列提醒,创造如许的超分辩率长视频令人难以置信,那是一种讲故事的新体例,”谷歌研究中心首席科学家兼谷歌大脑团队研究总监道格拉斯·埃克(Douglas Eck)在活动平分享说,“很等待片子人或视频故事讲述者若何操纵我们的手艺。”

谷歌在官方博客中表达,Imagen Video 和 Phenaki 的连系是一项重要打破,它正在勤奋打造领先行业、能生成高量量影响的东西。AI 驱动的生成模子有着无限的创造力,可搀扶帮助人们借助视频、图像东西,以他们之前无法做到的体例足够表达本身设法。

再别离简单介绍下 Imagen Video 和 Phenaki。

据领会,Imagen Video 基于级联视频扩散模子来生成高清视频。如输入文本提醒后,根本视频扩散模子和多个时间超分辩率(Temporal Super-Resolution,TSR)及空间超分辩率(Spatial Super-Resolution,SSR)模子,别离以 40×24 像素和 3 帧/秒速度生成 16 帧视频、以 1280×768 像素和 24 帧/秒的速度采样,最末得到 5.3 秒的高量量视频。

(来源:谷歌)

该模子还用到了 Video U-Net 架构,可以使其对长时间动态停止建模。时间自留意用于根本视频扩散模子,而时间卷积用于 TSR 和 SSR。

别的,它训练所用数据来自 LAION-400M 图像文本数据集和 1400 万个视频(包罗对应的文本)、6000 万个图像(包罗对应的文本)。

展开全文

值得一提的是,Imagen Video 中的扩散模子都可零丁训练。然后,该系统不只可以生成高保实视频,并且还具有高度的可控性和对世界常识的理解力,从而可以使得生成的视频和文本动画具备各类艺术气概。

而 Phenaki 是一个可以在给定一系列文本提醒的情状下,停止传神视频合成的模子。谷歌对此用到了一种新的因果模子,其可将视频表征为小型离散令牌,那允许它处置可变长度的视频。用户还能够在此中论述和动态更改场景。

为了从文本生成视频令牌,谷歌还利用双向屏障转换器。而为领会决训练数据较少问题,谷歌还通过在大型图像-文本对语料库和较少的视频-文本示例长进行结合训练,从而拓展视频数据集的可用范畴。

相较其他视频生成模子,Phenaki 可通过一系列提醒,在开放域中生成所有时间段的视频。谷歌在官网提到,那是初次以时间变量提醒生成视频。此外,研究所提出的视频编码器-解码器在多方面都优于文献中目前利用的所有每帧基线。

Phenaki 能够将详细的文本提醒转换为两分钟以上的视频,但缺点是视频量量较低。

图 | Phenaki 根据文本生成视频示例(来源:谷歌)

别的,在本次 AI 活动日上,谷歌还介绍了自家其他模子的一些停顿,好比通过 LaMDA 对话模子来写尝试小说(谷歌即将颁发一篇该方面的论文),并提到了利用 AI 来生成代码,用 AudioLM 生成音频、将 Imagen 与 NeRF(神经辐射场,Neural Radiance Fields)的 3D 功用连系等等。

“生成范畴在短时间内能有如斯多停顿,我是没有想到的。”埃克对外谈道。

不外,值得留意的是,目前生成式 AI 仍有一些问题需要处置。好比,Imagen Video 和 Phenaki 有被滥用的风险,生成虚假、仇恨、露骨等不良内容。谷歌目前也采纳了输入文本提醒过滤和输出视频内容过滤等办法来更大程度地削减那些问题。但关于一些社会成见和刻板印象仍难停止检测和过滤,因而谷歌还未正式发布相关模子及源代码。

最初,谷歌在活动中还表达,其从一起头就对负责任的人工智能高度存眷,将继续停止匹敌性测试,并设定了一套定量基准,能够在AI的所有维度长进行丈量和验证。

谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)在与会视频中说:“我们努力于确保手艺是为了搀扶帮助人们更好地生活。”他还指出了AI带来的风险和挑战,并表达,谷歌将优先考虑人们的平安和隐私,而不是其他任何工作。

参考材料:

/

/

/

/

/

由 DeepTech 联袂《麻省理工科技评论》重磅推出的《科技之巅:全球打破性手艺立异与将来趋向(20 周年收藏版)》已开启预售!点击下方海报可购置图书!

0
回帖

谷歌展示AI生成超分辨率长视频,结合Imagen Video Phenaki两种模型 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息