历史上的今天
返回首页

历史上的今天

今天是:2025年07月25日(星期五)

正在发生

2019年07月25日 | 比AI视频换脸还可怕!DeepMind新AI可生成逼真视频

2019-07-25 来源:EEWORLD


近日,DeepMind的研究人员研发了一个名叫Dual Video Discriminator GAN(DVD-GAN)的人工智能模型,该模型通过能够通过学习一系列的YouTube视频数据集,生成高度逼真且连贯的256 x 256像素视频,最长可达48帧。


目前,DVD-GAN的研究成果已于美国时间2019年7月15日发表在arxiv上,名为《在复杂数据集上的高效视频生成(Efficient Video Generation on Complex Datasets)》。



AI造假视频比造假图片更难


最近,俄罗斯AI研究人员开发的FaceApp着实大火了一把,这款应用通过人工智能技术能够改变用户自拍照的年龄、外貌、发色和性别,甚至可以生成虚构的人物照片。这直接让人们近距离地感受了人工智能技术给我们的生活带来的乐趣。


但是否有人想过,有朝一日这些技术也能应用在视频领域呢?


如果说BigGAN是DeepMind在图像领域开发的能够生成高度逼真图像的图像生成器,那么DeepMind研究人员们开发的DVD-GAN,就是人工智能在视频剪辑生成领域的最新突破。


研究人员在论文中表示,生成自然视频对生成式建模来说是一个较大的挑战,同时还会受到数据复杂性和计算需求增加的困扰。


因此,之前业界的研究人员们在研究视频生成领域时,几乎都围绕着相对简单的数据集,或者采用有限的时间信息来降低任务的复杂程度。


而这次,DeepMind的研究人员们主要针对视频合成和视频预测的任务,将生成图像模型的强大功能和逼真效果扩展到视频领域。


DVD-GAN:基于BigGAN模型结构


研究人员们基于BigGAN的模型结构,构建了DVD-GAN的系统,并引入了一系列用于视频生成的调整,使DVD-GAN能够在Kinetics-600上进行训练。


Kinetics-600是一组由50万段10秒高分辨率的YouTube视频剪辑汇编而成的训练数据集,它最初是为识别人类动作而制作的,比目前其他常用的语料库还大一个数量级。


同时,研究人员们表示,Kinetics-600具有多样化特征,能消除他们对过拟合(Overfitting)的担忧。过拟合主要是指机器学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。


另一方面,DeepMind的研究人员们利用生成对抗以提供一个能生成动作的学习信号。

此外,DVD-GAN还有一个单独的Transformer模块,它可以让学习信息在整合AI模型中传播。



训练12至96小时即可生成视频


研究论文表明,在经过Google第三代TPU训练了12至96个小时后,DVD-GAN可以成功地生成视频,这些视频内容包含了物体的组成和运动,以及各种复杂的纹理。

不足的是,DVD-GAN生成的视频内容有时较为“诡异”,例如生成的物体和人形奇形怪状,甚至人体忽长忽短地变化。


但研究人员指出,当把DVD-GAN放在UCF-101(一个包含13320个人类动作视频的较小数据集)上进行评估后,DVD-GAN生成的样本初始值最高为32.97。

DeepMind的研究人员们希望能进一步强调在大型复杂视频数据集上训练生成模型的好处,例如Kinetics-600。


“我们设想通过DVD-GAN在这个数据集上建立强大的基线,该基线将被用作未来建模生成领域的参考点。”研究人员表示,“尽管在不受约束的环境下持续生成逼真的视频还需要进行很多工作,但我们相信DVD-GAN是我们朝这个方向迈出的重要一步。”

网络(GANs)来区分生成样本和真实世界样本,该网络主要由生成器和判别器两部分组成。


GANs曾被应用在把文字转换成一幕幕的场景故事,或生成人造星系图像等任务中。而研究人员们这次使用的是名为BigGANs的生成对抗网络,该网络以大批量和数百万个参数而得名。


值得一提的是,DVD-GAN包含两个判别器。一个是空间判别器(Spatial Discriminator:D_S),该判别器通过随机采样全分辨率帧并单独处理,以评估单个帧的内容和结构;另一个是时间判别器(Temporal Discriminator:D_T),它可以提供一个能生成动作的学习信号。 


此外,DVD-GAN还有一个单独的Transformer模块,它可以让学习信息在整合AI模型中传播。


结语:用AI生成高度逼真视频的一次尝试


不管是BigGAN还是FaceApp,以往的研究人员们在人工智能生成图像领域进行了许多具有突破性的研究,但在视频领域,除了AI换脸曾火了一把之外,并没有更多的突破性进展。


而DeepMind的研究人员们基于BigGAN架构和Kinetics-600训练数据集开发的DVD-GAN,利用计算高效的判别器分解,扩展到时间更长、分辨率更高的视频。就目前来说,虽然这一成果还有些许不足,但这无疑是研究人员们利用AI生成高度逼真视频的一次重要尝试。


推荐阅读

史海拾趣

Geo Semiconductor Inc公司的发展小趣事
增加CPU温度监控电路,确保在高速运算时CPU温度不会过高,防止因过热导致的系统崩溃或损坏。
亿晶源(ekinglux)公司的发展小趣事

在不断提升产品质量和创新能力的同时,亿晶源还积极拓展市场。公司先后在华南、华东等地区设立生产基地和销售中心,形成了覆盖全国的销售网络。同时,公司还注重品牌建设,通过参加国内外知名展会、举办技术交流会等活动,提升品牌知名度和影响力。

Adafruit公司的发展小趣事

面对不断变化的市场环境和客户需求,亿晶源始终保持敏锐的市场洞察力和创新精神。公司将继续加大研发投入,推出更多具有竞争力的新产品;同时,加强与国际知名企业的合作与交流,提升公司的国际竞争力。展望未来,亿晶源将致力于成为全球领先的LED半导体制造商之一。

请注意,以上故事框架仅为示例,具体细节和事实可能需要根据实际情况进行调整和补充。

Hamamatsu公司的发展小趣事

在不断提升产品质量和创新能力的同时,亿晶源还积极拓展市场。公司先后在华南、华东等地区设立生产基地和销售中心,形成了覆盖全国的销售网络。同时,公司还注重品牌建设,通过参加国内外知名展会、举办技术交流会等活动,提升品牌知名度和影响力。

Flexxon Pte Ltd公司的发展小趣事

随着电子行业的不断发展和市场需求的日益多样化,Flextronics(Flexxon Pte Ltd)开始实施多元化战略,积极拓展新的业务领域。公司不仅继续深耕消费电子、通信设备等传统市场,还积极涉足汽车电子、医疗电子、物联网等新兴领域。通过并购、合作等多种方式,Flextronics不断拓宽产品线和服务范围,为客户提供更加全面和专业的解决方案。这一战略调整不仅为公司带来了新的增长点,也进一步提升了公司的市场竞争力。

Eby Company公司的发展小趣事

为了提供更好的物流服务,eBay推出了国际运送计划(eBay International Shipping)。该计划允许卖家将来自同一订单的多件物品合并在一个包裹中运送,从而减少了买家支付的运费。这一举措不仅提高了物流效率,也增加了买家的购买意愿。eBay还与其他物流公司合作,提供更快捷、更可靠的配送服务。

问答坊 | AI 解惑

谁能给我发个netsvwrap.msi安装包 谢谢 微软已经不提供下载了 急用 38572681@163.com

谁能给我发个netsvwrap.msi安装包 谢谢 微软已经不提供下载了 急用 38572681@163.com…

查看全部问答>

现今 嵌入式开发中C代码确实比C++ 代码有明显或较大的效率上的优势么 ?

嵌入式开发中C代码确实比C++ 代码有明显或较大的效率上的优势么 ? 硬件发展的今天 两者之间的区别究竟多大呢? 真的不用C++么? 谢谢!…

查看全部问答>

用t1作为中断写的程序,但运行不了,why?

想编写一个p1.1输出方波为100ms(t1做中断)的程序,用汇编我调试好了,但是c却没反应!不知道哪里出错了    #include<reg51.h> sbit p0=P1^0;void main() {    TMOD=0X10; TH1=0X3C; TL1=0XB0 ...…

查看全部问答>

DCDC转换器

DCDC是直流到直流转换器,由于没用过不太了解,谁帮个忙说一下 它是怎么工作的,假设12V转到5V的DC 那么如果输入12V不稳定输出会稳定吗?还有如果输入大于12V呢  输入与输出之间有什么关系嘛?实在是不了解,望大虾们帮忙解惑。 …

查看全部问答>

串口发送中断打开后就不停的循环中断,必须软件设置终止,是吗

串口发送中断打开后就不停的循环中断,必须软件设置终止,是吗…

查看全部问答>

请推坛友推荐个传感器吧!

要求:带配在人身上,主要是判断人体处于运动还是静止状态。因为是电池3.7v供电的,要求尺寸小、功耗低、工作电压低。如果还可以调节灵敏度最好了。只需要提供开关信号就好了。 [ 本帖最后由 zhang9591 于 2011-12-6 16:47 编辑 ]…

查看全部问答>

关于DM9000A升级到DM9000C的问题

DM9000AEP升级到DM9000CEP:   最近有很多朋友,问到DM9000AEP升级到DM9000CEP,是否可以完全兼容。或者需要修改哪些地方,可以这样回答:   1.DM9000AEP和DM9000CEP在管脚定义上是完全PIN TO PIN,都是LQFP48PIN,目前因为行业竞争 ...…

查看全部问答>

串口发送时定时器工作在方式1 的问题

大家做串口发送的时候,一般定时器1都是用的八位重装,有谁用过工作方式1的啊,我现在用八位重装是对的,但用工作方式1 就不对了,望各位给个提示把…

查看全部问答>

点阵生日歌

点阵生日歌 ——Made By JQH        先来说说这个东西能完成的功能。成品主要由是一个8*8的led点阵,一个小扬声器,一片74LS138,一片MSP430G2553组成。实现了一些简单的文字、字母、表情更替显示和“祝你生日快乐”歌曲的播 ...…

查看全部问答>

基于MSP430G2553的Bootloader软件流程图

经过实际调试通过!不说什么直接上附件!…

查看全部问答>