历史上的今天
返回首页

历史上的今天

今天是:2024年12月18日(星期三)

正在发生

2018年12月18日 | 英伟达面目生成器升级至2.0 计算机视觉或可再突破

2018-12-18 来源:张康康

近期,由英伟达的AI团队为GAN创造了一种新的生成器,连GAN之父Goodfellow也忍不住发出称赞。从下图我们可以看到很多的清晰的人像,但这些并不是照片,而是一组完全由计算机生成的图片。

这个结构不需要人类监督,可以自动分离图像中的各种属性。这样,在或粗糙或精细的不同尺度上,人类便能自如地控制GAN的生成。

英伟达研究人员在论文中写道,他们提出的新架构可以完成自动学习,无监督地分离搞基属性以及生成图像中的随机变化,并且可以合成进行更直观且特定于比例的控制。也就是说,这种新的生成器在生成和混合图像,特别是人脸图像时,可以更好地感知图像之间有意义的变化,并且在各种尺度上针对这些变化做出引导。

研究人员使用的旧系统可能产生两个“不同”的面部,这两个面部其实大致相同,只是一个人的耳朵被抹去了,两个人的衬衫是不同的颜色,而这些并不是真正的面部特异性特征,不过系统并不知道这些是无需重点关注的变化,而当成了两个人来处理。

1.Generation

什么是生成(generation)?就是模型通过学习一些数据,然后生成类似的数据。让机器看一些动物图片,然后自己来产生动物的图片,这就是生成。

以前就有很多可以用来生成的技术了,比如 auto-encoder(自编码器),结构如下图:

你训练一个 encoder,把 input 转换成 code,然后训练一个 decoder,把 code 转换成一个 image,然后计算得到的 image 和 input 之间的 MSE(mean square error),训练完这个 model 之后,取出后半部分 NN Decoder,输入一个随机的 code,就能 generate 一个 image。

但是 auto-encoder 生成 image 的效果,当然看着很别扭啦,一眼就能看出真假。所以后来还提出了比如VAE这样的生成模型,我对此也不是很了解,在这就不细说。

上述的这些生成模型,其实有一个非常严重的弊端。比如 VAE,它生成的 image 是希望和 input 越相似越好,但是 model 是如何来衡量这个相似呢?model 会计算一个 loss,采用的大多是 MSE,即每一个像素上的均方差。

第一张,我们认为是好的生成图片,第二张是差的生成图片,但是对于上述的人来说,这两张图片计算出来的 loss 是一样大的,所以会认为是一样好的图片。

这就是上述生成模型的弊端,用来衡量生成图片好坏的标准并不能很好的完成想要实现的目的。于是就有了下面要讲的 GAN。

2.GAN

GAN 是如何生成图片的呢?首先大家都知道 GAN 有两个网络,一个是 generator,一个是 discriminator,从二人零和博弈中受启发,通过两个网络互相对抗来达到最好的生成效果。流程如下:

主要流程类似上面这个图。首先,有一个一代的 generator,它能生成一些很差的图片,然后有一个一代的 discriminator,它能准确的把生成的图片,和真实的图片分类,简而言之,这个 discriminator 就是一个二分类器,对生成的图片输出 0,对真实的图片输出 1。

接着,开始训练出二代的 generator,它能生成稍好一点的图片,能够让一代的 discriminator 认为这些生成的图片是真实的图片。然后会训练出一个二代的 discriminator,它能准确的识别出真实的图片,和二代 generator 生成的图片。以此类推,会有三代,四代……n 代的 generator 和 discriminator,最后 discriminator 无法分辨生成的图片和真实图片,这个网络就拟合了。

3.GAN2.0到GAN3.0

使用基于风格的生成器的GAN2.0,在各个方面都优于传统的GAN。英特尔团队相信,对高阶属性与随机效应分离的研究,以及中间隐空间(intermediate latent space)的线性,将会对提高GAN合成的理解和可控性有很大的帮助。平均路径长度度量可以很容易地用作训练中的正则化器,也许线性可分度量的某些变体也可以作为一个正则化器。

除了人像,GAN 2.0还可以生成房间、汽车等各种场景。有了这样的技术,未来再也不用发愁图像数据集。毕竟这些计算机生成的“人”,已经如此的真实。总的来说,在训练期间直接塑造中间隐空间(intermediate latent space)的方法将为未来的工作提供有趣的途径。而未来,GAN3.0将会突破瓶颈,达到更令人瞩目的视觉成就。

4.结语

目前国内做计算机视觉的以旷视科技Face++、商汤科技、极链科技Video++为代表的AI头部企业为代表,以算法为核心竞争力的AI初创企业,扎根于技术,都在计算机视觉上做出了卓越的成就。计算机视觉的研究和发展具有极其重要的意义,不但满足人工智能应用的需要,如在计算机实现人工的视觉系统的需要。其次这些成果可以安装在计算机和各种机器上,使计算机和机器人能够具有“看”和创作图像的能力。视觉计算模型的研究结果反过来对于我们进一步认识和研究人类视觉系统本身的机理,甚至人脑的机理,也同样具有相当大的参考意义。

推荐阅读

史海拾趣

Crocus Technology公司的发展小趣事

Crocus Technology的创立源于2006年法国格勒诺布尔的自旋电子学Spintec研究实验室。这家公司在创立之初就面临着巨大的挑战,因为磁阻随机存取存储器(MRAM)市场当时竞争激烈,众多公司因技术难题和市场定位不当而相继倒闭。然而,Crocus Technology凭借其独特的技术视角和坚定的市场信念,成功地在这场竞争中生存下来。

Arcolectric公司的发展小趣事

Arcolectric始终坚持品质至上的原则,对产品的每一个环节都进行严格的质量控制。公司不仅通过国际制造架构的合作来确保产品的高品质,还积极引进先进的生产设备和技术人才,不断提升产品的性能和可靠性。这种对品质的执着追求使得Arcolectric的产品在全球范围内得到了广泛的认可和赞誉。

Corstat Containers公司的发展小趣事

Corstat Containers公司始终坚持以品质为核心的发展理念。在生产过程中,公司严格把控原材料采购、生产工艺和产品质量检测等环节,确保每一件产品都符合客户的要求。这种对品质的坚持赢得了客户的信任和好评,也为公司赢得了更多的合作机会。

Adam Tech公司的发展小趣事

Adam Tech公司成立于1987年,总部位于美国新泽西州。创业初期,公司面临着资金短缺、市场竞争激烈等诸多困难。然而,创始人凭借对电子连接器行业的深刻理解和执着追求,带领团队克服重重困难,逐渐在市场上站稳脚跟。公司最初的产品线相对单一,但凭借着高品质和可靠的性能,逐渐赢得了客户的信任。

Bias Power公司的发展小趣事

在电子行业的早期,Bias Power公司凭借其创新的基于开关技术的低功率隔离式AC/DC电源设计,迅速在市场中脱颖而出。当时,传统的电源设计方案效率低下,成本高昂,难以满足市场的迫切需求。Bias Power公司凭借其专有设计,实现了电源的高效率、高密度和成本效益,赢得了众多客户的青睐。

随着技术的不断进步,Bias Power公司不断推出新产品,满足市场的多样化需求。其偏置电源产品线日益丰富,包括提供低于5W功率的AC/DC电源模块,这些模块成为分立电源设计的理想替代方案,帮助设计工程师节省时间和金钱。

Hirosugi-Keiki公司的发展小趣事

在竞争激烈的电子行业中,Bias Power公司始终坚持质量至上的原则。公司建立了严格的质量控制体系,从原材料采购到生产加工、产品测试等各个环节都进行严格把关。此外,公司还引入了先进的生产设备和技术,确保产品的稳定性和可靠性。

由于公司对产品质量的严格把控,Bias Power公司的产品在市场上享有很高的声誉。许多知名企业都选择与其合作,将其产品应用于关键领域和重要项目中。这种信赖和认可为Bias Power公司的发展提供了有力支持。

问答坊 | AI 解惑

荧光灯常用灯丝预热电路

本帖最后由 jameswangsynnex 于 2015-3-3 19:58 编辑 荧光灯常用灯丝预热电路 …

查看全部问答>

DSP算法大全C语言版本

DSP算法大全C语言版本…

查看全部问答>

CPU风扇,本的外置散热风扇是直流的么?51单片机可以控制其转速么?

CPU风扇,本的外置散热风扇是直流的么?51单片机可以控制其转速么? 要怎么搞?…

查看全部问答>

转载:M168训狗心得

新的AVR系列单片机(例如,ATMEGA168等)使用增强功能的看门狗(Enhanced Watchdog Timer),与原来的看门狗相比较,除了有相同复位的功能以外,还增加了中断的功能设计时。使用看门狗的中断功能,可以实现从Power Down状态唤醒CPU;另外同时能使中断和 ...…

查看全部问答>

EEW-DSO-V2.00设计思路

这段时间一直和网友东哥在讨论第二版的设计,大概确定了一下,下个版本的设计方案,采样芯片应该会换成ADC08100,最高100M采样,用两片IS61LV25616-10+CPLD来做FIFO,两片轮流寸,实现100M的读写速度.存储深度比上次用了很大的升级,CPU换成带外部总线的STM ...…

查看全部问答>

USB 2.0 规范

USB 2.0 规范 USB 是一种支持热插拔的高速串行传输总线,它使用差分信号来传输数据,最高速度 可达480Mb/S。USB 支持“总线供电”和“自供电”两种供电模式。在总线供电模式下, 设备最多可以获得500mA 的电流。USB2.0 被设计成为向下兼容的模式 ...…

查看全部问答>

最近在学习 ARM2440,买了一块杭州立宇泰的板子,遇到一个难题,请大家一起帮忙分析一下,谢谢!

最近在学习 ARM2440,买了一块杭州立宇泰 (套餐六) 的板子,遇到一个难题,请大家一起帮忙分析一下,谢谢! 问题是这样的。 开发板的初始化软件是能正常运行的。 我设置成网络启动也能正常工作, 我尝试修改了文件系统,运行了自己的程序,也 ...…

查看全部问答>

酬金500元,北京,请教51单片机的TCP/IP问题

本人在北京,现有一块杭州晶控电子的51NET以太网开发板,开发板介绍:http://www.hificat.com/net/net.asp,想请教一下附带光盘里的单片机源码,(源码已上传,在附件里)。 内容:讲解源码,源码我没仔细看过,是单片机和PC通信的内容,应该是TCP ...…

查看全部问答>

EVC连接SQLCE出问题:recordset 的open方法总是提示:first—chance exception in XX.exe:0X00000f0:s

EVC连接SQLCE出问题:recordset 的open方法总是提示:first—chance exception in XX.exe:0X00000f0:stack overflow。 程序如下          CVOConnection* m_Conn;          CVO ...…

查看全部问答>