历史上的今天
返回首页

历史上的今天

今天是:2025年01月11日(星期六)

2021年01月11日 | AI「干掉」程序员后,又对艺术家下手

2021-01-11 来源:极客公园

      人工智能领域缺钱,但这两个月来,他们不缺‘好消息’。

  Google 母公司 Alphabet 旗下的 DeepMind,先推出了蛋白质结构预测 AI——AlphaFold 2,为困扰了生化学界 50 年的难题提供了解决思路;接着又发论文介绍‘进阶版 AlphaGo’——MuZero,这个 AI 能在完全不知道棋局规则和人类知识的情况下,自己摸索,决策,并赢棋。

  2021 年的第一周还没过去,AI 就再次向人类发起了‘挑衅’。

  AI 研究机构 OpenAI,继去年部分开放了 AI 模型 GPT-3 并引爆整个科技圈之后,又于近期连发了 DALL·E 和 CLIP 这两个连接文本与图像的神经网络。它们刚一面世,就点燃了整个 AI 社区。因为人们发现有了这些神经网络,就能通过自然语言操纵视觉概念,比如,你输入‘一把牛油果造型的扶手椅’,它们就能通过图像合成,‘凭空捏造’出一系列的目标图像。

  什么是人工智能的未来?《麻省理工科技评论》认为就是‘那把牛油果造型的扶手椅’,因为 AI 又往‘构建多模态 AI 系统’这个长期目标又迈近了一大步。

  ‘干掉’程序员后,AI 又对艺术家下手了

  DALL·E 率先在社交网络上刷起了屏,因为人们放出了很多看起来像凭空捏造的合成图,比如‘立方体状的豪猪’、‘由乌龟变成的长颈鹿’和‘竖琴状的蜗牛’,这些就像是超现实主义画家萨尔瓦多·达利在梦里会看到的奇异造物。有意思的是,DALL·E 也正是‘Dalí’和皮克斯动画形象‘WALL-E’的合成词。

  竖琴状的蜗牛

  DALL·E 是 OpenAI 基于 GPT-3 开发的一种‘用字生图’的 AI。GPT-3 本质上是一个自然语言处理(NLP)模型,机器就是依靠 NLP 理解了我们平时说的‘人话’。在 1750 亿参数量基础上的 GPT-3,展现出了惊人的翻译、问答和文本填空能力,写出来的新闻甚至通过了图灵测试,人们分辨不出是人还是机器写的。

  GPT-3 可扩展性非常强大,甚至可以用在无代码开发领域。无代码就是就是不用敲代码也可以直接生成程序,而 GPT-3 就是强大的无代码开发平台,只要对它输入你想要什么样的网页或者 app,它就能帮你直接生成。因此,业内认为基层码农将会被 AI‘干掉’。

  而 DALL·E 是 GPT-3 的一个小版本,使用了 120 亿个参数。它使用的是‘文本-图像对’的数据集,而非像 GPT-3 那样广泛的数据集。‘从原理上来看,它应该就是 GPT-3 在文本合成图像方向上的扩展版本。’Keras 创始人 François Chollet 表示。

  DALL·E 可以利用自然语言从文字说明中‘捏造’图像,就像 GPT-3 创建网站和写故事一样。DALL·E 生成复杂图像的表现,让人惊喜,比如下面这则包含多个要素的目标文本:‘一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬’。

  要正确地解释这句话,DALL·E 不仅要正确地将每件衣服与动物组合在一起,还要将(帽子、红色)、(手套、黄色)、(衬衫、蓝色)和(裤子,绿色)形成各种联想,而且还不能混淆它们。

  这张图显示了 DALL·E 掌握了理解相对定位、堆叠对象和控制多个属性方面的能力|OpenAI

  因为足够强大的 NLP 底层,DALL·E 还能执行多种图像到图像的翻译任务,比如‘参照上面的猫在下面生成草图’、‘画出和上面一样的茶壶,并在茶壶上写上“GPT”’等等。除此之外,DALL·E 也能理解地理事实,生成让人信服的‘中国食物的图片’,它甚至也能理解‘时间’,画出从 20 年代起发明的电话,甚至联想未来的手机。

  中国食物

  各个年代的手机

  另外,它还能根据文字指令‘看日出的水豚鼠’,生成诸如波普风格、超现实主义风格、浮世绘风格等不同艺术风格的画作,还能渲染出各个角度下美洲狮的细节。

  看日出的水豚鼠

  Coursera 创始人、斯坦福大学教授吴恩达还特别对 OpenAI 表示祝贺,并挑选了自己最喜欢的‘蓝色衬衫 + 黑色长裤’的 AI 生成图。DALL·E 能不能成为艺术家不敢说,但成为 AI 大神的着装参谋,绰绰有余。

  吴恩达的 Twitter

  一个生成图像,一个匹配文字和图像

  但 DALL·E 目前也存在局限,比如当人们引入更多的对象时,DALL-E 容易混淆对象及其颜色之间的关联。另外,用意思相同的词重新表述指令,生成的图像也不一致。还有一些迹象表明,DALL·E 只是在模仿它在网上看到的图片,而不是生成新颖的图像。

  而 OpenAI 同期发布的 CLIP(Contrastive Language–Image Pre-training),则是为了加强文本和图像的关联程度而诞生的。CLIP 是一个从互联网上收集的 4 亿对图像和文本来进行训练的多模态模型。

  CLIP 使用了大量可用的监督资源,即网络上找到的文本-图像对。这些数据用于创建 CLIP 的代理训练任务,即给定一张图像,然后预测数据集中 32768 个随机采样文本片段中哪个与该图像匹配。

  简单来说,CLIP 能根据视觉类别名称,自己分类图像,创新点在于它学会了识别图像,而不是像大多数现有模型那样,通过数据集中的标签(比如‘猫’或‘香蕉’)识别图像,而是从互联网上获取的图像及其标题中识别图像。

  CLIP 瞄向的,就是当前深度学习的两个‘痛点’:一是数据集构建成本高昂;二是数据集应用范围狭窄。具体来说,深度学习需要大量的数据,而视觉模型传统上采用人工标注的数据集进行训练,这些数据集的构建成本很高,而 CLIP 可以从互联网上已经公开可用的文本图像对中自行学习;CLIP 可以适应执行各种各样的视觉分类任务,而不需要额外的训练样本。

  另外,实验结果表明,经过 16 天的 GPU 训练,在训练 4 亿张图像之后,Transformer 语言模型在 ImageNet 数据集上仅实现了 16% 的准确率。CLIP 则高效得多,实现相同准确率的速度快了大约 9 倍。

  简单来说,DALL·E 可以基于文本直接生成图像,CLIP 则能够完成图像与文本类别的匹配。


  出门问问 CEO 李志飞曾告诉极客公园(ID: GeekPark),‘GPT-3 随着数据和参数规模增大而展现出的学习能力曲线,目前也还没有要停止的意思。虽然 AI 的学习能力还没有达到大家公认的‘摩尔定律’,但是过去几年确实看到模型每几个月就翻倍。可以预测到的是,GPT-4 参数又会增大至少 10 倍,而且处理的数据将会更加多模态(文字、图像、视觉、声音)。’

  OpenAI 首席科学家 Ilya Sutskever 也在推特上发文表示:‘人工智能的长期目标是构建多模态神经网络,即 AI 能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。’

  DALL·E 和 CLIP 的出现,让人们看到自然语言与视觉的壁垒正在被逐渐打通。

  几十年前,柯达说出了那句经典的广告语,‘你负责按快门,剩下的交给我们’。在未来,AI 兴许也会打起类似的广告,‘你什么都不用干,剩下的交给我们’。


AI
推荐阅读

史海拾趣

Bussmann (Eaton)公司的发展小趣事

随着全球市场的不断扩张,Bussmann也加快了其全球化布局的步伐。目前,Bussmann的产品已在全球170多个国家销售,为各地的客户提供优质的电路保护解决方案。同时,为了满足不同客户的需求,Bussmann不断扩展其产品线,现已涵盖电气电源熔断器、电子电路板及小型熔断器、熔丝盒、熔丝座及断开开关等多个品类。这些产品的推出不仅丰富了Bussmann的产品线,也使其能够更好地满足市场的多元化需求。

以上五个故事展示了Bussmann (Eaton)公司在电子行业发展的不同阶段和关键节点,体现了其技术创新、市场拓展和全球化布局的重要历程。这些故事不仅反映了Bussmann在电路保护领域的领先地位,也展示了其在应对市场变化和客户需求方面的灵活性和实力。

High Voltage Semiconductor Inc公司的发展小趣事

进入21世纪,美高测持续加大在技术研发上的投入,成功研发出具有自主知识产权的VLF(超低频)测试技术,并应用于变电站设备、中高压电力电缆等关键领域的测试。这项技术不仅提高了测试的准确性和效率,还降低了操作风险,迅速获得了市场的广泛认可。公司借此机会,在全球范围内建立了多个销售和服务中心,进一步巩固了其在高压半导体测试市场的领先地位。

HEIMANN公司的发展小趣事

随着市场需求的多样化,美高测开始提供更加定制化的高压半导体测试解决方案。公司深入了解客户的具体需求,从产品设计到售后服务,全程参与并提供专业指导。例如,针对某些特定行业的高压电缆测试需求,美高测设计并生产了具有超长测试距离和高精度测试结果的专用设备,赢得了包括军工、航空航天在内的多个高端客户的青睐。

Furukawa Electric Co Ltd公司的发展小趣事

随着市场需求的多样化,美高测开始提供更加定制化的高压半导体测试解决方案。公司深入了解客户的具体需求,从产品设计到售后服务,全程参与并提供专业指导。例如,针对某些特定行业的高压电缆测试需求,美高测设计并生产了具有超长测试距离和高精度测试结果的专用设备,赢得了包括军工、航空航天在内的多个高端客户的青睐。

Arduino公司的发展小趣事

2005年,意大利Ivrea交互设计学院的副教授Massimo Banzi面临了一个问题:他的学生们无法负担市面上昂贵的微控制器。为了解决这个问题,Banzi与他的同事David Cuartielles开始着手制造一个更便宜、更易于使用的电子平台。他们基于学生Hernando Barragá的Wiring平台,通过拆解和重新设计,最终推出了价格仅为30美元的Arduino电路板。Arduino的名字来源于他们常去的酒吧“di Re Arduino”,以此纪念这个创新的起点。

Fedco_Batteries公司的发展小趣事

Fedco_Batteries的创始人李先生,在电子产业蓬勃发展的年代,看到了电池领域的巨大潜力。他凭借对技术的热爱和对市场的敏锐洞察,决定投身电池制造行业。创业初期,公司面临着资金短缺、技术瓶颈等重重困难。然而,李先生带领团队日夜兼程,不断研发新型电池技术,最终成功推出了一款性价比高、性能稳定的电池产品,打开了市场的大门。

问答坊 | AI 解惑

不需零线的三相交流源相序检测保护器集成电路TH221A

介绍了不需零线的三相交流电源相序检测保护集成电路TH221A的内部结构,引脚功能,设计特点和参数限制.给出了由两只TH221A组成的三相二重逆变桥输出的缺相和错相保护电路. …

查看全部问答>

RISC单片机的特点

作者:邓宏杰先生 在MCU开发方面,以架构而言,可分为两大主流;RISC(Reduced Instruction Set Computer)与CISC(Complex Instruction Set Computer), RISC代表MCU的所有指令都是利用一些简单的指令组成的,简单的指令代表 MCU 的线路可以尽量做到最佳 ...…

查看全部问答>

关于薄膜键盘接口

我们订做了一个薄膜键盘,有N多线出来,怎么把这些线转换为PS/2接口?需要加什么东西么?…

查看全部问答>

c# 汉字 内码

c#下: array[0] = (byte)t1; string ch = System.Text.Encoding.Default.GetString(array); //字节解码成汉字... wince下 没有GetString()方法; 请问一下,wince下怎么将内码转换成汉字??…

查看全部问答>

崩溃了,这没有串口的笔记本编程咋整啊?

笔记本没串口,要向板子写程序,买了根USB转串口的线。 烧51程序时,直接接在板子的9针串口没问题。但一块板子是用PS/2的,于是多接一根,USB-232  232-PS/2,烧写就失败了。 还有,用超级终端和一块ARM板通信时,返回的都是乱码,到 ...…

查看全部问答>

单片机初学者必读

   单片机是一门实践性非常强的学科,没有实践一切都是“空中楼阁”,花点钱买块开发板是非常必要的。(“开发板就好比农民种地的种子,只要能合理利用,它便会生根发芽,最后定能收获丰盛的果实。想要种好地,不要不舍得去买好种子”。 ...…

查看全部问答>

请问在大连目前这些嵌入式系统学习哪个比较好找工作?

   我是做APS.Net的,用的是C#,但是我对嵌入式系统的开发产生了浓厚的兴趣,想转投这个行业,看了看有C、C++、WinCE、嵌入式Linux、VxWorks等,请问这些哪个比较容易上手?在大连搞嵌入式开发的公司里面用哪个的比较多一些?…

查看全部问答>

WINCE下SHFileOperation支持多文件复制吗?

如题,要做个类似资源管理器的程序 实现一些文件操作 当多选文件进行复制时,SHFileOperation还支持吗 有做过的指点下. 顺便问下  复制时好像阻塞在那,不能进行其他操作 怎么回事呢…

查看全部问答>

有谁研究过歌乐CD机I2C通信协议,请求交流~~~~~~~~~~~~~~~~

有谁研究过歌乐CD机I2C通信协议,请求交流~~~~~~~~~~~~QQ :31498421…

查看全部问答>

烧写2812 FLASH 遇到问题

我现在烧写2812 CE 的FLASH时,MC/MP置1,SCITXDA=1, 烧写FLASH 时,但烧写界面的右半面灰掉,无法选中进行烧些,左面的加密,部分界面却可以进行操作 ,只有UNLOCK键灰掉无法使用,但按UNLOCK键,总提示UNLOCK 失败,请问是什么原因?是否需要在插 ...…

查看全部问答>