历史上的今天
返回首页

历史上的今天

今天是:2024年10月30日(星期三)

正在发生

2018年10月30日 | 科大讯飞“AI同传造假”风波之后,谷歌实时翻译也出问题了

2018-10-30 来源:eefocus

据连线杂志报道,知名语音识别公司科大讯飞卷入的“AI同传造假”风波依然还在发酵,引发了人们关于AI实时翻译技术的更多关注。

 

不久前,谷歌悄悄改变了Pixel Buds耳机的支持页面,并写道:“所有经过Google Assistant优化的耳机和安卓手机,现在都可以使用谷歌翻译。”此前,这一功能仅限于Pixel Buds耳机和Pixel手机用户。尽管谷歌并未大张旗鼓地宣布这个消息,但这个小小的调整却值得注意。

 

实时翻译最初仅限于支持Pixel Buds,但现在可用于任何支持Google Assistant的耳机

 

要知道其中原因,首先我们来了解下谷歌耳机的历史。谷歌去年推出了无线耳机Pixel Buds,此前该公司曾大肆宣传过这款产品,称其是一款革命性的工具,支持实时翻译功能。只要轻敲Pixel Buds,说“帮我说”,它就会打开你手机上的谷歌翻译应用。现在,Pixel手机也同样支持这个功能。

 

接着,你可以说出句子,谷歌翻译会在手机上将其翻译成目标语言,并进行转录,然后读出来。理论上,谷歌的新技术甚至会让口译翻译们担心丢掉工作。这款产品在舞台上的实时翻译演示获得了巨大成功,但当其开始发货时,人们对其似乎产生了怀疑:翻译的质量没有达到公众的预期。

 

 

科技网站用十种不同的语言对实时翻译功能进行了测试。它成功地翻译了些基本问题,比如“最近的医院在哪里”,但当句子变得更复杂,或者说话人有口音时,翻译就会出现错误。评论员们得出的结论是,实时翻译似乎有点儿“欺骗嫌疑”,Google Assistant需要努力理解对它说出的话。

 

消费技术资深分析师丹尼尔·格里森(Daniel Gleeson)说:“掌握自然语言是非常困难的。对于谷歌来说,这将是个巨大的成就,而他们实现这个目标的那一天,可以自豪地大声说出来。”或许有些人可能会说,这可能也是Pixel Buds支持页面更新的信息被隐藏起来的原因。

 

谷歌的问题不在于翻译过程本身,事实上,该公司在过去几年始终在提升其翻译应用水平。2016年,谷歌将其谷歌翻译转换为基于深度学习的人工智能(AI)驱动系统。在此之前,该工具将每个单独的单词分别翻译,并应用语言学规则使句子在语法上保持正确,从而导致了我们非常熟悉的、支离破碎的翻译效果。另一方面,神经网络则将句子作为一个整体来考虑,并根据之前训练过的大量文本数据来猜测正确的输出结果。通过机器学习,这些系统能够考虑句子的上下文,从而提供更准确的翻译。

 

整合机器学习是Google Brain团队的任务,该团队是谷歌专门致力于深度学习研发的部门。Google Brain还将神经网络应用到另一个工具上,这是实时翻译的关键,但这似乎也导致其容易在语音识别上犯错。实际上,Google Assistant经过了数小时的语音培训,它会使用机器学习工具来识别模式,并最终正确地识别出被要求翻译的内容。

 

那么,如果谷歌在某种程度上成功地将神经网络应用到文本-文本的翻译中,为什么Google Assistant仍然不能使用相同的技术精准地进行语音识别呢?剑桥大学自然语言处理研究人员马西基·霍瓦特(Matic Horvat)说,这一切都归结于用来训练神经网络的数据集。

 

霍瓦特说:“系统能够适应它们所得到的训练数据集。当你把它介绍给它从未听过的东西时,语音识别的质量就会下降。例如,如果你的训练数据集是会话语音,那么在繁忙的环境中识别语音效果就不会太好。”

 

干扰是任何致力于提高语音识别技术的计算机科学家的克星。去年,谷歌通过其数字新闻创新基金会向伦敦初创企业Trint投资1.5亿欧元,该公司在自动语音转录方面处于领先地位,尽管其算法与谷歌不同。然而,Trint的算法在处理基本的干扰问题上并没有表现得更好。

 

事实上,Trint的公司网站专门用了长长的篇幅来介绍如何在安静环境中记录演讲内容。该公司声称,其操作存在5%至10%的误差,但它明确表示,这适用于安静环境的录音。Trint首席执行官杰夫·科夫曼(Jeff Kofman)说:“最大的挑战是向我们的用户解释,我们的表现只能和他们给我们的音频一样好。在有回声、噪音甚至重音的情况下,算法就会出错。”

 

现场演讲所带来的挑战意味着,在创建神经网络的过程中,训练过程是成本最高、耗时最长的部分。而像谷歌对Pixel Buds所做的那样,只在有限数量的设备上支持实时翻译,当然无助于系统学习。实际上,它处理的语音越多,它可以向算法中添加的数据就越多,机器就越能学会识别不熟悉的语音模式。

 

对于消费技术资深分析师格里森来说,这是谷歌将该功能扩展到更多硬件的原因之一。他表示:“语音识别中最棘手的问题之一,就是收集足够的特定口音、俗语、习语数据,所有这些都是高度区域化的。将这个功能仅用于Pixel上,永远不会让谷歌接触到那些区域化数据,进而也无法处理足够多的数据。”

 

 

然而,积累数据也有不利的一面。表现最好的神经网络是那些拥有最多数据的网络,但由于数据需要在CPU上处理,CPU的压力也会随着信息量的增多而增加。这类CPU还远未达到与移动设备完美集成的程度,使得实时语音处理在今天依然无法成为现实。实际上,每次使用Google Assistant时,语音信息都会被发送到数据中心进行外部处理,然后再发送回用户的手机上。这些计算工作都不是在本地完成的,因为现有的手机无法存储神经网络处理语音所需的庞大数据。

 

霍瓦特说,虽然Google Assistant能够相当快地完成这一过程,但距离实时语音识别还有很长的路要走。该公司目前面临的挑战之一是,如何在手机中整合神经网络处理,以提高实时翻译等功能的无缝性。事实上,开发人员已经在致力于开发适合于高效处理神经网络的小型外部芯片,这种芯片可以集成到手机中。例如,本月早些时候,华为宣布了一种AI芯片,该公司声称其可以在几分钟内训练好神经网络算法。

 

虽然谷歌有自己的芯片Edge TPU,但它是为企业用户而不是智能手机设计的。对霍瓦特来说,这是它的致命弱点:作为一家软件公司,谷歌对制造商没有多少控制权,无法确保开发出一种产品,使所有安卓设备都能使用本地神经网络处理,与苹果截然不同。

 

在不久的将来,谷歌可能被迫采取更小的步骤来改进其语音识别技术。虽然实时翻译引来了许多批评,但对于行业分析师、Counterpoint物联网、移动和生态系统研究主管尼尔·沙赫(Neil Shah)来说,扩展它有益于谷歌参与竞争:“谷歌已经获得20亿安卓用户。随着越来越多的用户开始在安卓手机上使用最新的语音交互,它能够比竞争对手更快地扩大规模,并接受大量输入数据流的训练。”

 

格里森所也赞同这种看法。无论对实时翻译的评论是否坚持温和嘲讽的基调,谷歌的举动最终都会带来显著的改进。就像所有的AI产品一样,这个工具同样需要学习,它进入市场的过程还没有完成。格里森表示:“人们可能会说,谷歌的实时翻译运作方式与承诺的不一样,但这是其实现目标的唯一途径。”口译翻译现在不必担心他们会立马丢掉工作。


推荐阅读

史海拾趣

Baumer Electric Ag公司的发展小趣事

随着公司规模的不断扩大和市场竞争的加剧,Baumer Electric Ag开始实施国际化战略。1979年,公司加大了出口力度,积极开拓海外市场。1980年,堡盟在法兰克福成立了堡盟电气有限公司,进一步扩大了在欧洲市场的影响力。此后,公司陆续在全球各地设立子公司和分支机构,形成了覆盖全球的销售和服务网络。

Boyd Corporation公司的发展小趣事

Boyd Corporation自创立之初,便致力于研发创新的热管理和环境密封解决方案。公司不断投入研发资源,推出了一系列高效、可靠的产品,这些产品在电子行业中迅速获得了广泛应用。通过持续创新,Boyd Corporation逐渐在市场中树立了技术领先的形象,吸引了众多合作伙伴和客户的关注。

Dae Ryung Electronic Co Ltd公司的发展小趣事

Dae Ryung Electronic Co Ltd公司自创立之初,就致力于电子技术的研发与创新。公司创始人深知技术是企业发展的核心驱动力,因此投入大量资源用于研发。经过数年努力,公司成功研发出一款高性能、低成本的微处理器,这一产品迅速在市场上获得认可,为公司带来了可观的利润。随后,公司继续加大研发投入,不断推出新产品,逐渐在电子行业中树立了技术领先的形象。

Chip Quik公司的发展小趣事

为了进一步拓展业务,Chip Quik公司积极寻求与电子制造商、维修中心和分销商等合作伙伴建立合作关系。通过与这些合作伙伴的紧密合作,公司能够更好地了解市场需求,优化产品供应链,提高市场覆盖率。

API Technologies公司的发展小趣事

API Technologies一直注重技术创新和研发投入。公司不断引进先进的生产设备和技术人才,加大对新产品、新技术的研发力度。通过不断的技术创新,API Technologies成功推出了一系列具有自主知识产权的高性能产品,不仅提升了公司的核心竞争力,也为公司的持续发展注入了新的动力。

Chip Technologies Inc公司的发展小趣事

随着电子行业的竞争加剧,Chip Technologies Inc面临着来自各方面的挑战。为了应对这些挑战,公司及时调整了发展策略,加大了在研发和市场拓展方面的投入。同时,公司还加强了内部管理,提升了生产效率和质量水平。这些举措使得公司在激烈的市场竞争中保持了稳健的发展态势。

问答坊 | AI 解惑

multisim10.1汉化补丁

方法:将multisin10.1中Circuit Design Suite 10.0\\stringfiles文件中的english的文件用补丁代替,,,但不要改变english 的名称..... …

查看全部问答>

单片机系统常用电子元器件知识简析

电阻种类及特点简介 电阻,英文名resistance,通常缩写为R,它是导体的一种基本性质,与导体的尺寸、材料、温度有关。欧姆定律说,I=U/R,那么R=U/I,电阻的基本单位是欧姆,用希腊字母“Ω”表示,有这样的定义:导体上加上一伏特电压时,产生一 ...…

查看全部问答>

WinCE6.0中应用中使用物理地址

做应用的需要一片固定的内存,我在Config.bib中划好,在驱动里增加了MmIOMapSpace和MmIOUnMapSpace以及对应的IOCTL,在驱动内部测试,这片内存可以正常访问,map以及unmap。 我用IOCTL为应用返回这片内存的物理及虚拟地址,为什么在应用中使用该虚 ...…

查看全部问答>

vxwork 和 arm9 的问题

偶刚入此行,有些问题过于菜鸟,请大虾多多指教。 本人使用at91sam9261 开发板,用 sam-ba 2.4 往dataflash里面写,用ads1.2便宜的bin文件,通过sam-ba 里面的“send boot file”可以将 bin文件写进去,reset后也可以被执行。但当偶有vxwork下的t ...…

查看全部问答>

lpc2103 GPIO没有输出?

兄弟们帮忙给看看#include \"IOLPC2103.H\" int main(){ PINSEL0=0x00000000; PINSEL1=0x00000000; IODIR=1<<15; while(1){      IOSET=1<<15; } } 用万用表 ...…

查看全部问答>

【Launchpad 心得】简单试用一下launchpad

以前从没接触过430,我看到那个工作电流就傻眼了,口水啊……。视频教程也不能下载,最近没有时间看(只有上班时间才能上网,很少见吧!)。手上电路图也没有,幸好板子上所有连接都标注好了。看了看寄存器,感觉挺简单,无非就是PXSEL选择功能,PX ...…

查看全部问答>

一个逻辑语句

AN1=I1与I2与I5与I6与(I3反)与(I4反) 然后再让AN1取反 这两个语句咋写 还有如果定义AN1的话 定义在程序的哪里 虚心求…

查看全部问答>

跪求大神解析

用STM32写串口程序,不知道出什么问题,老是接收不到数据,看寄存器里面的信息,USART1竟然没有读写初始化,但是程序里明明写了,不知道程序跑哪去了。。。。。。 求大神解析,我只写了MAIN 跟stm32f10x_it.c里的void USART1_IRQHandler(void) 下 ...…

查看全部问答>

ARM 的SWD下载协议问题求助???

我向芯片发送50个脉冲进行SWD软复位,但芯片貌似没有被复位, 还有再发送读IDCODE请求包之后没有收到ACK信号是为什么呢?在发送读请求包后要多长时间再去读取ACK信号, 文档中是写经过一个turnaround时钟后,但也没说明具体时长, 麻烦有做过SWD下 ...…

查看全部问答>