历史上的今天
返回首页

历史上的今天

今天是:2024年12月29日(星期日)

2020年12月29日 | 声纹识别逐渐升温,缝隙处叩开蓝海市场

2020-12-29 来源:eefocus

说一声“启动汽车”,引擎马上开启;下班回家对着智能门锁喊一声“开门”,门锁应声而开;对着智能电视喊个话,它就能为你播放专属的视频内容……阿里巴巴用“芝麻开门”打开了宝藏,我们能用声纹识别做什么?

 

近日,从人工智能产业发展联盟 - 得意音通声纹技术联合实验室获悉,声纹识别在过去一年,从场景侧不断下沉,更加落地。作为语音赛道一个重度垂直的领域,声纹识别终于从“等风来”,成为站在“风口”上的技术。

 

根据清华大学人工智能研究院听觉智能研究中心、人工智能产业发展联盟 - 得意音通声纹技术联合实验室、中国电信股份有限公司研究院联合发布的《中国声纹识别产业发展白皮书 2.0》,2020 年,声纹技术厂商融资事件达到过去 4 年最多,投资总额仅次于 2018 年。虽融资热度和频次无法与最热门的应用领域相比,但在疫情当下以及贯穿 2019-2020 始末的资本寒冬中,已经算是例外了。
 

 

从白皮书对百度、京东、微信等搜索词分析来看,声纹识别与支付、反欺诈、门禁、门锁、考勤等具体应用场景紧密联系在一起,这也从一定程度上反映出了声纹技术当前主要的落地方向。

 

国内声纹厂商主要有哪些?

 

<与非网>对国内 20 多家声纹识别企业进行了汇总分析,这些企业也从一定程度上反映了语音技术的三个发展阶段:

 

早期以 2000 年~2007 年成立的专注于声纹技术的厂商为代表,如得意音通、中科信利、远鉴科技、厦门天聪等,主要背靠清华大学、厦门大学、中科院声学所、自动化研究所等高校和科研机构,这些老牌企业掌握了深厚的技术积累和核心专利。

 

2007-2015 年间,思必驰、云知声等算法厂商入局,凭借对场景的理解和核心技术的布局,抓住了语音发展的先机。

 

2016 年开始,人工智能的发展带动了一批初创企业,声扬、声智、中科昊音等都是在这波 AI 红利中成长和诞生的公司,这些企业融资节奏通常比较快,正加紧在专利布局、落地上发力。
 
 

2020 年声纹识别三大落地应用

 

疫情下声纹考勤兴起

 

今年声纹技术主要的落地场景之一就是声纹考勤。在疫情的非接触需求下,今年 2 月,国务院印发《企事业单位复工复产疫情防控措施指南》,明确要求暂时停用指纹考勤机,改用其他方式对进出人员进行登记。

 

同时,人脸支付也被“降温”。2 月,中国人民银行营业管理部就制定的《北京市非银行支付机构复工复产防疫工作指引》中提出,要优化和丰富“非接触式服务”渠道和场景,强调疫情防控期间,暂缓人脸识别支付商户拓展。

 

语音具有天然的“非接触”特性,具体到声纹这个细分领域,它可以根据每个人的语音特征和发音习惯进行动态识别,非常适用于进行身份认证的场景应用中。

 

在与清华大学人工智能研究院听觉智能研究中心主任、得意音通创始人郑方博士的交流中,笔者曾获悉,“无接触”将沉淀为今后遴选生物识别技术的核心要素之一,特别是在 B 端场景(例如考勤)。声纹天然具有“无接触”的特点,并且不怕被口罩遮挡,应用成本低,声纹产品将成为考勤市场中强有力的竞争者。

 

他认为考勤产品未来主要有两大方向:一是从集中转向分布、线下转为线上线下结合,也就是说,不再需要单一的考勤机设备,而是直接由员工在各自手机上完成打卡,既提高效率,又保障卫生;二是单纯的考勤功能可能会与门禁功能结合,可以是集中,也可以是分布。得意音通在声纹考勤迭代上主要有三个方向:一是更“轻”,如增加小程序等入口;二是更“重”,注重与门禁等设备结合;三是更安全,还可与人脸技术结合,具体会根据市场反馈来规划。

 

 

金融 / 政务服务依旧是大市场

 

除了疫情下酝酿的新应用,声纹识别最早实现规模化商用的是在金融领域。金融领域因其丰富的场景、海量的数据、对可靠性的高要求和广泛的用户反馈等,一直是前沿技术在民用领域(相较于公共安全领域)的理想试金石。声纹识别也不例外,4G 时代,金融行业催生了手机银行这一形态并迅速普及,使得金融级远程身份认证的需求激增,而声纹识别刚好可以满足这个需求。

 

根据白皮书显示,到 2020 年下半年,约有 30 家银行机构采购了声纹识别技术产品,其中“动态声纹密码”的声纹登录成为第一大应用场景,可用于账户登录、大额转账、无卡取款、密码找回等业务场景。微信和支付宝也上线了基于声纹动态口令的登录方式。此外,在信贷业务中引入声纹识别技术作为反欺诈手段,还可有效降低冒用他人身份进行骗贷以及多头贷款等事件的发生率。
 

 

在政务服务市场,声纹识别也发掘到一个极具潜力的应用——城乡养老保险是社会保障体系的重要组成部分,然而冒领养老金的事件时有发生,每年冒领总金额以亿元计,但若要求高龄老人亲临现场验明身份又非常不便。社保局通过预装声纹身份认证系统,通过 1:1 声纹确认技术,就可以进行远程身份认证。

 

另据白皮书显示,随着电信诈骗案件频发,声纹特征在公共安全领域的应用价值越来越凸显出来。公安部将声纹识别技术已经纳入防治方案,建库规范提上日程。


智能生活成为蓝海

 

除了上述应用,声纹识别的下一个蓝海市场有望在智能生活场景中产生,目前已经开始落地的有智能家居、智能车载等应用。

 

按任务分类的话,声纹识别有 1:1 和 1:N 两大类应用,前者主要进行声纹确认,上面提到的金融、社保等都属于 1:1 确认,通过给定一个说话人的声纹模型和一段只含一名说话人的语音,判断该语音是否是该说话人所说。而在 1:N 应用中则属于声纹辨认,是根据一组候选说话人的声纹模型和一段语音,来判断该语音是哪个说话人所说,适用于公安、安防、智能生活等场景。

 


随着语音交互场景的成熟,各种个性化的服务需求渐渐浮现出来。通过 1:N 的声纹辨认技术,可支持智能音箱、智能语音助手等提供个性化服务,如针对家庭用户中的老年人、儿童等不同年龄段用户,按照兴趣推荐不同的歌曲、新闻,以及开放特定的功能权限等;利用声纹检出和追踪技术,可在会议纪要中标注每段话所对应的说话人,即可轻松完成多人会议记录,这一功能在市面上一些录音笔中已包括。此外,声纹识别还可完成个人日常生活中各种事物访问控制的授权,比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等。


思必驰目前在其全链路对话式 AI 中,特别针对车载场景下通过声纹识别进行优化升级,提供更多个性化的服务方式。


云知声也将声纹识别技术引入到深度学习领域,联手平安好医生打造客户端“声纹登录系统”,并与国家电网合作了会议系统声纹识别项目。


以计算机视觉起家的依图科技,近两年也开始在智能语音发力,2019 年宣称在全球声纹识别竞赛中夺得第一,虽然后续并无太多声纹方面的成果更新,但也反映出依图对声纹的重视,多模态应该是其未来的布局方向。


智能家居是民用场景中最早拥抱声纹技术的,例如长虹已经在电视、空调中先后加入声纹识别功能,使得家电也能够智能识别用户身份,开启私人订制模式。


互联网厂商也在积极布局。


百度前几年在国际上发布过声纹识别方面的论文,今年在小度智能屏中,声纹识别功能已经成为卖点之一。


阿里约在 3 年前开始推广声纹识别,主要运用于平台用户的身份核验,比如在线身份校验服务,用户可通过声纹识别在手机淘宝进行密码修改等。


腾讯云也与微信智能团队共同推进声纹识别,借助云端大数据的优势,根据个人属性提供更多差异化服务内容,并进一步提升安全性,运用在安保、金融、智能硬件等领域。

 

写在最后


在 AIoT 的推动下,声纹识别技术有望推动一些场景的升级迭代,在未来的人机交互中,带动从硬件到软件在更多商用场景中的发展。多模态的技术应用可能会率先兴起,比如在身份识别场景中,通过声纹+人脸融合验证,在精度要求、安全保障以及不同场景下的体验提升都能得到满足。


这从当前的国际技术趋势上也可以看到一些发展轨迹,例如通过多模态建模,将人脸和声纹中的信息和参数融合在一个架构和模型中,实现语音内容和说话人身份同时识别、语种和说话人身份同时识别等。


推荐阅读

史海拾趣

Gem Asia Enterprise Co Ltd公司的发展小趣事

Gem Asia深知人才是企业发展的核心动力。因此,公司高度重视人才培养和企业文化建设。通过建立完善的培训体系、提供广阔的职业发展空间和富有竞争力的薪酬福利,Gem Asia吸引了大量优秀人才的加入。同时,公司还倡导开放、创新、协作的企业文化,鼓励员工勇于探索、敢于创新。这种积极向上的企业文化氛围为Gem Asia的持续发展提供了源源不断的动力。

请注意,以上故事均为虚构构建,旨在展示电子行业中企业可能经历的发展路径和关键成功因素。Gem Asia Enterprise Co Ltd并非实际存在的具体公司,因此相关细节和数据均为虚构。

安国国际(ALCOR)公司的发展小趣事

近年来,安国国际将发展重心放在U盘控制IC的开发上。随着USB技术的不断升级和SSD市场的蓬勃发展,安国积极抢占USB 3.0、USB 3.1及SSD控制IC的市场先机。公司的U盘控制IC不仅支持新一代3D NAND技术,还具备高性能、低功耗等优点,深受市场欢迎。通过持续的技术创新和市场拓展,安国在U盘控制IC领域取得了显著成绩。

Chengdu Sino Microelectronics Technology Co Ltd公司的发展小趣事

在集成电路设计领域,技术的突破是赢得市场的关键。成都华微科技始终坚持以技术研发为核心,不断投入巨资进行技术研发和创新。经过多年的努力,公司在可编程逻辑器件、系统级芯片、存储器和模数/数模转换器(AD/DA)芯片等领域取得了重大突破,产品性能达到了国内领先水平。这些技术突破不仅为公司赢得了市场的认可,也提升了中国集成电路设计行业的国际地位。

ERNI Electronics公司的发展小趣事

ERNI Electronics的源头可以追溯到1947年,当时其瑞士母公司成立。而在1956年,ERNI Electronics以生产继电器为起点,正式进入电子行业。在创立初期,公司专注于继电器的开发和制造,积累了丰富的电子行业经验。随着市场需求的不断变化,ERNI在1967年开发了第一个背板连接器,这一创新产品迅速成为公司的核心产品,并推动了公司的快速发展。

Analog Microwave Design公司的发展小趣事

随着市场的不断变化和客户需求的多样化,Analog Microwave Design公司意识到单一的产品线已经无法满足市场需求。为了丰富和完善产品线,公司开始加大对新产品的研发力度。除了继续深耕微波器件领域外,公司还积极拓展相关领域的产品线,如射频模块、天线等。通过不断推出新产品,公司不仅满足了客户的多样化需求,还进一步巩固了市场地位。

Ford Aerospace & Communications Corp公司的发展小趣事

随着航空业的逐渐发展,福特汽车公司意识到航空通信技术的重要性。在20世纪30年代,福特开始投资研发航空无线电通信系统,旨在提高飞行中的通信效率和安全性。这一举措不仅促进了福特在航空技术领域的进一步拓展,也为后来的航空通信标准制定提供了参考。

问答坊 | AI 解惑

IAP升级程序 的探讨

   不知道大家是怎么处理IAP程序升级问题的,其基本的方式又是怎样的?我个人的思路是参考了u-boot与linux的方式,不知道有没有更好的实现过程!…

查看全部问答>

VS2005 不能用c++开发,只能用C#开发CE 吗?

为什么在new project  -> visual c++ -> smart devixce 选项里没有windows ce 5.0 的选项, 而C#里有?…

查看全部问答>

wince6.0 YV12格式 preview 旋转90度

我要在wince6.0下pxa310 平台上实现一个camera预览旋转90度功能。不过格式为yv12,于是source filter和render filter之间加入一个transform filter,完成旋转功能。现在是source filter 的输出pin与transform filter的输入pin能连接成功,tranform fi ...…

查看全部问答>

堆 相关

我有几个有关堆的问题想问一下: 1.我的程序中有一个算法要用到5M的全局变量,太大了以至于我的线程启动不了,现在要改成用动态分配,但是还是出现一样的结果,我想可能是我进程的堆不够大,现在我想用GlobalAlloc在全局堆中分配内存,但是我不知 ...…

查看全部问答>

关于磁盘还原及数据传输

网吧维护软件: 客户机磁盘还原,在修改系统里面文件及数据,在重起以后被还原。 然后在还原的状态下要能穿透还原进行游戏更新 现实服务器到客户机只间的数据传输 虚拟磁盘 有windows底层开发经验的者量力承接。 QQ 76321675(注明网吧 ...…

查看全部问答>

怎样实现sd卡热插拔

fat16文件系统怎样实现SD卡热插拔。…

查看全部问答>

重量级资料:LM3S8962实验指导书

利尔达的内部培训资料,坛子里试用LM3S8962板子的有福了…

查看全部问答>

有谁i2c写过zlg7290的吗?

求程序包,zlg的这个文件简直看不懂…

查看全部问答>

【设计工具】Virtex-6 FPGA GTH收发器用户指南 [用户指南]

Virtex-6 FPGA GTH收发器用户指南 [用户指南]。 …

查看全部问答>

关于MSP430的DCO一些说明

对于MSP430来讲,DCO算是430的一大特点,不需要任何晶振我们就可以通过DCO获得一个比较准确的高频时钟源。 比如低成本的G2系列最高就可以获得校准后的16MHz的时钟源。 但是DCO最高可以震荡到多少呢?我们通过下面的一个表格(G2系列)来看: 可 ...…

查看全部问答>