历史上的今天
今天是:2024年12月09日(星期一)
2021年12月09日 | 英特尔助力人工智能语言识别
2021-12-09 来源:EEWORLD
英特尔助力人工智能语言识别,在NeurIPS大会上发布的两个数据集可助编目数十种语言
在近日举行的NeurIPS大会上,发布了两册英特尔提供支持的关于口语数据集的白皮书,其中,《人的语言》主要涉及到“自动语音识别”任务,另一册——《多语种口语语料库》则涵盖“关键词识别”。这两个项目的数据集都贡献了大量丰富的音频数据,且每个数据集在同类中都拥有最大的可用体量。
《多语种口语语料库》由英特尔软件与先进技术事业部(SATG)的机器学习工程师Keith Achorn参与撰写。Keith在英特尔社区网站的博客中讲述了自己参与该项目的经历。
在ML Commons 的支持下,“人的语言”和“多语种口语语料库”于2018年开始启动,该项目旨在识别世界上最常用的 50 种语言并统一到单一的数据集中,从而使这些数据得到有效利用。该项目小组成员来自英特尔、哈佛大学、阿里巴巴、甲骨文、Landing AI、密歇根大学、谷歌、百度等。
在当今多元化、国际化、多语言的工作环境中,准确转录和翻译的能力愈发重要。通过使用以上数据集,计算机可以“听到”口语单词,并自动生成文本或译文。
这两个项目都运用了“多样化语音”,这意味着它们可以更好地展现自然环境音,如背景噪音、非正式语言模式、录音设备混音以及其他声学环境等。这与诸如有声读物之类的高度受控的内容不同,后者产生的声音更加“纯净”。然而,在实际应用中,多样化语音训练有助于提高识别的准确性。
“人的语言”项目内含数万小时的对话音频。如今,它是世界上最大的、可免费下载的、用于学术和商用的英语语音识别数据集之一。
“多语种口语语料库”是一个音频语音数据集,不仅拥有超过30万个关键字的数十种语言,能够通过智能设备访问,还涵盖了50多亿用户的日常对话,有助于推动全球范围内受众语音应用的研发。
这两个数据集都将提供给广泛的用户进行应用,它们包括商用在内的授权许可条款都相对较为宽松。
史海拾趣
|
前几天安装了2条2gb内存,在BIOS里面和vista我的电脑里面都正常显示有4gb。可是在任务管理器里面显示物理内存只有2gb。 还有2gb不知道跑哪里去了,正常来说4GB会被32位的vista浪费掉一些,可是不应该是浪费2GB. 后来一个网络上的朋友指出了问题所在 ...… 查看全部问答> |
|
以前都是搞应用开发的,现在突然来了个紧急任务,软件要和一个USB(HID)设备进行通信。 毫无头绪,只好硬着头皮上网查了一大堆资料。现在查找设备、发送数据都成功了,但一直读不到数据。 我用UPS Hound来抓数据,发现设备一直在向PC发数据,大 ...… 查看全部问答> |
|
用 IAR EWARM 5.20 开发 STM32F103ZC(Cortex-M3内核) 在连接配置文件(.icf)中,我想分别获取 readonly 和 readwrite 块的大小,然后将指定的内存大小减去这两块的大小之后的剩余空间作为堆栈使用,这个要怎么实现呢? 举个例子: memory& ...… 查看全部问答> |
|
我用的是2410+wince4.2,flash用的是K9F1208UOM.在wince系统运行时,我能够看到ResidentFlash文件夹,而且好像用属性查看剩于空间也就是出去os镜像的大小.但是好像因为没有指定flash剩于空间的起始位置的原因吧,只要拷东西进这个文件夹,下次wince就别 ...… 查看全部问答> |
|
本人为一菜鸟,向诸位大侠请教一下 430中应用过程中本人遇见一个问题就是 在中断应用过程中例如IIC 有IICIFG和IICIV两个寄存器 分别叫做中断标志寄存器和中断向量寄存器 他们都表示有相应的中断产生。 那么在应用中有什么区别呢? 同时定义 ...… 查看全部问答> |
|
(1)ADSP-2111芯片采用哈佛结构,片内有6条总线(1条程序总线、2条数据总线、2条地址总线和1条DMA总线),这种分离的程序总线和数据总线,可允许同时获取指令字(来自程序存储器)和操作数(来自数据存储器),而互不干扰。这样可以在1个周期内同时准备好 ...… 查看全部问答> |
|
自《电源开关设计秘笈30例》推出以来,得到广大工程师的热烈反响, 已推出的由德仪资深工程师William P. (Bill) Klein 主笔的《信号链基础知识合辑》反响也非常好, 应大家的强烈要求,现隆重推出《信号链基础知识合辑2》   ...… 查看全部问答> |




