当语音识别“邂逅”音频监控 会怎样?
2016-12-09 来源:太平洋安防网
10月,科大讯飞的语音识别技术在老罗的“锤子手机”发布会上火了;云栖大会杭州主会场与其他一些分会场上,阿里云的“小AI”机器人即时文字传译功能暗示;第三届世界互联网大会上,搜狗推出了实时机器翻译产品;11月底,百度语音开放平台和科大讯飞在各自的发布会上再次讨论语音识别技术——语音识别技术引发了科技圈的混战。此时此刻,各种同声翻译和速记哭晕在厕所。
特别是随着人工智能时代的到来,语音识别技术已经超越了正常的人类识别能力,作为人机交互方式的入口,是人工智能重要的一环。目前,人们不断地探索和研发人工智能产品和技术,不论是安防界还是科技界,人工智能推动了每个行业的发展,渗透进人们的日常生活,语音识别技术也得到了飞速的发展。同时,语音识别技术作为音频监控技术努力的方向之一,人工智能时代的语音识别技术也给安防行业的音频监控产品和技术带来了“新鲜的血液”。
众所周知,音频监控已经成为安防行业的重要组成部分,尤其是近几年平安城市建设的推进和反恐进程的加快,音频监控在城市安防系统中应用的越来越多,以弥补视频监控的不足。特别是在公检法机构、机场、铁路、银行等一些领域,越来越多的安防工程急需清晰、逼真的影音同步监控系统,音频监控领域已经成为安防行业的新亮点,连习大大都在全国政法委会上明确提到“智慧城市不能只有图像,而没有声音”。因此,“视频监控+音频监控”成为行业的新潮流,而在人工智能时代迅速发展的语音识别技术会给音频监控带来哪些改变呢?
语音识别是成本最低的生物识别技术
语音识别,是一种结合了生理和行为两种成分的生物认证技术。气管、鼻腔、咽喉、舌头等组织的相互配合,影响了声音的音调、音强和音色,从而形成了每个人声音的独特性,这构成语音的生理基础;而每个人不同的说话内容,则构成了语音的行为基础。因此,语音识别是一种很有趣的过程,既要知道你在说什么内容(行为特征),又要知道你在以什么样的方式说(生理特征)。
语音识别,是成本最低的生物识别技术。因为不需要依赖昂贵的成像芯片和光学镜头,也没有台式PC和移动终端的限制,只需要一枚麦克风即可采集语音,因此在各种身份认证产品中都可以集成该功能。用户对着麦克风说出特定的短语,系统将用户的语音样本过滤后,与先前存储的语音样本比较,达到一定的近似度阈值,用户就通过了身份认证。
语音识别让音频监控成为“听得懂”的耳朵
语音识别,是一种结合了生理和行为两种成分的生物认证技术。语音识别技术分为“语义识别”和“语音身份识别”两大类应用模式。语义识别,也被称作话语识别、非特定人语音识别,其目的在于理解话语中的单词和句子——也就是话语中的内容。由于几乎可以被任何人使用,语义识别技术的应用场景非常多样化,被集成到各种设备上,已经成为智能硬件发展的主流趋势。
公开资料显示,在技术指标方面,百度语音识别、搜狗输入法语音识别、讯飞输入法语音识别准确率达到97%,腾讯云智能语音识别技术在通用领域中准确率达95%。目前音频监控领域主要通过声源声音的强度信号进行智能分析,准确率有待提高。和视频监控一样,音频监控同样面临数字化智能化的变革,海量的音频数据,只有通过智能分析和判别才能更有意义,而不是停留在存储和监听的基本功能上。
因此将语音识别技术应用到音频监控中,让音频监控设备“听懂”周围环境,才能对危险事件和意外事件进行安全防范。
获得前端高清音质是关键
目前语音识别技术的高准确率是在比较安静的环境下达到的目标,在噪音干扰的情况下如何提升识别率,不仅是众多互联网企业需要努力的,音频监控企业也在研究如何去噪将前端设备收集到的音质高清化。现阶段音频监控行业获取前端高清音质已经到达瓶颈期,如何获取在不同环境下的高清音质成为企业亟待解决的问题,部分企业采取前端采集原始音源数据的同时进行高清数字化转换等方式来获得使用价值更高的音频数据,从而在前端获得更高清的真实数据。
语音识别技术在去噪技术方面的研究也会推动音频监控去噪技术的发展。
结束语
音频监控作为安防行业近年来迅速发展的一个分支,目前已展现出前所未有的勃勃生机,人们把关注的目光开始从能够看见和听见的需求转向寻求高质量的音视频监控。所以,机遇的同时也面临着巨大的挑战——音频大数据时代的到来,安防企业面临着很多问题,比如:如何将收集的声音成为有用的信息,如何处理海量的音频数据,如何将“监控”转化为“防范”……语音识别+音频监控,可以帮助安防企业不断优化音频监控产品、平台和解决方案,提高实际应用率。
语音识别技术在人工智能时代迅速发展,音频监控技术拥抱语音识别,必将更智能!