科大讯飞 自动驾驶布局聚焦智能语音
2018-05-31 来源:互联网
具体用来证明视觉方面能力的例子是Cityscape的榜单成绩。后者是一个用来评估视觉算法的数据集,可以检验算法在城区场景语义理解方面的表现。今年10月,科大讯飞在自动驾驶场景分割任务中获得了第一名,主要是使用了名为“层次分割”的技术。
很长一段时间里,科大讯飞在车载前装领域都是通过车机系统供应商间接向车企提供服务,业务只聚焦在智能语音技术。
不过在2016年科大讯飞年会上,我们看到了一款汽车互联系统“飞鱼助理”。科大讯飞正式宣布——未来会包办一整套车机系统的软硬件和数据服务,角色向TSP转型。
时隔一年,飞鱼升级到了2.0版本,并且形成了更加清晰完整的产品架构。而且我们发现,除了核心的智能语音交互,科大讯飞开始做视觉了。
飞鱼2.0更新了什么?
在飞鱼1.0版本上,整个交互体验更加自然。人和车对话的时候,车就可以记住上下文,理解每一个指代的意思。你可以不用多次唤醒就能调用导航、音乐、拨打电话等功能,也可以在车说话时打断它。
在今年的年会现场,飞鱼2.0版本做了升级。科大讯飞汽车事业部副总经理谢信珍告诉记者,去年展示飞鱼1.0时更多还是一种未来规划,但今年的2.0版本已经是可以落地的产品。
大家可以从上面的视频看到几个之前没有的亮点:
1.知道该听谁的话。新版系统知道要采集哪个方向的声音,锁定驾驶员是说出唤醒词的位置后,副驾座位的声音就不会出现“抢麦”情况。要实现这个功能,主要是对麦克风阵列和软件算法做升级。
2.连接后台账号系统。飞鱼2.0可以在唤醒后“主动服务”。它会提醒你今天是老婆大人的生日,推荐老婆大人喜欢的餐厅,推荐喜欢的电影然后购票。系统和个人的绑定更深。
3.接入了车辆总线系统。在1.0中,系统只能用语音控制音乐、导航、电话等信息娱乐功能。在2.0版,我们可以用语音控制开关天窗、调节空调温度这些和行车安全影响不大的功能。
除了第一点是智能语音技术上的更新,后两项都是包办软硬数服一体化后,语音有机会和车、和人发生的更多关联。
当然,后两项也代表了一种选择。更加个性化的服务意味着对个人数据使用权的开发,这是用户面临的选择。更加懂得汽车意味着车辆数据的开放,这是主机厂面临的选择。
把眼睛叫醒
在智能语音交互之外,图像识别也在汽车场景下找到了发挥功能的机会。
坦白说,在参会前看到预告时,记者以为视觉技术更多会用在驾驶员身份鉴别。因为科大讯飞研发主管赵艳军曾经说过,AIUI在定义之初,“就没有把语音作为唯一的交互方式,而是把它设想为结合了人脸、人体追踪、手势、红外等多种方式为一体的人机交互解决方案”。
所以当科大讯飞说要借助摄像头的眼睛看向车外时,记者还是有些意外的。
泊车辅助
视觉首个应用场景会是泊车。在有清晰车位线的情况下,可以借助泊车摄像头观察外部情况,找到合适车位时,用交互的方式提醒用户打方向盘,辅助车辆进入车库。没有车位线时,也可以司机在屏幕上划线选择停车位置,系统把车停到库中。当然也可以看到,在一开始的版本中,还没有涉及车辆控制层面的内容。
目前视觉的部分仍然由科大讯飞的研究院来推进,选择的泊车应用也是一个相对简单的场景。在回答“和专门做视觉的企业比,科大讯飞有什么优势”这个问题时,汽车业务部副总经理谢信珍提到了科大讯飞在技术源头上的积累。他认为语音对信号连贯性的要求更高,做语音跨到图像会更容易。
Cityscape数据集成绩
具体用来证明视觉方面能力的例子是Cityscape的榜单成绩。后者是一个用来评估视觉算法的数据集,可以检验算法在城区场景语义理解方面的表现。今年10月,科大讯飞在自动驾驶场景分割任务中获得了第一名,主要是使用了名为“层次分割”的技术。
数据集测试成绩可以在某种程度上反映科大讯飞的算法能力。不过实际应用中,科大讯飞的算法要面对嵌入式平台和实时性两个方面的考虑。谢信珍表示,科大讯飞的优势在于工程优化能力,360环视算法主要是拼接和鱼眼矫正计算量比较高,目前已经揉到CUP、GPU上分别负载来跑,跑得也比较顺畅了。
科大讯飞做视觉,这意味着从对车内人的理解,延伸到了对车外环境的理解。
科大讯飞未来产品布局
科大讯飞汽车事业部总经理刘俊峰在飞鱼2.0发布时提到,未来会把理解人、理解环境两部分完整做到一起,用一个脑部(飞鱼AIUI)连接听觉和嘴(飞鱼对话式引擎)、眼睛(飞鱼智盒),达到多维输入,最后由后台进行数据的分析处理(飞鱼数据工场)。
技术和应用的双轮驱动
科大讯飞董事长刘庆峰和轮值总裁吴晓如在发布会当天都提到了一句话——人工智能是技术和应用双轮驱动的。通过落地在应用场景不断收集数据训练算法,才能磨练出更好的技术。
飞鱼2.0系统包括飞鱼对话引擎、飞鱼AIUI,飞鱼智盒,飞鱼数据工场等,都是面向车端应用的产品。
为了在车端落地产品,科大讯飞逐渐补充了车机系统方面的欠缺。据谢信珍介绍,科大讯飞汽车事业部今年已经达到了400人的规模,主要包括对话引擎、大数据分析和软硬一体化内容,其中软硬一体化的员工最多,将近有总人数的一半。
除了用大量人才储备更好理解车载软硬件,核心的智能语音方面,科大讯飞也在解决一些关键问题。谢信珍介绍,目前科大讯飞在车载环境普通话的语音识别准确率为98%,未来除了继续完善方言识别,也在攻克一些车载环境中语音识别效果不好的场景。
对于当前的产品化情况,刘俊峰公开了一组数字——讯飞的产品已经覆盖了200个型号的车型,每年的出货量突破两百万套,累积前装装车量1千万。
今年,科大讯飞陆续与包括北汽、广汽、长安、奇瑞在内的多家主机厂签署了合作框架,涉及智能语音技术、车载智能化和智能车联网平台等多个领域。谢信珍也透露,基于飞鱼2.0系统,科大讯飞和主机厂的合作已经进行了3-4个月,其中视觉方面会把360环视先做起来。
受限于前端产品的出货周期和更新频率,科大讯飞还推出了后装产品小飞鱼。谢信珍表示,小飞鱼最大的优势是迭代速度会更快,每两星期会有个新的功能。但是科大讯飞还是会把更多资源和精力押注在前装,因为前装才有机会把系统和车机更深地结合,生产出更多功能。
小结
从车载智能语音小角度切入,科大讯飞沿着理解人和理解车两个坐标轴,给出了一个面向未来智能汽车的闭环方案。当前来看,科大讯飞的优势仍然在语音,在车载视觉上的积累还比较初期,最后视觉与语音能不能很好融合,还要等待合作孵出一个落地的产品。