历史上的今天
今天是:2025年04月02日(星期三)
2020年04月02日 | 谷歌使用AI追踪2D视频中的物体 或可用于自动驾驶汽车物体识别
2020-04-02 来源:盖世汽车
据外媒报道,近日,谷歌发布了名为Objectron的管道,可以在2D图像中发现物体,并通过AI模型估算其姿态和大小。该公司表示,Objectron对机器人、自动驾驶汽车、图像检索和增强现实技术影响深远,例如,可以帮助工厂车间的机器人实时避开障碍物。

(图片来源:ai.googleblog.com)
追踪3D物体是一项复杂的工作,特别是当计算资源有限时。当仅有的可用图像为2D时,由于缺乏数据以及物体外观和形状多种多样,这会变得更加困难。
为此,Objectron研发团队开发了一种工具,可以使注释器通过分屏视角显示2D视频帧,来标记物体的3D边界框(即矩形边框)。这些3D边界框将叠加在点云数据、摄像头位置和识别到的平面上。注释器在3D视图中绘制3D边界框后,再通过查看2D视频帧中的投影来验证其位置。而对于静态物体,注释器只需在单个帧中标记目标物体象即可。该工具还使用AR会话数据中的实际摄像头姿态信息,将物体的位置传输到所有帧。

(图片来源:ai.googleblog.com)
为了补充真实世界的数据,以提高AI模型预测的准确性,该团队开发了一个引擎,将虚拟物体放入包含AR会话数据的场景中。这允许使用相机姿态信息、检测到的平面,以及估算的照明,生成物理上可能的、并具有与场景匹配的照明的位置,从而产生高质量的合成数据,其中的渲染物体符合场景的几何形状,并无缝融入真实背景。在验证试验中,合成数据的运用使AI模型预测准确性提高了约10%。
此外,该团队表示,当前版本的Objectron模型足够轻巧,可以在旗舰移动设备上实时运行。借助LG V60 ThinQ,三星Galaxy S20 +和Sony Xperia 1 II等手机中的Adreno 650移动图形芯片,该模型能够每秒处理约26帧。
Objectron在MediaPipe中可用,MediaPipe是一个框架,用于构建跨平台的AI管道,该管道包括快速推理和媒体处理(如视频解码)。提供训练有素的识别鞋子和椅子的模型,以及端到端演示应用程序。
该团队表示,未来计划与研发社区共享其他解决方案,以刺激新的用例、应用和研究工作。此外,该团队打算将Objectron模型进行扩展,以识别更多类别的物体,并进一步提高其在设备中的性能。
史海拾趣
|
This series of articles continues with an in-depth discussion of the classic Wilkinson divider, presenting typical methods of implementation, plus alternative methods that address specific problems … 查看全部问答> |
|
最近使用benq的m23,发现可以使用at$simtest来检测SIM卡是否已接入,返回1代表检测到,返回0代表没有检测到sim卡。现在我要使用TR800,可是没看到那个at$simtest指令,不知道它怎么检测sim卡插入了呢?还有其他模块怎么检测sim卡啊? 另外共享一下 ...… 查看全部问答> |
|
[hanker M4开发板试用]我的助手,我的虚拟串口 ——stellaris USB CDC应用 最后的试用期限就要到了。这两天也抓紧调试了USB库函数。在eeworld论坛上,小川 版主的帖子陪我走过这一周。现在将本周调试的虚拟串口程序与网友们分享。 摘要 本文首先简要介绍了Stellaris USB库的基本使用,在USB库函数下编写了虚拟串口程 ...… 查看全部问答> |
|
电源架构当然是要选择Power Architecture设计电源方案首先选择输入电源,和输出负载所需的电压和电流,可以添加多个电源和对应每个电源有多个负载 我这里就只用一个电源,一个负载来展示。 配置完参数后,提交所有的参数需求,让Webench后台选择 ...… 查看全部问答> |




