苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型
2024-07-17 来源:IT之家
7 月 17 日消息,非营利性新闻工作室 ProofNews 昨日(7 月 16 日)发布博文,表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司,在训练其 AI 模型时均使用了来自 YouTube 的视频资源。
报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB(4.89 亿个单词)。
该数据集由 EleutherAI 创建,最早发布于 2020 年,涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容,其中还包含 12000 多个平台已删除视频的字幕内容。
YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源,IT之家附上相关信息如下:
MrBeast(2.89 亿订阅者,其中有 2 段视频用于训练)
Marques Brownlee(1900 万订阅者,有 7 段视频)
Jacksepticeye(近 3100 万订阅者,有 377 段视频)
PewDiePie(1.11 亿订阅者,有 337 段视频)
YouTube Subtitles 数据集隶属于一个名为“The Pile”的数据集,其中包括其他几个训练数据集。大多数“The Pile”数据集都对任何有足够空间和计算能力的人开放。
相关文章
- 恩智浦结合超宽带安全测距与短程雷达,赋能自动化工业物联网应用
- Nordic nRF9151:面向大规模物联网市场的小型、低功耗蜂窝物联网解决方案已投入生产并上市
- 华为可穿戴新品官宣:首发搭载玄玑感知系统
- 工信部印发《通知》—— 推动移动物联网从“万物互联”迈向“万物智联”
- Gartner发布2024年数字政务服务技术成熟度曲线
- 恩智浦发布新一代JCOP Pay,实现支付卡定制
- 科技的洪荒之力:可穿戴设备中的MEMS传感器 助运动员争金夺银
- 贸泽与Qorvo携手推出全新电子书 探索智能家居的联网需求和所需的技术
- 如何使物联网边缘设备高效节能?
- CareMedi利用芯科科技无线物联网技术打造贴片式胰岛素泵
热门新闻