《大规模语言模型:从理论到实践》第三章大预言模型预训练数据
本周分享的是第三章大预言模型预训练数据,本章介绍的是常见的大语言模型预训练数据的来源、处理方法、预训练数据对大预言模型影响的分析及开源数据集等。数据来源文中指出OpenAI在训练GPT-3时所使用的数据集有CommonCrawl、WebText2、Books1、Books2和英文的Wikipedia等。这些数据集都是英文的,不过也从CommonCrawl加入了非英文的数据集进行训练。CommonCrawl的原始数据有45TB,比我的硬盘大了不知好几倍,如果是人去一个