大规模语言模型从理论到实践目录和个人总体观后感第四章第五章
##第四章分布式训练分布式训练是指是指将机器人学习或者深度学习模型训练任务分解成多个子任务,并在多个计算机上并行的进行训练。分布四训练的并行策略有数据并行、模型并行和混合并行。这些策略同时要注意计算设备内存优化。分布式训练的集群架构属于高性能计算集群。参数服务器架构有两种服务角色:训练服务器和参数服务器。去中心化构架采用集合通信实现分布式训练系统。再去中心化架构中没有中央服务器或者控制节点,而是节点之间进行直接通信和协调。本章大头和重点DeepSpeed实践,由于本人资源有限,没办法复刻