大规模语言模型从理论到实践目录和个人总体观后感第六章第八章
##第六章强化学习强化学习是将模型输出文本作为一个整体进行考其优化目标是使模型生成高质量回复。此外,强化学习方法不依赖于人工编写的高质量回复。而是根据指令生成回复,奖励模型针对所生成的回复给出质量判断。模型也可以生成多个答案,同时模型对输出文本质量进行排序。模型通过生成回复并接收反馈进行学习。强化学习方法更适合生成式任务,也是大语言模型构建中必不可少的关键步骤。本章介绍基于人类反馈的强化学习基础概念、奖励模型及近端策略优化方法,并在此基础强化学习(ReinforcementLearn