清华团队推出对话机器人 ChatGLM，支持在个人电脑上部署和调优

2023-03-23 来源：IT之家

在 ChatGPT 的核心团队中，不乏清华大学毕业进入 OpenAI 的开发者，就在 GPT-4 发布的同一天，清华大学顶尖的 NLP 团队，也公开了自研的类 ChatGPT 的大模型 —— 中英双语对话模型 ChatGLM-6B，初具问答和对话功能，现已开启邀请制内测（内测申请网址 http://chatglm.cn），后续还会逐步扩大内测范围。

ChatGLM：千亿基座的对话模型启动内测，单卡版模型已全面开源

官方博客中提到，这是一个初具问答和对话功能的千亿中英语言模型，并针对中文进行了优化。该模型基于 General Language Model（GLM）架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGLM 相同的技术，针对中文问答和对话进行了优化。

经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型，但大大降低了推理成本，提升了效率，并且已经能生成相当符合人类偏好的回答。

具体来说，ChatGLM-6B 具备以下特点：

充分的中英双语预训练：ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量，兼具双语能力。
优化的模型架构和大小：吸取 GLM-130B 训练经验，修正了二维 RoPE 位置编码实现，使用传统 FFN 结构。6B（62 亿）的参数大小，也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。
较低的部署门槛：FP16 半精度下，ChatGLM-6B 需要至少 13 GB 的显存进行推理，结合模型量化技术，这一需求可以进一步降低到 10GB（INT8）和 6GB（INT4），使得 ChatGLM-6B 可以部署在消费级显卡上。
更长的序列长度：相比 GLM-10B（序列长度 1024），ChatGLM-6B 序列长度达 2048，支持更长对话和应用。
人类意图对齐训练：使用了监督微调（Supervised Fine-Tuning）、反馈自助（Feedback Bootstrap）、人类反馈强化学习（RLHF）等方式，使模型初具理解人类指令意图的能力。输出格式为 markdown，方便展示。

因此，ChatGLM-6B 具备了一定条件下较好的对话与问答能力。当然，ChatGLM-6B 也有相当多已知的局限和不足：

模型容量较小： 6B 的小容量，决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时，ChatGLM-6B 可能会生成不正确的信息；她也不擅长逻辑类问题（如数学、编程）的解答。
可能会产生有害说明或有偏见的内容： ChatGLM-6B 只是一个初步与人类意图对齐的语言模型，可能会生成有害、有偏见的内容。
较弱的多轮对话能力： ChatGLM-6B 的上下文理解能力还不够充分，在面对长答案生成，以及多轮对话的场景时，可能会出现上下文丢失和理解错误的情况。
英文能力不足：训练时使用的指示大部分都是中文的，只有一小部分指示是英文的。因此在使用英文指示时，回复的质量可能不如中文指示的回复，甚至与中文指示下的回复矛盾。
易被误导： ChatGLM-6B 的“自我认知”可能存在问题，很容易被误导并产生错误的言论。例如当前版本模型在被误导的情况下，会在自我认知上发生偏差。即使该模型经过了 1 万亿标识符（token）左右的双语预训练，并且进行了指令微调和人类反馈强化学习（RLHF），但是因为模型容量较小，所以在某些指示下可能会产生有误导性的内容。

该团队称，一直在探索、尝试和努力，GLM 系列模型取得了一丝进展，但离国际顶尖大模型研究和产品（比如 OpenAI 的 ChatGPT 及下一代 GPT 模型）都还有明显差距。中国大模型研究在原创算法、AI 芯片和产业上的追赶与突破需要大家的一起努力，更需要我们对下一代 AI 人才的培养与锻炼。

附 ChatGLM-6B 的对话效果展示：

清华团队推出对话机器人 ChatGLM，支持在个人电脑上部署和调优