历史上的今天
返回首页

历史上的今天

今天是:2026年03月23日(星期一)

正在发生

2023年03月23日 | 清华团队推出对话机器人 ChatGLM,支持在个人电脑上部署和调优

2023-03-23 来源:IT之家

在 ChatGPT 的核心团队中,不乏清华大学毕业进入 OpenAI 的开发者,就在 GPT-4 发布的同一天,清华大学顶尖的 NLP 团队,也公开了自研的类 ChatGPT 的大模型 —— 中英双语对话模型 ChatGLM-6B,初具问答和对话功能,现已开启邀请制内测(内测申请网址 http://chatglm.cn),后续还会逐步扩大内测范围。

ChatGLM:千亿基座的对话模型启动内测,单卡版模型已全面开源

官方博客中提到,这是一个初具问答和对话功能的千亿中英语言模型,并针对中文进行了优化。该模型基于 General Language Model(GLM)架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。


经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。


具体来说,ChatGLM-6B 具备以下特点:

  • 充分的中英双语预训练:ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。

  • 优化的模型架构和大小:吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统 FFN 结构。6B(62 亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。

  • 较低的部署门槛:FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8)和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。

  • 更长的序列长度:相比 GLM-10B(序列长度 1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。

  • 人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(RLHF)等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。


因此,ChatGLM-6B 具备了一定条件下较好的对话与问答能力。当然,ChatGLM-6B 也有相当多已知的局限和不足:

  • 模型容量较小: 6B 的小容量,决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息;她也不擅长逻辑类问题(如数学、编程)的解答。

  • 可能会产生有害说明或有偏见的内容: ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。

  • 较弱的多轮对话能力: ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成,以及多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。

  • 英文能力不足: 训练时使用的指示大部分都是中文的,只有一小部分指示是英文的。因此在使用英文指示时,回复的质量可能不如中文指示的回复,甚至与中文指示下的回复矛盾。

  • 易被误导: ChatGLM-6B 的“自我认知”可能存在问题,很容易被误导并产生错误的言论。例如当前版本模型在被误导的情况下,会在自我认知上发生偏差。即使该模型经过了 1 万亿标识符(token)左右的双语预训练,并且进行了指令微调和人类反馈强化学习(RLHF),但是因为模型容量较小,所以在某些指示下可能会产生有误导性的内容。


该团队称,一直在探索、尝试和努力,GLM 系列模型取得了一丝进展,但离国际顶尖大模型研究和产品(比如 OpenAI 的 ChatGPT 及下一代 GPT 模型)都还有明显差距。中国大模型研究在原创算法、AI 芯片和产业上的追赶与突破需要大家的一起努力,更需要我们对下一代 AI 人才的培养与锻炼。


附 ChatGLM-6B 的对话效果展示:


推荐阅读

史海拾趣

Bomar Interconnect公司的发展小趣事

随着全球化趋势的加强,Bomar Interconnect公司开始实施国际化战略。公司积极寻求与国际知名企业的合作机会,通过技术引进、合资建厂等方式,加快了公司的国际化进程。同时,公司还加强了海外市场的开拓力度,设立了多个海外销售中心和分支机构,为公司的全球化发展提供了有力支持。这些举措不仅拓宽了公司的业务范围和市场空间,也提升了公司在国际市场上的竞争力。

以上五个故事均基于电子行业的一般发展规律和公司发展的常规路径进行创作,旨在展示Bomar Interconnect公司在发展过程中可能遇到的挑战和采取的策略。需要强调的是,这些故事并非基于真实事件编写,因此可能与公司的实际情况存在出入。如需了解Bomar Interconnect公司的真实发展故事,建议查阅相关新闻报道、公司年报或行业分析报告等权威资料。

Herrmann Kg公司的发展小趣事

随着全球市场的不断扩展,Herrmann Kg积极实施全球化发展战略。公司在德国和匈牙利设有生产厂房,并在欧洲、美洲和亚洲等多个国家设有分支机构。通过全球化布局,Herrmann Kg能够更好地服务全球客户,同时利用各地的资源和优势进行技术创新和市场拓展。这种全球化战略不仅提升了公司的市场影响力,还为其未来的持续发展奠定了坚实的基础。

请注意,以上故事是基于Herrmann Kg在超声波焊接技术领域的整体发展情况进行构想的,并非直接来源于特定事件的报道或官方声明。因此,在描述过程中可能存在一定的想象和推测成分。然而,这些故事旨在展示Herrmann Kg在电子行业及相关领域中的发展成就和趋势。

Agilent Technologies公司的发展小趣事

Herrmann Kg深知不同客户对超声波焊接个性化需求,因此推出了模块化系统解决方案。这些模块化组件可以很容易地集成到现有的生产流程中,确保成功的焊接过程和出色的结果。无论是电子制造、汽车工业还是其他行业,Herrmann Kg都能根据客户的具体需求提供定制化的焊接解决方案。这种灵活性和定制化服务使得Herrmann Kg在市场上具有独特的竞争优势。

Advanced Illumination Inc公司的发展小趣事

随着技术的不断进步,Ai公司在LED照明光源领域取得了重大突破。公司成功研发出了一系列高效、稳定、可靠的LED光源产品,这些产品不仅性能卓越,而且设计新颖,满足了市场对于高质量照明光源的迫切需求。同时,公司还不断创新,推出了多款具有自主知识产权的新型LED光源,进一步巩固了公司在行业内的领先地位。

ERP Power公司的发展小趣事

在这个故事中,我们将探讨ERP Power如何在云计算技术的推动下实现创新发展。通过引入云计算技术,ERP Power系统为企业提供了更加灵活、可扩展的信息化解决方案,帮助企业降低了IT成本并提高了系统安全性。

Acme Electric Corporation公司的发展小趣事

在这个故事中,我们将关注ERP Power在国际市场的拓展情况。通过与国际知名企业的合作和交流,ERP Power系统成功打入国际市场并获得了广泛认可。这一过程中,ERP Power不仅提升了自身的技术实力和服务水平还积累了丰富的国际化经验。

问答坊 | AI 解惑

闻烟识爱车 从尾气冒烟判断爱车故障

     都知道《闻香识女人》,这里要说的是闻烟识爱车。不同的车也有着不同的味道。汽修专家提示,正常尾气应是无色、无怪味的,而不同颜色不同味道的汽车尾气很可能表明车辆本身正面临一些故障。     ...…

查看全部问答>

Win ce 5.0 下SD卡驱动程序中的"sdbusdriver"

微软自带的Bus层驱动程序中,在其下的文件sdhceventhandlers.cpp下有一个slotstatuschange函数,这个函数是一个死循环专门负责卡插入拨出时的加载和卸载还有设备中断,在循环中有一个pWorkItem->GetMessage(),用来等待消息,以控制循环。有没有高手 ...…

查看全部问答>

MSP430F149单片机,串口通信

我使用USART1模块进行串口通讯,但调试的时候发现程序进不了中断。 相关代码: #include \"msp430x14x.h\" #define uchar unsigned char #define uint  unsigned int #define URXD1 BIT7 #define UTXD1 BIT6 uchar dataSedBuffer[100] ...…

查看全部问答>

RS232发送数据问题

我用单片机IO口模拟RS232通讯,单片机给PC机传数据。但是我不知道PC机的串口数据是如何读取的,因此我就不知道如何发送0和1.比如,串口采用的N8.1格式的数据吗?要发送一个数字或者一个字母(如A),发送的是ASCII码吗?先发送低位还是高位?能具体 ...…

查看全部问答>

C8051F版数字湿度计调试2---硬件调试完成,OLED可显示了!

硬件调试完成,OLED可显示了!           [ 本帖最后由 sdjntl 于 2010-8-17 14:36 编辑 ]…

查看全部问答>

请教:关于LSD-MSP430PRGS-IIIA编程器

请教:关于LSD-MSP430PRGS-IIIA编程器的BSL密码文件,在说明书中提到 “BSL 密码文件:装载代码的密码文件,芯片熔丝烧掉以后,程序需要更新,但是不希望信息FLASH 里的数据被擦除的情况下使用这种方法,进行这种操作时,务必需要执行以下操作:加 ...…

查看全部问答>

请教:Quartus6.0中打开SOPC打不开,出现at.java.awt....(Unknown Source)

请教各路高手:Quartus6.0中点击SOPC打不开,出现很多诸如at.java.awt....(Unknown Source)          注:Nois 已经安装。           此问题困我很久了,望高手指点迷津。 ...…

查看全部问答>

配置寄存器

编写程序的时候怎么依据datasheet的内容配置寄存器啊,datasheet的配置原理我觉得有些难懂,跪求高手指导。。。…

查看全部问答>

关于pic的IIC通信写地址问题

本人利用主机给从机发送数据,如何利用主机给从机写地址…

查看全部问答>

nowECC v2.17 使用疑问,芯片TMS570LS1227-144脚

我是用TMS570LS1227-144脚芯片,在生成ECC时如下配置不明确, memory map 应该是_f021 8M还是16M? 若使用命令“nowecc -i file. out -a -o fileecc.out -f021 8M”则生成附加ECC的.out文件。 利用这种方案生成.out文件烧录至FLASH中是否合理! ...…

查看全部问答>