极悦娱乐  >   公司新闻  >  快速了解GLM-130B和ChatGLM

快速了解GLM-130B和ChatGLM

极悦娱乐 阅读次数:1156 次浏览

4月29日,清华大学计算机系召开了2023年计算机系校友创新创业研讨会暨第一届基础模型前沿研讨会,会上唐杰教授专门做了特邀报告《ChatGLM:从千亿到开源的一点思考》,对GLM的发展做了非常详细的阐述。有幸拿到报告文件后,对其中的重点进行了一些总结。

GLM生态

经常看到在讨论时,对GLM-130B,ChatGLM千亿模型,ChatGLM-6B的区分不够清楚,这里给出说明: 

  • GLM-130B:于2022年8月由清华智谱AI开源放出。该大语言模型基于之前提出的GLM(General Language Model),在Norm处理、激活函数、Mask机制等方面进行了调整,目的是训练出开源开放的高精度千亿中英双语稠密模型,能够让更多研发者用上千亿模型。 
  • ChatGLM千亿模型: 于2023年3月开启申请内测,目前暂停了公开申请。该模型是为了解决大基座模型在复杂问题、动态知识、人类对齐场景的不足,基于GLM-130B,引入面向对话的用户反馈,进行指令微调后,得到的对话机器人。 
  • ChatGLM-6B:于2023年3月开源。在进行ChatGLM千亿模型内测的同时,清华团队也开放出了同样技术小参数量的版本,方便研发者们进行学习和开发(非商用)。

GLM-130B的训练

训练目标

让每个人都能用上千亿模型,这是报告中给出的训练目标,纯粹且让人敬佩。

千亿级大模型的特性

  • 流畅的文本生成

 

  • 多种问题场景的涌现能力

 

原有大模型存在的问题

  • 规模过大或精度一般
  • 大都无法支持单机推理
  • 基于NVIDIA为主,缺少国产芯片支持
  • 训练成本高昂
  • 人力投入极大
  • 训练过程不稳定
  • 缺少充分训练、开源的稠密千亿大模型

GLM不同于其他大模型的主要特点

相较于自回归模型GPT,自编码模型BERT,以及encoder-decoder模型T5,GLM的模型架构是设计了自回归填空的结构,通过双向注意力,对masked字段进行自回归预测。

 

训练中遇到的难题及解决方案

 

大模型训练中最大的挑战是如何平衡训练稳定性(高精度低效)还是训练效率(低精度高效) 在训练稳定方面,团队在Attention score层使用了softmax in 32避免上下溢出,并调小了embbeding层梯度,缓解前期的梯度爆炸问题。 在训练效率方面,为了实现并行训练策略,采用了多种方案: 

  • 采用ZeRO优化器在数据并行组内分摊优化器状态 
  • 模型并行:将模型参数分布到多个GPU上

 

  • 算子融合 
  • 流水线平衡 
  • 跨平台兼容

 

训练成果

  • 双语:同时支持中文和英文
  • 高精度(英文):在LAMBADA上优于GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和BLOOM-176B(+13.0%),在MMLU上略优于GPT-3 175B(+0.9%)
  • 高精度(中文):在7个零样本CLUE数据集(+24.26%)和5个零样本FewCLUE数据集(+12.75%)上明显优于ERNIE Titan 3.0 260B
  • 高效推理:支持用一台A100(8×40G)/V100(8×32G)服务器基于FasterTransformer进行快速推理(相比Megatron提速最高可达2.5倍)
  • 低门槛推理:最低量化到INT4,则可在4张3090/8张 2080Ti上完成推理
  • 跨平台:支持在NVIDIA、海关DCU、昇腾910和神威处理器上的训练

从千亿模型到ChatGLM

由于千亿模型的动态知识欠缺、知识陈旧、缺乏可解释性,同时缺少高效“Prompt工程”,在对话场景中使用时很难尽人意。就像OpenAI基于GPT3.5大模型,引入RLHF后演变出的ChatGPT,ChatGLM是采用了类似的路线。

 

目前ChatGLM千亿参数版本由于还处于内测,没有太多的公开信息,报告中给出了目前的一些成绩对比: 

  • 在MMLU评测基准上,教GLM-130B有了有更大提升,超过GPT3 davinci版本30%,达到了ChatGPT(GPT-3.5-turbo)的81%
  • 在非数学知识场景达到了ChatGPT(GPT-3.5-turbo)的95% 
  • 在非数学推理场景达到了ChatGPT(GPT-3.5-turbo)的96% 
  • 在高考、SAT、LSAT等考试的综合成绩上,达到了ChatGPT(GPT-3.5-turbo)的90%

开源ChatGLM-6B

 

由于ChatGLM千亿参数版本暂未公开,为了与社区一起更好地推动大模型技术的发展,清华团队开源了62亿参数版本的ChatGLM-6B模型。该版本具有以下特点: 

  • 充分的中英双语预训练: ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。
  • 优化的模型架构和大小: 吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统FFN结构。6B(62亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。 
  • 较低的部署门槛: FP16 半精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4), 使得 ChatGLM-6B 可以部署在消费级显卡上。 
  • 更长的序列长度: 相比 GLM-10B(序列长度1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。 
  • 人类意图对齐训练: 使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback) 等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。 

同时,也必须给出其已知的局限和不足: 

  • 模型容量较小: 6B 的小容量,决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息;她也不擅长逻辑类问题(如数学、编程)的解答。
  • 可能会产生有害说明或有偏见的内容:ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。
  • 较弱的多轮对话能力:ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成,以及多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。
  • 英文能力不足:训练时使用的指示大部分都是中文的,只有一小部分指示是英文的。因此在使用英文指示时,回复的质量可能不如中文指示的回复,甚至与中文指示下的回复矛盾。
  • 易被误导:ChatGLM-6B 的“自我认知”可能存在问题,很容易被误导并产生错误的言论。例如当前版本模型在被误导的情况下,会在自我认知上发生偏差。即使该模型经过了1万亿标识符(token)左右的双语预训练,并且进行了指令微调和人类反馈强化学习(RLHF),但是因为模型容量较小,所以在某些指示下可能会产生有误导性的内容。

思考和展望

有必要将报告中的思考与展望进行分享。 唐杰教授在回顾过去几年时,提到一直是以开源开放的心态在做大模型研究。清华团队不仅仅开源了GLM相关的模型,同时还有自动代码生成模型CodeGeeX,文图生成模型CogView,文字视频生成模型CogVideo,图神经网络工具包Cogdl。 同时提到了对认知大模型的思考。

 

另外对于未来认知智能,通用机器认知能力也进行了总结思考。

 

 

相信在不远的未来,真正具备认知智能的AI将会诞生。

 

 

 

 

 

 

 

 

 

极悦娱乐产品更多介绍:www.heyyen.com

相关内容
最新文章

极悦娱乐价格多少钱?极悦娱乐费用如何确定的?

对于很多使用极悦娱乐的朋友而言,及时了解它的价格是很有必要的一件事情,有的用户表示:自己不知道极悦娱乐价格多少钱,极悦娱乐费用是如何确定的?所以,今天极悦娱乐crm就针对极悦娱乐的价格和定价方法为大家做说明。▎极悦娱乐价格多少钱极悦娱乐的定价方式比较多样化,而且也比较灵活,有的可能非常便宜几百上千,有的则可能需要几万十几万元,所以,大家要注意了解极悦娱乐的价格影响因素。▎极悦娱乐费用如何确定的?第一、极悦娱乐厂商品牌。
最新文章

极悦娱乐的本质是什么?客户关系管理极悦娱乐的核心是什么?

极悦娱乐作为一个客户关系管理系统,它的相关情况一直备受企业关注,那么,极悦娱乐的本质到底是什么呢?客户关系管理极悦娱乐的核心是什么?下面就和极悦娱乐一起来看看它的本质与核心。▎极悦娱乐的本质是什么?客户关系管理极悦娱乐的核心是什么?极悦娱乐的本质与核心是企业通过以“客户为中心”的商业策略、方法和技术手段等等系统性的管理和优化跟客户之间的交互和关系,让客户的满意度、忠诚度以及生命周期价值得到提升,从而让企业的
最新文章

为什么极悦平台在银行业很重要?银行极悦娱乐选择要点

极悦娱乐在银行业有着非常重要的影响,因为有了它以后,可以让银行的日常客户关系管理工作变得简单很多。那么,为什么极悦平台在银行业很重要?后文同时介绍了银行极悦娱乐选择要点。▎为什么极悦平台在银行业很重要?1、客户数据管理。银行每天都需要处理很多客户信息,极悦娱乐可以集中存储和安全管理相关的数据,同时也能够使用极悦平台就有详尽的客户档案,让银行更好了解客户的需求和行为,从而针对性提供个性化的服务和产品
最新文章

快速注册,立即使用

仅需一分钟,立即注册极悦娱乐云。极悦娱乐免费试用。
客户端下载