国产AI大模型ChatGLM开测：为中文优化、支持国产CPU训练

日期：2023-03-15 来源：快科技作者：宪瑞浏览：60 违规举报

ChatGPT今天升级了GPT-4模型，AI能力更加强大，国内在这方面也在迅速追赶，又一个国产版ChatGPT问世了，现在智谱AI推出的ChatGLM开始内测。

据介绍，对话机器人 ChatGLM（alpha内测版：QAGLM），这是一个初具问答和对话功能的千亿中英语言模型，并针对中文进行了优化，现已开启邀请制内测，后续还会逐步扩大内测范围。

不输ChatGPT 国产AI大模型开测：为中文优化、支持国产CPU训练

与此同时，继开源 GLM-130B 千亿基座模型之后，我们正式开源最新的中英双语对话 GLM 模型： ChatGLM-6B，结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。

经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型，但大大降低了用户部署的门槛，并且已经能生成相当符合人类偏好的回答。

ChatGLM 参考了 ChatGPT 的设计思路，在千亿基座模型 GLM-130B1中注入了代码预训练，通过有监督微调（Supervised Fine-Tuning）等技术实现人类意图对齐。

ChatGLM 当前版本模型的能力提升主要来源于独特的千亿基座模型 GLM-130B。它是不同于 BERT、GPT-3 以及 T5 的架构，是一个包含多目标函数的自回归预训练模型。

2022年8月，我们向研究界和工业界开放了拥有1300亿参数的中英双语稠密模型 GLM-130B1，该模型有一些独特的优势：

双语：同时支持中文和英文。

高精度（英文）：在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B（API: davinci，基座模型）、OPT-175B 和 BLOOM-176B。

高精度（中文）：在7个零样本 CLUE 数据集和5个零样本 FewCLUE 数据集上明显优于 ERNIE TITAN 3.0 260B 和 YUAN 1.0-245B。

快速推理：首个实现 INT4 量化的千亿模型，支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理。

可复现性：所有结果（超过 30 个任务）均可通过我们的开源代码和模型参数复现。

跨平台：支持在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。

2022年11月，斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2，GLM-130B 是亚洲唯一入选的大模型。

在与 OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中，评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平，鲁棒性和校准误差在所有千亿规模的基座大模型（作为公平对比，只对比无指令提示微调模型）中表现不错（下图）。

不输ChatGPT 国产AI大模型开测：为中文优化、支持国产CPU训练

图1. 斯坦福大学基础模型中心对全球 30 个大模型的评测结果（2022年11月）

免责声明：
1、本站所收集的部分公开资料来源于互联网，转载的目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。
2、本站部分作品内容是由网友自主投稿和发布、编辑整理上传，对此类内容本站仅提供交流平台，不为其版权负责，更不为其观点承担任何责任。
3、因行业及专业性有限，故未能核验会员发布内容的真实性及有效性，不为其负责，如有虚假或违规内容敬请准备材料图片发邮件到info@n360.cn举报，本站核实后积极配合删除。
4、如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时处理或删除。

标签： ChatGPT模型 AI参数英伟对话机器人用户 ChatGPT

更多>同类资讯文章

0 条相关评论

推荐图文

追求卓越· 迈向第一	年薪超47万 15年不用
汽车配件生意怎么做（	武汉一女子怀孕后遭公
赛凡回应《流浪地球2	百度：文心一言发布首
高新技术企业的收入怎	曾引发隐私争议谷歌

推荐资讯文章

点击排行