清华大学再立大模型标杆！ 2B规模他妈的Mistral7B

xunaa

2024-09-05 09:31:00

编辑说

如何以最小的规模构建最强的AI？
智东西2月2日报道，本周四，中国最早从事“大模+代理”的创业公司面墙智能新年扩容计划——，发布迄今为止最强旗舰端侧大模面墙MiniCPM 。
这是一

如何以最小的规模构建最强的AI？

智东西2月2日报道，本周四，中国最早从事“大模+代理”的创业公司面墙智能新年扩容计划——，发布迄今为止最强旗舰端侧大模面墙MiniCPM 。

这是一门“2B性能小钢炮”，仅使用24亿个参数，却能对抗数百亿的大型模型。

此前风靡欧洲的生成式AI独角兽Mistral AI凭借其大胆做法，凭借70亿参数大模型Mistral-7B成功挑战Llama 2，成为证明数十亿参数模型足以实现高性能的标杆。

如今，“中国版米斯特拉尔”黑马充分发挥，在多个主流评测榜单中性能超越米斯特拉尔-7B，并首次在设备侧有效实现多模态部署并提供实际测试示例，并且可以聊天和编写代码。还可以理解图像信息并给出准确答案。

取得这些成就的团队既年轻又经验丰富。位于中国大型模型公司最集中的地区北京五道口——号。它成立仅一年前。拥有一支100多人的科研团队，清北含量80%，平均年龄仅28岁。

一、智能终端“开卷”端侧大模型，开年黑马为何致力于大模型小型化？

去年下半年以来，智能硬件圈越来越热闹：华为、小米、OPPO、vivo、荣耀等各大厂商纷纷下台，搭载数十亿参数的大端侧机型手机； AI PC概念他们将共同亮相国际消费电子盛会CES 2024；许多初创公司正在挑战新形式的人工智能硬件。

利用更小的模型构建更强的AI，是继大模型竞争达到千亿参数之后的另一个焦点方向。这反映了智能硬件产品集体面临的问题：在云端运行大型模型已经足够强大，但如果端侧无法承担起自己的角色，网络断开、响应延迟慢等问题就会影响最终用户经验。

将大型模型放在端侧的关键是要达到三点：第一，尺寸足够小，第二，性能可用，第三，成本足够低。

由于智能硬件的内存容量和带宽有限，设备端模型越小，计算量和占用内存越少，计算成本、功耗和推理延迟越低，设备端响应速度越快人工智能应用。

在规模飙升的技术竞争中，成本成为大车型的隐形竞争力。成本代表着大机型的利润空间，是智能终端企业关注的焦点。设备侧模式具有全天候、低成本的特点。通过云协同，可以弥补大规模部署成本和千亿参数模型门槛的先天缺陷，减轻云数据中心的计算负担。

作为一家初创公司，面壁智能成立于2022年8月，此前专注于开发千亿级大型模型和AI Agent。它不具备像各大手机厂商那样大规模硬件产品的天然优势。为什么选择进入这个市场？并排？

这要从团队的使命开始。面墙智能的愿景是“万物智联”，OpenBMB开源社区的愿景是“让大模型飞进千家万户”，旨在让尽可能多的人到达尽可能多的地方。可能的。和场景享受大型模型的一般智能。

就像人类智能分为脑干、小脑、大脑，分别负责不同的任务一样，未来不同大小的模型将负责不同复杂程度的任务。这样的通用人工智能（AGI）实现路径将会更加高效。

因此，双方发力是面壁智能战略的重要组成部分。

2B尺度的模型可以应用于距离用户更近、更便携的移动设备，从而在更多的地方发挥作用，解决大型模型在实践中实施成本高、门槛高的问题。

从技术研判的角度来看，2023年ChatGPT和GPT-4的推出表明大模型技术路线已经基本确定。下一步将探索其科学机制，将效率优化到极致。

清华大学计算机系常任副教授、面墙智能联合创始人刘志远表示，希望这种端到端的模型能让更多人意识到，即使是2B大小的模型能力的上限远远超乎想象。就像在流体力学的支持下建造船舶和飞机一样，其团队致力于科学地进行大型模型研究，这是其商业化和可持续发展的重要驱动力。

同时，通过云协同和催化应用实现，设备端大模型可以更好地服务于面墙智能“大模型+代理”的双引擎策略。设备上大模型的技术积累与云上大模型的不断小型化相吻合，最终将有助于加速迈向AGI。

清华大学再立大模型标杆！ 2B规模他妈的Mistral7B

“如果Agent能力用在端侧模型上，可以更好地服务特定场景，创造更多价值。我认为这两个方向可以相互支持，产生一些奇妙的化学反应。”面墙智能人联合创始人、CTO曾国阳表示。

二、2B参数、1T数据，性能超越Mistral-7B，率先将多模态落地手机

2023年，Mistral-7B诞生。凭借7B参数，击败了百亿参数的开源大型语言模型领军者Llama 2。成为大模型领域“以小妥协，以大胜大”的典范，以昂扬的姿态建立了开源领域。新基准。

今年年初，面墙智能接手“大机型小型化”的重任：推出“性能新旗舰”面墙MiniCPM，以2B参数规模和1T Token精选数据横扫众多主流评估清单。英语平均分超过Mistral-7B，中文和通用能力作战能力超过微软明星型号Phi-2（蒸馏而成的GPT-4）。

面对“山东省最高的山是哪座山？比黄山高还是矮？相差多少？”的复杂问题，MiniCPM不仅能给出准确的海拔高度，还能计算出差异，而且速度更快比手动搜索和计算有明显的提高。

MiniCPM-2B不仅具有更好的通用性和中文能力，而且在英文比赛时也具备与数十亿甚至数百亿参数的大型模型竞争的能力。

它可以绕过多语言混合翻译的陷阱，例如被要求使用英语并要求大模型将中英文混合句子翻译成法语。它可以理解意图并输出正确答案。

对于角色扮演，MiniCPM也驾轻就熟：扮演李逵向宋江要钱时，他能完美把握说话的语气和技巧；扮演李逵向宋江要钱时，他能完美把握说话的语气和技巧；在给妻子写情书时，他有意识地插入一些可以表达爱意的表情符号。因此，可以基于它来驱动一些情感聊天机器人端侧应用。

此外，MiniCPM的编程能力超越Mistral-7B，可以实现端侧操作和代码编写，有助于节省编程工作量。

与数百亿级大型模型竞争，MiniCPM-7B在大多数评估中也能取得性能领先。

MiniCPM 在MTBench 上获得了非常好的评价，这是最接近人类评价的评价集。

经过Int4量化后，MiniCPM可以部署在手机上进行推理，流式输出速度略高于人类说话速度。

MiniCPM开源地址：https://github.com/OpenBMB/MiniCPM

MiniCPM不仅能说，还能看。是第一批在手机上成功部署多模态大模型的企业。 MiniCPM-V的评估性能超过了同规模的其他多模态模型。在某些评估集上，其性能相当于甚至优于9.6B Qwen-VL-Chat。它可以解释图像细节并理解抽象模因。

为什么要把多模态能力留给终端呢？面墙智能联合创始人兼CEO李大海举了一个极端的例子。比如，当你去野外露营，遇到一条蛇，在信号比较差的情况下，如何辨别它是否是毒蛇呢？这时候拍张照片并发送给末端的大模型，这样就能得到及时的回复。如果出现紧急情况，可以在网络离线的情况下优先转向大端侧模式。

多模式功能还不止于此。面向墙壁的OmniLMM 的较大版本已经在其同等规模的功能方面领先于开源社区。例如，使用大模型来猜测玩什么样的游戏，可以与纯文本ChatGPT-3.5以多模态连续模式结合，实现石头剪刀布的功能。

流式实时交互是通过使用OmniLMM 12B将视频帧转换为文本描述，然后基于纯文本ChatGPT-3.5，根据文本描述和用户问题回答问题来实现的。

大型多模态模型可以理解许多图像细节。例如，左图中的狗没有佩戴导盲犬标志，大模型通过周围的元素确定它是导盲犬；右图中的大模型使用电视台的标志来推断这是一个电视节目。

这些功能已经集成在12B型号上，稍后将引入到壁挂式MiniCPM-V中。

OmniLMM开源地址：https://github.com/OpenBMB/OmniLMM

清华大学再立大模型标杆！ 2B规模他妈的Mistral7B

三、省钱才是硬道理！170万tokens推理成本仅1元，1080显卡也可高效参数微调

全方位降低成本是MiniCPM的一大亮点。

作为一个大的、省钱的模型，MiniCPM支持CPU推理和消费级显卡训练； Int4量化后仅占用2GB空间，适合端侧手机上的模型部署。

一道简单的算术题显示，骁龙855芯片售价600元，每秒7.5个代币。按5年计算，MiniCPM 170万个代币的客户端推理成本仅为1元，是Mistral-medium在云端成本的1%。相当于悬崖坠落。

除了设备端推理之外，其成本优势还体现在二次开发持续改进的成本低廉。由于足够小，只需一张1080/2080显卡就可以进行高效的参数微调，一张3090/4090显卡就可以实现全参数微调，一台机器就可以支撑参数训练；量化版本是75%压缩，性能基本无损。

目前MiniCPM主要实现在手机上，需要在更多智能终端场景中继续挖掘用户价值。李大海介绍，MiniCPM已经跑遍国际主流手机品牌和终端CPU芯片，在老手机上运行没有压力。

目前，前墙团队尚未针对手机推理模型进行深入的优化和系统测试。其仅作为外部开发者验证MiniCPM使用手机芯片进行推理的可行性。欢迎行业伙伴和更多开发者共同努力，进行针对性的优化。

训练模型时，效率是关键。在面墙团队看来，在模型训练的过程中，贯穿全流程的高效基础设施是大规模模型创业的护城河，它决定了技术上限。短期内可能会取得不错的效果，但深入的工作会受到Infra的限制。

面墙智能打造了全流程优化加速工具套件平台Face Wall ModelForce，包括：2021年开发的高效训练框架BMTrain，实现了SOTA在业界的分布式实施，降低了千亿级训练的门槛型号为64 卡； BMnf高效推理框架采用高效采样加速算法和稀疏激活方法，可实现3倍推理加速； BMCook高效压缩框架具有Int4无损压缩，可实现5倍以上的推理加速，减少70%的存储开销； BMTune高效微调框架提供了多种微调、提示学习等工具包。

在这些工具的帮助下，Wall-Facing Intelligence 可以将推理速度提高10 倍，并将成本降低90%。

面墙智能首席研究员韩旭表示，很多Infra任务都利用各种设备和计算能力来加速训练。另外，在算法层面，我们积极寻找一些与硬件匹配的高效特征，从算法和模型层面实现高效率。两者的协作可以极大地提高端侧大型模型的推理性能。

四、揭秘最强2B大模型如何诞生：1T精选优质数据集+自创“模型沙盒”

在沟通过程中，面壁智能核心创始团队反复提到一个关键词：效率。

小尺寸是模型技术的终极竞技场，高效率是墙饰技术的传统技术优势。我们之所以能够做到“小事成大事”，来自于团队对算力、数据、算法的多重优化。除了上面提到的“省钱才是王道”，还有“数据治理”和“算法优化”。两个buff叠加。

在数据治理方面，面笔智能打造了现代化的“数据工厂”，形成了从数据治理到多维度评价的有效闭环。通过高质量的数据积累和持续训练友好的数据策略，驱动模型版本的快速迭代。曾国阳表示，面壁智能处理异常的经验和数据选择的知识是其继续发力大模型的技术障碍。

MiniCPM可以使用1T Tokens数据来实现高性能。有两个关键点：一是数据高质量，训练使用精选的高质量数据集；其次，数千次预实验，其中涉及算法中的面壁智能。通过优化开发出更有效的训练技术。

在算法优化方面，Facewall Intelligence创建了自己的“模型沙箱”技术，用相同的数据量训练更大的模型，用小模型预测大模型的性能，并共享大小模型的超参数解决方案，以实现可持续发展优化以及高效且可扩展的模型。培训策略。刘志远打了个比方：这方面的技术壁垒就像做饭一样。即使你得到了菜谱，你也不一定能烹饪到米其林三颗星的水平。

例如，我们优化了世界各地使用的学习率调度器，开发了Warmup-Stable-Decay（WSD）调度器，这对于持续训练非常友好。调度器新的学习率调度策略可以实现最优Decay步数，使连续训练更加高效。这样的学习率调度器有助于训练模型，然后根据不同的后续使用目的进行有针对性的调整。

除了0.01的学习率在任意模型规模下实现最优损失外，“模型沙箱”还实现了超参数稳定的模型规模扩展，部分调整接近Cerebras-GPT。同一套超参数控制所有模型；最优batch size，收敛速度和资源消耗之间的最佳平衡；固定的模型乘数上限，可以随时退火以获得阶段最优的模型增长倍数；数据课程，持续训练友好，在WSD调度器的退火阶段添加高质量数据以获得更好的能力，也支持持续训练。

刘志远表示，“大模型”并不仅仅意味着模型大，实际上是一种对大数据和参数具有内置管理和科学能力的技术。如今的面壁智能技术足以训练一个2B模型，使其表现和以前一样好。对于至少需要4B模型的东西，相应的方法也可以同源，比如用类似的模型制作80B甚至800B模型。

清华大学再立大模型标杆！ 2B规模他妈的Mistral7B

更多MiniCPM算法优化详情，请参考其开源项目上传的技术报告。

直通车：https://github.com/OpenBMB/MiniCPM

五、不执着于“比大更大”，大模型、Agent宇宙、高效Infra三手抓

作为最早的大型模型研究团队之一，面墙智能是少数一走出实验室就引入产业经理人，提前进行商业公司运营和思考的初创公司之一。

联合创始人刘志远是清华大学常任副教授，联合创始人兼CEO李大海是知乎CTO，联合创始人兼CTO曾国阳是8岁开始学习编程的天才少年其首席研究员韩旭是清华大学计算机系博士后。

据介绍，面墙智能于2018年脱胎于清华自然语言处理实验室，发布了全球首个知识引导预训练模型ERNIE； 2020年12月，成为启蒙模型首个主力阵容，发布全球首个20亿参数的中文开源模型。每千次展示费用模型； OpenBMB开源社区将于2022年4月成立。

进入大模型时代，AI技术已经足够成熟，可以标准化、产品化并应用于各行各业。刘志远意识到仅靠学校实验室无法进行前沿探索，于是他在2021年开始筹备公司，确立了“让大模型走进千家万户”的初衷。之后，担任知乎CTO的李大海先是参与投资，后又担任面壁智能CEO，直接参与管理。

2022年8月，面墙智能转为公司化运营，2023年4月获得知乎投资天使轮融资，2023年全年将推出多款基础车型和代表性代理产品。

除了与清华NLP实验室的合作外，李大海透露，面墙智能与知乎也有很多合作。知乎的数据在多模态大模型训练中发挥着非常重要的作用，这也是面壁智能的优势。地点。

目前，前墙智能主要有三大产品线：大模型、AI Agent、AI Infra。

面壁智能并不执着于走“比大更大”的路线，但也没有放弃对超大规模语言模型的研究。其千亿模型的CPM-C性能已经超越GPT-3.5，推理成本目前是GPT-3.5 Turbo价格的一半，成本下降空间相当大。更大、更强大的CPM-D正在训练。

清华大学计算机系博士生、面壁智能研究团队成员胡胜定解释说，扩大模型规模非常重要。在较小的模型上进行实验不是目的，而是一种手段，以便最终服务于特别大的模型并实现超级智能。开发更小的模型可以让智能的成本更低，满足更多应用场景的需求，从而让更多的人获得智能。

“看似我们做了很多事情，但其实核心很明确。”刘志远说。面墙智能和清华自然语言处理实验室的共同愿景是实现AGI，并让其服务整个人类社会。 “我们会知道AGI 需要什么。”做。”

接下来，Wallface Intelligence将遵循“大模型+代理”双引擎策略，探索更小的模型、更快的速度、更低的成本，并将模型族开源，为社区做出贡献。

结语：挖掘“更小”大模型性能上限，加速迈向通用人工智能

在刘志远看来，要让通用人工智能惠及所有人，追求更大的模型、更强的能力出现，以及如何充分发现和挖掘固定尺寸模型的性能上限将是通用人工智能的重要使命人工智能。该领域下一步的任务肯定是让路线更加科学化、标准化。这也是面壁智能与清华自然语言处理实验室产学研融合的重要使命。

最后一个小彩蛋：随着农历新年的临近，面墙智能开发了一款名为“心”的应用，它具有基于大模型能力的“CP”功能。测试版已经开放，欢迎大家尝试。

用户评论

娇眉恨

清华系一直厉害啊，这大模型性能确实不错！

有6位网友表示赞同！

┲﹊怅惘。

Mistral7B都没法比？感觉这个名字也霸气十足。

有8位网友表示赞同！

我没有爱人i

2B规模太给力了，等不及想看看具体能干啥。

有20位网友表示赞同！

情如薄纱

清华校内又有了新的研究成果，好厉害！

有17位网友表示赞同！

毒舌妖后

期待看到更多清华系在AI上的创新突破！

有10位网友表示赞同！

軨倾词

大模型这个领域竞争越来越激烈了。

有15位网友表示赞同！

熟悉看不清

这名字有点眼熟啊，好像之前新闻里就提过类似的模型？

有10位网友表示赞同！

来瓶年的冰泉

2B规模确实很顶尖，是目前主流的几把顶级模型水平吗？

有7位网友表示赞同！

泡泡龙

清华系的大模型再次刷新我的认知！

有17位网友表示赞同！

各自安好ぃ

这个参数说明研究团队相当厉害！

有20位网友表示赞同！

心安i

感觉今年AI领域又要有一波热度了

有10位网友表示赞同！

旧爱剩女

什么时候可以开源使用呢？很期待看到它具体的应用效果。

有5位网友表示赞同！

灵魂摆渡人

大模型的未来一定非常光明

有7位网友表示赞同！

青瓷清茶倾城歌

清华系一直都是AI领域的领军者啊!

有6位网友表示赞同！

七夏i

2B这么大的规模，训练难度可想而知！

有11位网友表示赞同！

不相忘

不知道这个模型在实际应用中能达到怎样的效果呢？

有20位网友表示赞同！

ˉ夨落旳尐孩。

希望能在中文大模型方面看到更多突破性进展！

有6位网友表示赞同！

巷雨优美回忆

对清华系的研究成果表示敬佩!

有18位网友表示赞同！

莫失莫忘

太厉害了！

有18位网友表示赞同！

免责声明

本站所有收录的学校、专业及发布的图片、内容，均收集整理自互联网，仅用于信息展示，不作为择校或选择专业的建议，若有侵权请联系删除!

湖南双非大学最强，湘潭大学还是长沙理工大学？

返回列表

大家都在看

清华大学再立大模型标杆！ 2B规模他妈的Mistral7B

一、智能终端“开卷”端侧大模型，开年黑马为何致力于大模型小型化？

二、2B参数、1T数据，性能超越Mistral-7B，率先将多模态落地手机

三、省钱才是硬道理！170万tokens推理成本仅1元，1080显卡也可高效参数微调

四、揭秘最强2B大模型如何诞生：1T精选优质数据集+自创“模型沙盒”

五、不执着于“比大更大”，大模型、Agent宇宙、高效Infra三手抓

结语：挖掘“更小”大模型性能上限，加速迈向通用人工智能

用户评论

大家都在看

清华大学再立大模型标杆！ 2B规模他妈的Mistral7B

湖南双非大学最强，湘潭大学还是长沙理工大学？

剑桥2b：品味生活的绝佳选择

Exeter 2b：埃克塞特大学的理想家园

如果我在学术考试中取得A 或B 的成绩，我可以申请哪所三一学校？ 2024年浙江省高校三一信息汇总

“数学、物理、计算机科学、临床科学”，哪些大学在学科评估中被评为A类？

太原科技大学、太原工学院已将2A专业调整为1B专业，招生空缺较多。

新加坡小一注册2A最终数据出炉！ 27所学校需要抽签！最激烈的阶段！

盘点院校前身中国地质大学

山西省2021年高考第二批甲类高考成绩