MiniMax 国内首个 MoE 大语言模型全量上线啦
今天,经过了半个月的部分客户的内测和反馈,MiniMax 全量发布大语言模型 abab6,为国内首个 MoE 大语言模型。在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。
我们会在这篇文章中与大家分享为什么使用 MoE 架构,abab 6 大语言模型的测评情况,以及在最后附上申请使用的链接。
1. 为什么使用 MoE 架构?
2023 年 4 月,MiniMax 发布了开放平台。过去半年多,我们陆续服务了近千家客户,包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司,MiniMax 开放平台平均单日的 token 处理量达到数百亿。这半年多来,客户给我们提供了很多有价值的反馈和建议。例如,大家认为我们做得比较好的地方有:在写作、聊天、问答等场景中,abab 5.5的表现不错,达到服务器托管网了 GPT-3.5 的水平。
但是和最先进的模型 GPT-4 相比,我们仍有显著的差距。主要体现在处理更复杂的、对模型输出有精细要求的场景时,存在一定概率违反用户要求的输出格式,或是在推理过程中发生错误。当然,这不仅是 abab 5.5 的问题,也是目前除 GPT-4 以外,几乎所有大语言模型存在的缺陷。
为了解决这个问题,进一步提升模型在复杂任务下的效果,从 6 月份我们开始研发 MoE 模型——abab 6 是我们的第二版 MoE 大模型(第一版 MoE 大模型已应用我们 C 端产品中)。Abab 6d的参数比上一个版本大一个量级。更大的模型意味着 abab6 可以更好地从训练语料中学到更精细的规律,完成更复杂的任务。
但仅扩大参数量会带来新的问题:降低模型的推理速度以及更慢的训练时间。在很多应用场景中,训练推理速度和模型效果同样重要。为了保证 abab6 的运算速度,我们使用了 MoE (Mixture of Experts 混合专家模型)结构。在该结构下,模型参数被划分为多组“专家”,每次推理时只有一部分专家参与计算。基于 MoE 结构,abab6 可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。
目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。为了训练 abab6,我们自研了服务器托管网高效的 MoE 训练和推理框架,也发明了一些 MoE 模型的训练技巧。到目前为止,abab6 是国内第一个千亿参数量以上的基于 MoE 架构的大语言模型。
2. 测评结果:
abab 6 在复杂场景下表现更好
我们对abab6,abab5.5,gpt-3.5,gpt-4、Claude 2.1 和 Mistral-Medium 商用进行了自动评测。在简单的任务上,abab 5.5 已经做得比较好,因此我们选择了三种涵盖了较复杂的问题的评测方法:
- IFEval:这个评测主要测试模型遵守用户指令的能力。我们会问模型一些带有约束条件的问题,例如“以XX为标题,列出三个具体的方法,每个方法的描述不超过两句话”,然后统计有多少回答严格满足了约束条件。
- MT-Bench:这个评测衡量模型的英文综合能力。我们会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。我们会用另一个大模型(GPT-4)对模型的回答打分,并统计平均分。
- AlignBench:该评测反映了模型的中文综合能力测试,测试形式与MT-Bench类似。
测评及对比结果如下:
abab6 |
abab5.5 |
Claude |
Mistral |
GPT-3.5 |
GPT-4 |
|
IFEval |
0.67 |
0.49 |
0.57 |
0.56 |
0.55 |
0.75 |
MT-Bench |
8.61 |
6.63 |
8.18 |
8.61 |
8.39 |
9.32 |
AlignBench |
7.41 |
5.50 |
6.62 |
6.42 |
6.08 |
8.01 |
注:对比模型均选择各自最新、效果最好的版本,分别为 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106。abab6 是 1 月 15 号的版本。
可以看出,abab6 在三个测试集中均明显好于我们前一代模型 abab5.5。在指令遵从、中文综合能力和英文综合能力上,abab6 大幅超过了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵从、中文综合能力和英文综合能力上略胜一筹。相较于 Mistral 的商用版本 Mistral-medium,abab6 在指令遵从和中文综合能力上都优于 Mistral-medium,在英文综合能力上与 Mistral- medium 旗鼓相当。
这些数据指标也符合我们实际体验中的感受。以下是几个 abab6 实现的具体案例:
乐趣辅导
用一个简单易懂且有趣的方式来教 7 岁左右儿童以下的数学题目:一个篮子里有 5 个苹果,小明吃掉了 2 个苹果,然后妈妈又放了 3 个苹果进去,请问篮子里现在有多少个苹果?同时,为保持孩子们的学习兴趣,需要模拟海绵宝宝的口吻来表达。 |
嘿,小伙伴们,我是你们的好朋友海绵宝宝!今天我们来玩一个数学游戏,看看篮子里的苹果发生了什么变化。 一开始,我们的篮子里有 5 个苹果,就像海底世界里的宝藏一样。然后,我们的好朋友小明来了,他吃掉了 2 个苹果,就像吃掉了海底的2颗珍珠。这时候,篮子里就剩下了 5-2=3 个苹果。 但是,不要担心,因为小明的妈妈很善良,她又放了3个苹果进去,就像又找到了 3 颗珍珠一样。所以,篮子里现在又有了3+3=6个苹果。 所以,现在篮子里有 6 个苹果,就像海底世界里又多了 6 颗闪亮的珍珠。你们都明白了吗?记得,数学就像海底探险一样,总是充满了惊喜哦! |
游戏构建
为我创造一款虚构的桌游,这款游戏的主题围绕着上海展开,游戏中需包括上海市的主要旅游景点、历史文化以及独特美食。请将回答格式化为一个清晰的游戏规则说明书,其中每个游戏组件的描述必须用有序列表来组织。 |
游戏名称:《魔都探秘》 游戏类型:城市建设与文化探索 游戏目标: 玩家需要成为上海的城市规划者,通过投资旅游景点、历史文化地标和美食街区,发展自己的城市,吸引游客,最终成为上海最成功的城市规划者。 游戏人数:2-4人 游戏时间:约60分钟 游戏组件:
2. 地标卡:
3. 历史文化卡:
4. 美食街区卡:
5. 发展骰子:
6. 货币:
7. 计分板:
8. 玩家棋子:
游戏规则:
游戏策略提示:
《魔都探秘》将带领玩家深入了解上海的文化与魅力,通过有趣的城市建设和经济竞争,让玩家在享受游戏的同时,更加喜爱和了解上海。 |
指令遵从
《秦时明月》讲了个什么故事? 分两段回答;第一段第一句以“海螺”开头,第一段第二句以“极”开头,第一段第三句以“智”开头;第二段以“星野”开头,并在合适的位置添加“明日”“梦”两个关键词。 |
海螺壳中藏着历史的秘密,《秦时明月》便是以这样的神秘物品作为引子,展开了一段跨越时空的冒险故事。极尽想象与创意,这部作品将秦朝末年的历史背景与武侠、奇幻元素相结合,讲述了一群英雄儿女在动荡的时代背景下,为了理想和信念而战斗的故事。智勇双全的主角们,不仅要面对强大的敌人,还要解开一个个历史谜团,他们的冒险充满了挑战与成长。 星野之下,明日的梦想在《秦时明月》中显得尤为珍贵。主角们在历史的洪流中,不断追寻着属于自己的明天,他们的故事激励着观众去思考个人与历史的关系,以及如何在逆境中坚持自己的梦想。明日的曙光,似乎总在最黑暗的时刻闪现,而《秦时明月》正是通过这样的故事,传达了对未来的美好憧憬和对梦想的执着追求。 |
会议总结
我们要求 abab 6 根据总时长为 10 分钟的,共 7 人参与的会议内容,总结出【会议记录内容】中的全部议题,如果有【Action】要在会议内容中明确。议题的数量不多于 5 个,请按以下格式输出: 议题 1: xxxxx 议题内容:xxxxx 时间:xxxxx 议题 2: xxxx 议题内容:xxxx 时间:xxxx |
以下是 abab6 的回答:
议题1:加快项目进度并保证质量 议题内容:发言人5强调在加快进度的同时要保证工作质量,张华表示稳妥是前提。 时间:10:02:15 议题2:深入探讨数据模型 议题内容:发言人8提出要深入讨论昨天讨论的数据模型,发言人2和发言人5表示将参与并提供材料和想法。 时间:10:02:33 议题3:备份问题 议题内容:发言人3询问上次会议提到的备份问题是否已解决,发言人6表示仍在处理中,预计明天能解决。 时间:10:03:00 议题4:市场调研与问卷制定 议题内容:发言人7询问前两天讨论的市场调研的调查问卷制定情况,发言人2表示已准备初稿,计划周末前完成。 时间:10:03:56 议题5:工作分配与技能汇总 议题内容:发言人5提出要讨论接下来的工作分配,让每个人在最擅长的领域发挥,张华表示将汇总大家的技能和偏好,再做讨论定下来。 时间:10:04:42 |
写首诗吧
写个英文藏头诗,一共 5 句,句首连起来是“ABAB6”,主旨是 MiniMax的 ABAB6 文本大模型发布了 |
Astonishing breakthroughs in AI, Bringing forth a new era of digital intelligence, Awesome power in the palm of your hand, Beyond imagination, the ABAB6 model shines, Sixth sense in technology, MiniMax leads the way. |
3. 来试用吧!
我们深知,测评数据只是衡量大模型的一个方面。对模型迭代来说,用户实际的体验和反馈才更有价值。刚上线的 abab6 在处理复杂问题上距离最新版本的 GPT4 仍有一定差距。这篇文章,一是想跟大家同步 MiniMax 最新模型 abab6 的进展;二是邀请大家接入我们的大模型。Abab6 大模型在持续训练中,欢迎大家多提出宝贵建议。
想要接入 abab-6 大模型的朋友,欢迎访问 MiniMax 开放平台官网 api.minimax.chat 登记。
我们知道距离真正实现 AGI,还有很长的路要走、很多的事要做。我们会一步一个脚印,不断根据大家的反馈,提升模型的能力和稳定性。
Intelligence with Everyone.
与用户共创智能。
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
一:背景 1. 讲故事 总会有一些朋友问一个问题,在 Windows 中线程做了上下文切换,请问被切的线程他的寄存器上下文都去了哪里?能不能给我挖出来?这个问题其实比较底层,如果对操作系统没有个体系层面的理解以及做过源码分析,其实很难说明白,这篇我们就从.NE…