神仙打架：大模型能力在线比拼 - 服务器托管|北京服务器租用|机房托管租用|IDC托管租用|机房机柜带宽租用-价格及费用咨询

LMSYS 组织在https://chat.lmsys.org/?arena上进行了一项有趣的试验，同时与两个匿名的大模型聊天，在模型输出结果之后，再人工对其进行打分，模型的名称会在投票后显示。

不过，这一轮Claude抢跑直接说出了自己的名字🤭，但是从第二轮问答来看，右边的Claude明显还是强于左边的mpt-7b的。一共有如下13位参赛选手：


vicuna-13b	koala-13b	oasst-pythia-12b	RWKV-4-Raven-14B
alpaca-13b	chatglm-6b	llama-13b	dolly-v2-12b
stablelm-tuned-alpha-7b	fastchat-t5-3b	mpt-7b-chat	ChatGPT-3.5

欸，不是说好的13位参赛选手吗，怎么还少一位？缺少的那一位当然就是“跳出三界外，不在五行中”的GPT-4了。🙄

在这一轮的测试中，虽然Claude充分发挥了他话痨的特点，很尽力的在安慰我了，但是GPT-4就是这么不讲道理的，用最少的语言就给出了最精妙的回答。

而在这一轮的卧龙凤雏比拼当中，ChatGLM依旧嘴硬我行我素，但是无奈alpaca在中文领域实在是太薄弱了，无奈我的票也只能投给ChatGLM了。😔但是需要注意的是，由于某些原因，这个测试绝大部分是在英语环境下，因此alpaca的这个弱点并不会被放大。以下是总榜单：

可以看到GPT-4毫无意外的又荣登宝座了，不过随着近期bard以及Claude的升级，不知道下周GPT-4还能不能蝉联这个桂冠呢？除此之外ChatGLM以6B的弱小身板能在英文环境下依旧徘徊在中游，也挺令人吃惊的。下图是测试的详细数据：

最近还流传了一张中文大模型之间的比拼图：

这张图据说争议很大，但是经过我这个弱小的人类测试，实际效果可能也跟这张图大差不差。文心一言最近也在以肉眼可见的速度变聪明，相信不久后他也能摆脱倒一的称号，慢慢变强。

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net

相关推荐: Python之路,Day20 – 分布式监控系统开发

本节内容为什么要做监控？常用监控系统设计讨论监控系统架构设计监控表结构设计 1.为什么要做监控？ –熟悉IT监控系统的设计原理 –开发一个简版的类Zabbix监控系统 –掌握自动化开发项目的程序设计思路及架构解藕原则 2.常用监控系统设计讨论…

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用