您现在的位置：首页 > 科技 > > 正文

双榜夺魁Baichuan2在FlagEval评测中拔得头筹

时间：2023-09-19 14:00:06 来源：中国网阅读量：8033

继SuperCLUE中文大模型评测基准8月榜单发布之后，国内又一权威评测体系FlagEval公布最新9月榜单评测结果。

和前段时间大语言模型领域在各大基准评测中争奇斗艳，你方唱罢我登场的局面不同。夺得这两份重量级榜单榜首的均为刚刚发布的Baichuan 2大模型。

FlagEval是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。FlagEval 大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

FlagEval主观评测全新升级，Baichuan 2排名第一

在9月评测中，FlagEval进行了评测框架升级，细化“安全与价值观”与“推理能力”。依据最新版的能力框架，FlagEval 团队同步更新了智源自建的 Chinese Linguistics amp; Cognition Challenge 主观评测数据集题库v2.0，题目数量扩充3倍，采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性。

基于最新 CLCC v2.0主观评测数据集，重点评测了近期大热的 7 个开源对话模型。从整体结果来看，Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅，准确率均超过 65%。

客观评测显示Baichuan 2在中英文领域均全面超越Llama2 在基座模型榜单中，Baichuan 2、Qwen、InternLM、Aquila 的客观评测结果表现均超越同参数量级的 Llama 及 Llama2 模型。

在 SFT 模型榜单中，Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。

在客观评测两个榜单中，Baichuan 2均表现出优异性能，基础模型测试在中英文领域均全面超越Llama2。

当下，国内大模型发展如火如荼，未来，谁能在大模型竞争格局中占据核心地位仍是未知。但不难想象的是，Baichuan 2既已实现对LLaMA2的超越，再加上惊人的迭代速度和良好的开源生态支持，必将推动国内开源生态不断进步、相互促进，对中国大模型行业带来积极影响。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

上一篇：生活知多点夏季喝菊花茶可以加冰糖吗...
下一篇：返回列表

特别关注

全球十大最昂贵的手机

手机是我们日常生活的主要要求，手机价格相差很大，从世界上最便宜的手机到世界上...

2023-09-18 17:14:05
5G使用了什么技术，网速怎么这么快？

盼望着盼望着，5G要来了，虽然小编用的是4G，但是还是超级期待5G的来临的，...

2023-09-18 17:13:21
华为HCIE考试难吗？或许真没那么难

看到这个题目，我相信有一部分人只是好奇点进来，并不知道HCIE是什么，那我先...

2023-09-18 16:39:38
iPhone的“原彩显示”有啥用？要

果粉之家，专业苹果手机技术研究十年！您身边的苹果专家~ 近日，有不少果粉问...

2023-09-18 15:13:48
中国（北京）联合展台绚丽亮相2023

新华网阿姆斯特丹9月15日电在全球广播电视行业享有盛誉的阿姆斯特丹国际广播电...

2023-09-18 14:15:32
你的iPhone是不是经常内存不足，

关闭自动下载删除没用的表情包！清理没用的聊天记录！清理其他数据！...

2023-09-18 11:23:21
身为轮胎界“一哥”，邓禄普VS普利司

两者都是轮胎界的一哥，邓禄普VS普利司通属实有些难解难分，到底是谁更胜一筹呢...

2023-09-18 10:57:08
空调明明开得很低了为啥还热得不行？

这几天谈论什么话题最不容易冷场？那必须是天气了！成都最近这段时间温度步步高升...

2023-09-18 10:44:27
中新艺评：王心凌回来了，你的青春还能

你一票，我一票，心凌80还唱跳。随着综艺《乘风破浪》正式开播，如今已年近40...

2023-09-18 10:33:56
揭秘职场高手的晋升心得

你是否曾经想过，为什么有些人在职场上能够一路高歌猛进，而有些人却总是原地踏步...

2023-09-18 10:04:14