4月30日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告选取国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,Baichuan 3在国内大模型中排名第一,智谱GLM-4、通义千问2.1、文心一言4.0、Moonshot等大模型位列其后。从全球范围来看,国外同行的GPT-4、Claude3得分更胜一筹。
SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是第三方中文语言理解测评基准CLUE。不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过多维度、多视角、多层次的评测体系以及对话的形式,模拟大模型应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。
为更真实反映大模型通用能力,SuperCLUE本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题。评测集共2194题。
测试结果显示,Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo,在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus,力压一众国内大模型拔得头筹。此外,在计算、代码、工具使用能力上Baichuan 3表现同样不俗,均排名国内前三。
在评测国内外模型通用能力和专项能力的基础上,SuperCLUE还对国内模型发展现状及竞争格局进行了分析和研判。SuperCLUE认为,Baichuan 3可应用的场景相对广泛,尤其在专业技能类的任务上表现优异,重点推荐数学推理、数据分析、信息处理、智能客服/语音助手以及任务拆解规划等场景。另外,其还可以在相对复杂的行业场景中落地,可应用于教育、医疗、金融等垂直行业。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
上一篇:印尼电子家电零售龙头ElectronicCity高管团中...
下一篇:返回列表
如果说,中国电信上海公司与客户之间连接着一座可靠而灵活的数字化桥梁,那么数字...
2024-04-30 12:07:34
一季度全国地表水水质排名公布我区水质持续领跑全国 4个设区市进入前10,柳...
2024-04-30 10:52:59
由鞍山市民政局、农工党鞍山市委员会、共青团鞍山市委员会主办,鞍山市社会组织发...
2024-04-30 09:41:34
智通财经获悉,伯恩斯坦周一上调了苹果公司的评级,该公司将于5月2日发布第二季...
2024-04-30 07:26:33
4月29日,巨人网络发布2023年年度报告及2024年一季度报告。报告显示,...
2024-04-30 06:46:02
3月27日-29日,由成都市经信局市新经济委主办,新经济发展研究院iNED承...
2024-04-30 05:37:01
21世纪经济报道记者季媛媛上海报道近年来,在多重利好因素推动下,中国医药创新...
2024-04-30 04:05:25
4月29日晚,“浦东品质?购享生活”浦东五五购物节系列活动在啦啦宝都上海金桥...
2024-04-30 03:08:17
近日,全球肿瘤创新公司百济神州宣布欧盟委员会已批准替雷利珠单抗用于三项非小细...
2024-04-30 01:25:25
4月30日,德才股份披露2023年年报。年报显示,2023年公司主营业务持续...
2024-04-30 00:00:51