潮流时尚网
潮流时尚网
潮流时尚网 > 品牌 > 正文
442个作者,100页论文一半都是参考文献,谷歌耗时2年发布开源大模型新
2022-12-26 12:05:47  来源:IT之家  阅读量:9114   

来自132个机构的研究人员花了两年时间提出了一个新的基准大工作台,一个大语言模型在此基础上,对OpenAI的GPT模型和Google—Internal Dense Transformer架构进行了评测,模型规模为6个数量级

最终的结果表明,虽然模型的性能伴随着规模的扩大而提高,但与人类的性能仍相差甚远。

对于这部作品,杰夫·迪恩转发了一个赞:很棒的作品。

大语言模型的新基准

莱康在这篇论文里说了什么。

伴随着规模的扩大,模型的性能和质量都得到了一定程度的提升,可能会有一些革命性的影响,但这些性能之前并没有很好的描述。

现有的一些基准存在一定的局限性,评测范围较窄,性能评分很快达到饱和。

比如强力胶,在引入这一基准后的18个月内,模型取得了超越人类水平的性能。

基于这样的背景,BIG—bench诞生了。

目前由204项任务组成,涵盖语言学,儿童发展,数学,常识推理,生物,物理,社会偏见,软件开发等问题。

此外,还有一个由人类专家组成的陪审团,他们也执行所有任务来提供基线水平。

为了方便更多机构使用,研究人员还给出BIG—bench Lite,一个小但有代表性的任务子集,便于更快的评估。

以及实现benchmark API的开源代码,它支持对公开可用模型的任务评估和新任务的轻量级创建。

最终评估结果表明,规模跨越了六个数量级,且伴随着模型规模的扩大和训练样本数量的增加,大平台上的整体性能有所提高。

但与人类基线水平相比,性能还是比较差的。

在某些特定任务上,模型的性能会伴随着规模的增大而稳步提升但有时候,会有特定规模的突然突破表现

此外,它还可以评估模型的社会偏差。

此外,他们意外地发现,模特还可以获得一些隐藏技能比如象棋里怎么按规则走

剩下的,有50页参考文献。

好了,有兴趣的朋友可以戳下面链接到康康论文。

纸质链接:

GitHub链接:


声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

上一篇:头皮摸到疙瘩多是癌症前兆吗
下一篇:返回列表
为我推荐为我推荐
护肤新锐品牌植迷荟闪亮登场联合抖音美力溯源打开消费视野
护肤新锐品牌植迷荟闪亮登场联合抖音美力溯源打开消费视野
解构海洋力量,重塑年轻肌龄
解构海洋力量,重塑年轻肌龄
爱情的小美好值得ALLOVE钻石来诠释
爱情的小美好值得ALLOVE钻石来诠释
爆款预定!杨幂新剧《斛珠夫人》今晚开播引期待
爆款预定!杨幂新剧《斛珠夫人》今晚开播引期待
莎剧改编电影《罗莎琳》首张剧照
莎剧改编电影《罗莎琳》首张剧照
从北欧到中国,璐比奶粉2021进博会首秀 ,备受瞩目
从北欧到中国,璐比奶粉2021进博会首秀 ,备受瞩目
新儿纲中为何要新增儿童安全座椅领域?各界应如何响应并落实?
新儿纲中为何要新增儿童安全座椅领域?各界应如何响应并落实?
精细养护兴起,国内母婴洗护市场现新形势
精细养护兴起,国内母婴洗护市场现新形势
纪梵希美妆携手程潇“粉”爱三亚
纪梵希美妆携手程潇“粉”爱三亚
欧舒丹官宣全新品牌大使唐艺昕、张慧雯
欧舒丹官宣全新品牌大使唐艺昕、张慧雯
关于我们 - 版权声明 - 广告服务 - 联系我们
Copyright © 2018- www.cmzhl.cn All Rights Reserved.
鲁ICP备15032508号-1网站地图