百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

谷歌最强开源模型Gemma 2发布!270亿参数奇袭Llama 3

ccwgpt 2025-03-23 17:49 26 浏览 0 评论

作者 | ZeR0
编辑 | 漠影

智东西6月28日报道,昨晚,谷歌在I/O Connect大会上放大招,公布其新一代最强开源模型——Gemma 2

Gemma 290亿(9B)和270亿(27B)两种参数规模可用27B模型训练了13T tokens,9B是8T tokens,都拥有8192上下文窗口,可在Google AI Studio中使用。26亿参数(2.6B)模型将很快发布,小到可以在手机本地运行。

在盲测大语言模型竞技场LMSYS Chatbot Arena中,270亿参数的Gemma 2指令微调模型击败了拥有700亿参数的Llama 3,并超过Nemotron 4 340B、Claude 3 Sonnet、Command R+、Qwen 72B等模型,在所有开源权重的模型中位列第一;9B模型则是当前15B以下参数的模型中成绩最好的

谷歌在今年早些时候推出轻量级先进开源模型Gemma,只有2B和7B参数版本,下载量超过1000万次。Gemma 2涵盖从20亿到270亿参数,比第一代性能更高、推理效率更高,并且显著改进安全性。这是该系列模型迈出的一大步。

270亿参数的Gemma 2提供了与两倍以上参数的模型竞争的替代方案,提供了直到去年12月才可能实现的性能,而且可以在单个英伟达A100/H100 Tensor Core GPU或TPU主机上以全精度高效运行推理,大大降低了部署成本。

在Hugging Face的基准上,谷歌将Gemma 2 27B与具有类似尺寸的Qwen1.5 32B进行了比较,还报告了Llama 3 70B的性能。Gemma 2 27B的尺寸只有Llama 3 70B的40%,训练数据少到Llama 3 70B的2/3。结果显示,Gemma 2 27B优于Qwen1.5 32B,比Llama 3 70B低几个百分点

一、重新设计架构,Gemma 2有三大特点

Gemma 2的技术报告共15页,介绍了其架构的多项技术改进,包括交替使用局部-全局注意力机制和分组查询注意力,还使用知识蒸馏而不是下一个token预测来帮助训练较小的2B和9B模型。

▲Gemma模型的参数量

2.6B模型在一个TPUv5e集群的2x16x16配置上训练,总共用了512张芯片。9B模型在TPUv4集群的8x16x32配置上训练,总共4096张芯片。27B模型在TPUv5p集群的8x24x32配置上训练,总共用了6144张芯片。

▲用切分训练基础设施

针对更高的性能和推理效率,谷歌在重新设计的架构上构建了Gemma 2。该模型采用与Gemma 1.1相似的算法配方,但用了更多的teacher监督并执行了模型合并。在编程、数学、推理、安全等能力上,Gemma 2都比1.1版本提升显著。

▲主要模型参数及设计选择的概述

结果,Gemma 2模型在其规模上提供了最佳性能,甚至提供了与大2-3倍的模型竞争的替代方案。以下是其突出的特点:

(1)卓越性能:Gemma 2 27B在其同类大小中提供了最佳性能,甚至提供了与两倍以上大小的模型竞争的替代方案。Gemma 2 9B模型也提供了领先的性能,超过了Llama 3 8B和其他同类大小的开源模型。

谷歌在各种基准上比较2.6B、9B及27B模型,报告了可以与Llama 3进行比较的8个基准测试的平均性能,以及所有基准测试的平均性能。Llama 3 8B的数据来自HuggingFace leaderboard或其博客。

在MMLU上,9B模型得分为71.3,27B模型为75.2;在AGIEval上,9B模型得分52.8,27B模型得分55.1;在HumanEval上,9B模型得分40.2,27B模型得分51.8。

(2)无与伦比的效率和成本节省:Gemma 2 27B模型设计用于在单个谷歌云TPU主机、英伟达A100 80GB Tensor Core GPU或H100 Tensor Core GPU上高效运行全精度推理,在保持高性能的同时显著降低成本。这使得AI部署更加易于访问和经济实惠。

(3)跨硬件的快速推理:Gemma 2经过优化,可以在各种硬件上以令人难以置信的速度运行,硬件从功能强大的游戏笔记本电脑和高端台式机到基于云的设置。在Google AI Studio中以全精度试用Gemma 2,在CPU上使用Gemma.cpp的量化版本解锁本地性能,或在家用计算机上通过Hugging Face Transformers在英伟达RTX或GeForce RTX上试用。

二、支持商业化,兼容广泛框架,方便部署

Gemma 2为开发者和研究人员构建,其设计更容易集成到工作流程中:

(1)开放且可访问:与原始Gemma模型一样,Gemma 2也是根据谷歌具有商业友好的Gemma许可发布的,允许开发人员和研究人员分享和商业化他们的创新。

(2)广泛的框架兼容性:Gemma 2兼容主要的AI框架,如Hugging Face Transformers,以及通过原生Keras 3.0、vLLM、Gemma.cpp、Llama.cpp和Ollama的JAX、PyTorch和TensorFlow。此外,Gemma优化了英伟达TensorRT-LLM以在英伟达加速基础设施上运行或作为英伟达NIM推理微服务运行。用户可以使用Keras和Hugging Face进行微调。谷歌正在积极努力实现更多参数高效的微调选项。

(3)轻松部署:从下个月开始,谷歌云客户将能轻松在Vertex AI上部署和管理Gemma 2。

新的Gemma Cookbook是一个包含实用示例和指南的集合,引导用户构建自己的应用程序并为特定任务微调Gemma 2模型。

三、提供负责任的AI开发资源,严格测试评估模型安全性

在负责任的AI开发方面,谷歌提供负责任地构建和部署AI所需的资源,包括负责任的生成式AI工具包。最近开源的LLM Comparator帮助开发者和研究人员深入评估语言模型。

即日起,用户可使用配套的Python库与自己的模型和数据进行比较评估,并在应用程序中可视化结果。此外,谷歌正在积极致力于开源文本水印技术SynthID,用于Gemma模型。

在训练Gemma 2时,谷歌遵循内部安全流程,过滤了训练前的数据,并针对一套全面的指标进行了严格的测试和评估,以识别和减轻潜在的偏见和风险。谷歌在与安全性和代表性危害相关的大量公共基准上公布了其结果。

▲Gemma 2 IT模型和Gemma 1.1 IT模型的安全学术基准结果

结语:大模型研发趋于实用主义

谷歌Gemma 2的研究进展反映了当前大模型研究趋势,即探索用更轻量级的、更实用的模型来实现更强的性能,并确保易部署,以更好地满足不同的用户需求。

谷歌为开发者和研究人员提供了使用这些模型的多种途径。Gemma 2现可在Google AI Studio中使用,可在没有硬件要求的情况下测试其270亿参数的全部性能,也可以从Kaggle和Hugging Face Models下载Gemma 2的模型权重,Vertex AI Model Garden即将推出。

通过Gemma 2,谷歌证明了蒸馏是训练此类模型的有效方法,基于输出概率的训练能够比纯粹的下一个token预测产生更多的效果。模型仍存在局限性,需要未来研究来持续优化事实性、对抗性攻击的鲁棒性以及推理和一致性。

为支持研究和开发,Gemma 2还可通过Kaggle免费获得,或通过Colab笔记本的免费层获得。首次使用谷歌云服务的用户可能有资格获得300美元的积分。学术研究人员可以申请Gemma 2学术研究计划,以获得谷歌云积分,加速对Gemma 2的研究。申请截止日期为8月9日。

来源:谷歌DeepMind

相关推荐

土豪农村建个别墅不新鲜 建个车库都用框架结构?

农村建房子过去都是没车库,也没有那么多豪车,一般直接停在路边或者院子里。现在很多人都会在建房子的时候留一个车库,通过车库可以直接进入客厅,省得雨雪天气折腾。农村土豪都是有钱任性,建房子跟我们普通人不一...

自建框架结构出现裂缝怎么回事?

三层自建房梁底与墙体连接处裂缝是结构问题吗?去前帮我姑画了一份三层自建房的图纸,前天他们全部装修好了。我姑丈突然打电话给我说他发现二层的梁底与墙分离了,有裂缝。也就是图纸中前面8.3米那跨梁与墙体衔接...

钢结构三维图集-框架结构(钢柱对接)

1、实腹式钢柱对接说明1:1.上节钢柱的安装吊点设置在钢柱的上部,利用四个吊点进行吊装;2.吊装前,下节钢柱顶面和本节钢柱底面的渣土和浮锈要清除干净,保证上下节钢柱对接面接触顶紧;3.钢柱吊装到位后...

三层框架结构主体自建房设计案例!布局13*12米占地面积156平米!

绘创意设计乡村好房子设计小编今日头条带来分享一款:三层框架结构主体自建房设计案例!布局13*12米占地面积156平米!本案例设计亮点:这是一款三层新中式框架结构自建房,占地13×12米,户型占地面积...

Casemaker机箱框架结构3D图纸 STEP格式

农村自建房新宠!半框架结构凭啥这么火?内行人揭开3个扎心真相

回老家闲逛,竟发现个有意思的现象:村里盖新房,十家有八家都选了"半框架结构"。隔壁王叔家那栋刚封顶的二层小楼,外墙红砖还露着糙面没勾缝,里头的水泥柱子倒先支棱得笔直,这到底是啥讲究?蹲...

砖混结构与框架结构!究竟有何区别?千万别被坑!

农村自建房选结构,砖混省钱但出事真能保命吗?7月建材价格波动期,多地建房户因安全焦虑陷入选择困境——框架结构虽贵30%,却是地震区保命的关键。框架柱和梁组成的承重体系,受力分散得像一张网。砖混靠墙硬扛...

砖混结构与框架结构,究竟有何区别?千万别被坑!

农村建房选砖混结构还是框架结构?这个问题算是近期留言板里问得最多的问题了。今天咱们说说二者的区别,帮您选个合适的。01成本区别假如盖一栋砖混结构的房子需要30万,那么换成框架结构,一般要多掏30%的费...

6个小众却逆天的App神器,个个都是黑科技的代表

你的手机上有哪些好用的软件?今天我就给大家分享6个小众却逆天的App神器,个个都是黑科技的代表!01*Via浏览器推荐理由:体积极小的浏览器,没有任何广告。使用感受:它的体量真的很小,只有702KB,...

合肥App开发做一个app需要多少钱?制作周期有多久?

在移动互联网时代,开发一款APP已成为企业数字化转型与个人创业的重要途径。然而,APP的开发成本与制作周期受功能复杂度、技术架构、团队类型等多重因素影响,差异极大。好牛软件将从这两个维度展开分析,帮助...

详解应对App臃肿化的五大法则

编者注:本文转自腾讯ISUX。先来看一张图:图上看到,所有平台上用户花费时间都在减少,除了移动端。观察身边也是如此,回家不开电脑的小伙伴越来越多。手机平板加电视,下班场景全搞定。连那些以前电脑苦手的...

实战!如何从零搭建10万级 QPS 大流量、高并发优惠券系统

需求背景春节活动中,多个业务方都有发放优惠券的需求,且对发券的QPS量级有明确的需求。所有的优惠券发放、核销、查询都需要一个新系统来承载。因此,我们需要设计、开发一个能够支持十万级QPS的券系...

8种移动APP导航设计模式大对比

当我们确定了移动APP的设计需求和APP产品设计流程之后,开始着手设计APP界面UI或是APP原型图啦。这个时候我们都要面临的第一个问题就是如何将信息以最优的方式组合起来?也许我们对比和了解了其他一些...

数字资产支付 App 的技术框架

开发一款功能强大、安全可靠的数字资产支付App需要一个整合了区块链技术、后端服务、前端应用以及第三方集成的全栈技术框架。这个框架的核心在于保障数字资产的安全流通,并将其高效地桥接到传统的法币支付场...

从MyBatis到App架构:设计模式全景应用指南

从MyBatis到App架构:设计模式全景应用指南引言在企业级应用和服务端开发领域,MyBatis凭借其灵活、简洁、强大的ORM映射能力被广泛应用。而它之所以能拥有如此优秀的可扩展性和工程可维护性,正...

取消回复欢迎 发表评论: