MoE模型已成新风口,AI基础设施竞速升级
ccwgpt 2025-07-10 13:40 3 浏览 0 评论
机器之心报道
编辑:Panda
因为基准测试成绩与实际表现相差较大,近期开源的 Llama 4 系列模型正陷入争议的漩涡之中,但有一点却毫无疑问:MoE(混合专家)定然是未来 AI 大模型的主流范式之一。从 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Llama 4,越来越多的 MoE 架构模型正在进入世界最前沿模型之列,以至于英伟达也已开始针对 MoE 架构设计和优化自家的计算硬件。
但是,MoE(尤其是大规模 MoE)也会给 AI 基础设施带来不一样的挑战。昨天,在 AI 势能大会下午的 AI 基础设施峰会上,阿里云智能集团副总裁、阿里云智能计算平台事业部负责人汪军华就谈到了 MoE 架构特有的一些困难,包括 token drop 选择对吞吐的影响、在路由专家与共享专家之间考虑效率和效果的权衡、专家的选取数量和比例等。
汪军华表示 AI 范式正在向 MoE 和推理模型演进
阿里云已经在解决这些难题上取得了重大进展。峰会上,针对 MoE 架构的模型,阿里云宣布基于 PAI-DLC 云原生分布式深度学习训练平台推出了 FlashMoE,这是一款支持超大规模 MoE 混合精度训练的高性能训练框架,具有多种强大特性,包括支持多种 token 路由策略、支持上下文并行与张量并行解耦等。
当然,阿里云在 AI 基础设施上的布局远不限于 MoE。无论是硬件算力的投入,还是一体化的训练和推理服务,它都在用硬核实力夯实自己的领先地位。在这场 AI 基础设施的竞赛中,阿里云已然抢占先机。
从算力到安全
阿里云这样构建 AI 基础设施
从算力基础到弹性灵活的解决方案,再到存储与网络技术,以及至关重要的安全能力,阿里云正在不断演进面向 AI 时代的基础设施,以提高其产品力和用户体验。
首先,在基础算力方面,阿里云宣布 ECS 第 9 代 Intel 企业级实例正式开启商业化,其基于英特尔第六代至强处理器 GNR,搭配阿里云最新 CIPU 架构,可让集群性能相对前代提升最高达 20%,同时价格较上代再降 5%。
今年也是阿里云弹性计算 15 周年,AI 驱动的阿里云基础设施将持续面向更高性能、更稳定的架构和产品深入演进。
在强大算力的基础上,阿里云还在对灵骏集群不断进行优化。阿里云智能集团副总裁、阿里云智能弹性计算、存储产品线负责人吴结生表示:「我们针对 AI 负载进行了大量优化,把灵骏集群构造成了云超级计算机。」总结起来,灵骏集群的技术体系包含 4 个创新点,包括 HPN 高性能网络、CPFS 高性能文件存储、定制化的 AI 服务器以及强大的故障检测能力。
首先,在网络技术方面,阿里云设计的 HPN 7.0 高性能网络架构是灵骏集群的核心网络技术,能让机器更高效、更紧密的合作。实际效果上,利用 HPN7.0 高性能网络架构,可实现单集群10 万张 GPU 卡互联,同时提供 3.2T 跨机带宽。
其次,值得一提的是灵骏管控和自愈系统,这能降低故障频次,缩短故障恢复时间,从而增强集群的稳定性,提高算力的使用率 —— 在万卡级超大规模训练中,一个月内灵骏 GPU 集群有效训练时长占比超过 93%。
为了保证 AI 业务稳定,算力很重要,高性能且可靠的存储也必不可少。对此,阿里云给出的解答是 CPFS(Cloud Parallel File Storage)高性能存储与 OSS(Object Storage Service)对象存储服务。
其中,CPFS 适用于高性能计算,支持对数据毫秒级的访问和百万级 IOPS 的数据读写请求,能实现 40 GB/s 的单客户端吞吐性能。
CPFS 还针对 AI 应用进行了优化,在实现高性能并行的同时,还支持端侧缓存和分层存储(包括 KV Cache),从而能高效率和低成本地满足 AI 的训推需求。
OSS 则适用于存储大量非结构化数据,适用于多种计算引擎和 AI 框架,具有海量、安全、易集成、低成本、高可靠的优势。在 AI 基础设施峰会上,阿里云宣布推出高性能的 OSSFS 2.0,这是一款专门用于通过挂载方式高性能访问 OSS 的客户端,它具备出色的顺序读写能力,可充分发挥 OSS 的高带宽优势。此外,阿里云还宣布首次将缺省 100 Gbps 吞吐性能扩展到了海外(新加坡)。OSS 同城冗余也已在吉隆坡上线,现已覆盖全球 12 个地域。
阿里云也为 CPFS 和 OSS 之间的数据流动构建了高速、高带宽的通道,使训练或推理框架可以通过文件系统的接口访问 OSS。
安全与稳定性同样也是许多 AI 应用开发者关注的核心问题之一,而阿里云已经构建了一整套用以保障算力稳定供给和数据安全的体系,其中包括 20 多款云产品和近百项可一键开启的安全能力。
面向 MoE 结构和推理模型
AI 范式正在演进
正如开篇所说,MoE 模型架构与推理模型正在不断推动 AI 训推的范式升级,在本次发布上,阿里云人工智能平台 PAI 针对性地推出一系列新能力。
在模型构建方面,针对推理模型,阿里云推出了 PAI-Chatlearn 和 Post-training on PAI-DLC。其中前者是一种支持 RLHF、DPO、OnlineDPO、GRPO 等多种强化学习算法的大规模对齐训练框架,同时也支持用户自己开发的强化学习算法,并且适配 Megatron、vLLM、DeepSpeed 等多种框架。不仅如此,PAI-Chatlearn 还是开源的。而后者则包含 SFT 等后训练能力,支持 Ray on DLC、统一调度、Serverless、Ray Dashboard 和开发机等功能。
而对于 MoE 模型,前文已经提到了基于 PAI-DLC 的 FlashMoE,其实际表现可说是相当亮眼:在万卡规模上,可将 MoE 训练的 MFU(模型 Flops 利用率)提升到 35-40%。
而在推理加速方面,阿里云同样没有落下。直接上数据。
首先,阿里云推出的全新模型权重服务将 1-100 节点的冷启动速度提升了 21 倍;如果从 50 个节点扩容到 100 个节点,则分布式推理系统的规模化扩容效率可提升 12 倍。
而基于 KV Cache 的分布式推理服务 PAI-EAS 可将千万级活跃用户场景的 KV Cache 命中率提升 10 倍!基于 3FS 的存储系统 IO 效率获得了大幅提升(读吞吐提升了 43%,写吞吐提升了 27%)。
另外,PAI-EAS 具备负载感知的 PD 分离架构,端到端服务吞吐提升 91%。
针对 MoE 模型,阿里云宣布推出了针对性的分布式推理引擎 Llumnix,通过在请求层面、请求内和硬件并行策略方面的精心设计,相比于 Round-robin 请求调度方案,可将 TTFT(首 token 延迟)降低 92%(P99),将 TPOT(每输出 token 延迟)降低 15%(P99)。
此外,阿里云也对云原生大数据服务 MaxCompute 进行了全面的 AI 升级,发布了 AI Function,可支撑用户构建 Data+AI 一体化工作流。
同时,阿里云在会上宣布大数据 AI 产品全面拥抱 MCP,大数据开发治理平台 DataWorks 发布基于 MCP 的 Agent 服务,DataWokrs 和 Hologres 发布了 MCP Server。
智能时代的数据库
让数据和 AI 更近
有了高效算力和平台,要创造足够好的 AI 应用,数据也是必不可少的一环。正如阿里云智能集团副总裁、阿里云智能数据库产品事业部负责人李飞飞说的那样:数据、算法、算力是智能时代的三大要素。因此,对数据库范式的革新也必不可少。那么智能时代对数据库的最核心需求是什么呢?李飞飞认为是「对多模态数据的智能化管理」。
为此,阿里云正在不断创新。此次峰会上,阿里云重点介绍了其数据库产品的一系列重磅升级。
首先,阿里云宣布实现了模型即算子(Model as an Operator)的 In-DB AI 功能,也就是说可以将模型作为算子直接内嵌到数据库中。这样做具有明显的好处,包括能使用更低的推理成本获得同等的 AI 能力、可以通过 SQL 语句轻松调用、可避免企业私有数据出域。李飞飞表示,阿里云会在今年内让 PolarDB、Lindorm 和 AnalyticDB 都支持 In-DB AI。
阿里云在数据库方面的另一大重要举措是采用了 Data+AI 的设计理念。具体来说,通过统一 CPU 和 GPU 资源池,瑶池数据库实现了资源池化,支持分时分片弹性调度,进而帮助客户降本增效。
此外,阿里云还宣布将 Tair 从互联网架构演进成了面向 AI 时代的架构:通过基于 Tair 内存池的 KV Cache 多级管理,可为大模型推理提供高效的 KV Cache 存储和复用。同时,Tair KVCache 还支持多租隔离、资源配额、故障恢复等企业级管理能力。
当然,阿里云数据库产品的升级之路还将继续向前。阿里云透露将于今年下半年发布全球首款基于 CXL(Compute Express Link)交换机的数据库专用服务器。CXL 高速互联技术可以进一步提升三层解耦架构下计算与内存之间的通信带宽与效率。与传统的 RDMA 高速网络相比,CXL 技术可将内存交互的性能提升一个数量级。
用 AI 基础设施支撑智能未来
阿里云准备好了
在 AI 迅猛发展的今天,强大的算力已成为驱动创新的核心动力。阿里云深刻洞察这一趋势,持续加大在 AI 基础设施领域的投入,致力于为全球用户提供高效、稳定的计算资源。
现在,依托于在 AI 基础设施上的创新和投入,阿里云已为开发者和企业搭建了一个坚实的平台,使他们能够专注于算法创新和应用开发,而无需过度关注底层计算资源的限制。而这正是 AI 大规模应用的重要基础。
正如吴结生说的那样:「云计算是一种公共服务。随着 AI 的发展,智能会变成一种资源,就像水和电一样。这样一来,token 就变成了一种商品。云上的算力正在以这种公共服务的方式给大家提供这种商品,从而普及 AI,让 AI 走进千行百业,让 AI 实现大众化和规模化。」
而当智能成为一种「资源」,基础设施的供给能力,也将决定 AI 能走多远、飞多高。
阿里云正携手企业和开发者,共同迈向智能化的未来。在这场奔赴未来的基建竞速中,阿里云,已在路上。
关注飞天发布时刻,及更多精彩发布内容: https://summit.aliyun.com/apsaramoment
相关推荐
- 用Steam启动Epic游戏会更快吗?(epic怎么用steam启动)
-
Epic商店很香,但也有不少抱怨,其中一条是启动游戏太慢。那么,如果让Steam启动Epic游戏,会不会速度更快?众所周知,Steam可以启动非Steam游戏,方法是在客户端左下方点击“添加游戏”,然...
- Docker看这一篇入门就够了(dockerl)
-
安装DockerLinux:$curl-fsSLhttps://get.docker.com-oget-docker.sh$sudoshget-docker.sh注意:如果安装了旧版...
- AYUI 炫丽PC开发UI框架2016年6月15日对外免费开发使用 [1]
-
2016年6月15日,我AY对外发布AYUI(WPF4.0开发)的UI框架,开发时候,你可以无任何影响的去开发PC电脑上的软件exe程序。AYUI兼容XP操作系统,在Win7/8/8.1/10上都顺利...
- 别再说C#/C++套壳方案多了!Tauri这“借壳生蛋”你可能没看懂!
-
浏览器套壳方案,C#和C++有更多,你说的没错,从数量和历史积淀来看,C#和C++确实有不少方式来套壳浏览器,让Web内容在桌面应用里跑起来。但咱们得把这套壳二字掰扯清楚,因为这里面学问可大了!不同的...
- OneCode 核心概念解析——Page(页面)
-
在接触到OneCode最先接触到的就是,Page页面,在低代码引擎中,页面(Page)设计的灵活性是平衡“快速开发”与“复杂需求适配”的关键。以下从架构设计、组件系统、配置能力等维度,解析确...
- React是最后的前端框架吗,为什么这么说的?
-
油管上有一位叫Theo的博主说,React是终极前端框架,为什么这么说呢?让我们来看看其逻辑:这个标题看起来像假的,对吧?React之后明明有无数新框架诞生,凭什么说它是最后一个?我说的“最后一个”不...
- 面试辅导(二):2025前端面试密码:用3个底层逻辑征服技术官
-
面试官放下简历,手指在桌上敲了三下:"你上次解决的技术难题,现在回头看有什么不足?"眼前的候选人瞬间僵住——这是上周真实发生在蚂蚁金服终面的场景。2025年的前端战场早已不是框架熟练...
- 前端新星崛起!Astro框架能否终结React的霸主地位?
-
引言:当"背着背包的全能选手"遇上"轻装上阵的短跑冠军"如果你是一名前端开发者,2024年的框架之争绝对让你眼花缭乱——一边是React这位"背着全家桶的全能选...
- 基于函数计算的 BFF 架构(基于函数计算的 bff 架构是什么)
-
什么是BFFBFF全称是BackendsForFrontends(服务于前端的后端),起源于2015年SamNewman一篇博客文章《Pattern:BackendsFor...
- 谷歌 Prompt Engineering 白皮书:2025年 AI 提示词工程的 10 个技巧
-
在AI技术飞速发展的当下,如何更高效地与大语言模型(LLM)沟通,以获取更准确、更有价值的输出,成为了一个备受关注的问题。谷歌最新发布的《PromptEngineering》白皮书,为这一问题提供了...
- 光的艺术:灯具创意设计(灯光艺术作品展示)
-
本文转自|艺术与设计微信号|artdesign_org_cn“光”是文明的起源,是思维的开端,同样也是人类睁眼的开始。每个人在出生一刻,便接受了光的照耀和洗礼。远古时候,人们将光奉为神明,用火来...
- MoE模型已成新风口,AI基础设施竞速升级
-
机器之心报道编辑:Panda因为基准测试成绩与实际表现相差较大,近期开源的Llama4系列模型正陷入争议的漩涡之中,但有一点却毫无疑问:MoE(混合专家)定然是未来AI大模型的主流范式之一。...
- Meta Spatial SDK重大改进:重塑Horizon OS应用开发格局
-
由文心大模型生成的文章摘要Meta持续深耕SpatialSDK技术生态,提供开自去年9月正式推出以来,Meta持续深耕其SpatialSDK技术生态,通过一系列重大迭代与功能增强,不断革新H...
- "上云"到底是个啥?用"租房"给你讲明白IaaS/PaaS/SaaS的区别
-
半夜三点被机房报警电话惊醒,顶着黑眼圈排查服务器故障——这是十年前互联网公司运维的日常。而现在,程序员小王正敷着面膜刷剧,因为公司的系统全"搬"到了云上。"部署到云上"...
- php宝塔搭建部署thinkphp机械设备响应式企业网站php源码
-
大家好啊,欢迎来到web测评。本期给大家带来一套php开发的机械设备响应式企业网站php源码,上次是谁要的系统项目啊,帮你找到了,还说不会搭建,让我帮忙录制一期教程,趁着今天有空,简单的录制测试了一下...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- 用Steam启动Epic游戏会更快吗?(epic怎么用steam启动)
- Docker看这一篇入门就够了(dockerl)
- AYUI 炫丽PC开发UI框架2016年6月15日对外免费开发使用 [1]
- 别再说C#/C++套壳方案多了!Tauri这“借壳生蛋”你可能没看懂!
- OneCode 核心概念解析——Page(页面)
- React是最后的前端框架吗,为什么这么说的?
- 面试辅导(二):2025前端面试密码:用3个底层逻辑征服技术官
- 前端新星崛起!Astro框架能否终结React的霸主地位?
- 基于函数计算的 BFF 架构(基于函数计算的 bff 架构是什么)
- 谷歌 Prompt Engineering 白皮书:2025年 AI 提示词工程的 10 个技巧
- 标签列表
-
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- mfc框架 (52)
- abb框架断路器 (48)
- ui自动化框架 (47)
- beego框架 (52)
- java框架spring (58)
- grpc框架 (55)
- ppt框架 (48)
- 内联框架 (52)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)