百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署

ccwgpt 2025-05-30 13:15 7 浏览 0 评论

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

打破科技巨头算力垄断,个人开发者联手也能训练超大规模AI模型?

Nous Research宣布推出Psyche Network,可以将全球算力整合起来训练强大的人工智能。

Psyche是一个基于Deepseek的V3 MLA架构去中心化训练网络,测试网首次启动时直接对40B参数LLM进行预训练,可以在单个H/DGX上训练,并在3090 GPU上运行。

以往类似规模的模型训练往往需要耗费大量的资源和时间,并且通常是由大型科技公司或专业研究机构凭借其雄厚的资金和算力优势来完成的。

Psyche的出现让个人和小团体也可获取资源创建独特大规模模型。

对此,有网友表示,Nous Research有潜力成为新的前沿AI实验室。

技术突破和网络架构

DisTrO优化器

在传统AI训练中,数据需在中心服务器与分布式GPU之间高频传输,带宽不足会导致GPU利用率暴跌。

2024年Nous研发的DisTrO分布式训练优化器,通过梯度压缩(仅传输关键参数更新)异步更新策略,将跨节点通信的数据量降低90%以上,突破了训练过程中的带宽限制,使得训练可以去中心化

点对点网络堆栈

Psyche创建了一个自定义的点对点网络堆栈,用于协调全球分布式GPU运行DisTrO。

这个基于P2P(点对点)协议的专用网络层,无需依赖中心化服务器协调,全球GPU可直接通过加密通道交换梯度数据。

这一设计彻底摆脱了对传统云服务商高带宽网络的依赖,即使是家用宽带连接的GPU,也能稳定参与训练。

系统架构

Psyche网络架构有三个主要部分:

coordinator:协调器,存储有关训练运行状态和参与者列表的元数据。处理一轮训练中每个阶段之间的转换,且负责为运行中的所有客户端提供同步点。

clients:客户端,负责训练、见证和验证。每个客户端都保持自身状态与协调器同步。

data provider:负责提供训练所需的数据。可以是本地的也可以是HTTP或 CP提供者。

40B参数LLM预训练

此前互联网公开的大规模预训练多由Meta、Google等巨头主导(如LLaMA 2的700亿参数模型),Psyche以去中心化模式实现同等级别训练。

Psyche首次测试网运行使用的是Deepseek的V3 MLA架构。

MLA通过低秩联合压缩键值和矩阵分解技术,降低计算复杂度与内存占用,使 400 亿参数大语言模型在有限算力下高效训练。

多头注意力机制与潜空间表示学习相结合,提升模型语言理解与生成能力;并且,旋转位置嵌入的运用,有效解决长序列位置依赖问题,从多维度保障了训练的高效性与模型性能的优质性。

数据集

使用了FineWeb(14T)、去除部分不常见语言的FineWeb-2(4T)和The Stack v2(1T),些数据集涵盖丰富信息,为模型训练提供了有力支持。

分布式训练策略

  • 模型并行与数据并行结合:将400亿参数拆解为128个分片,分布在不同节点进行 “模型并行” 训练,同时每个节点处理独立的数据批次(“数据并行”),通过DisTrO优化器同步梯度更新。
  • 动态自适应批量大小:根据节点网络延迟自动调整每个批次的训练数据量(如高延迟节点使用较小批次,减少等待时间),使全局训练效率提升25%。

未来将是分布式训练的天下?

随着AI模型参数规模呈指数级增长,传统集中式训练模式正面临算力垄断、成本高昂和扩展性瓶颈的严峻挑战。

分布式训练的崛起,正在彻底改写这一格局。

就在几天前,Prime Intellect发布了首个分布式RL训练模型INTELLEC-2,引起了广泛关注。

Nous Research也称Psyche初始训练只是起点,后续计划整合监督微调、强化学习等完整的训练后阶段工作,以及推理和其他可并行工作负载。

谁能站稳分布式训练擂台?当然,我们期待更多更优秀的成果~

感兴趣的小伙伴可以到官方查看更加详细的内容。

博客:
https://nousresearch.com/nous-psyche/
训练仪表板:
https://psyche.network
代码:
https://github.com/PsycheFoundation/psyche
文档:
https://docs.psyche.network
论坛:
https://forum.psyche.network
HuggingFace:
https://huggingface.co/PsycheFoundation
Discord:
https://discord.com/invite/jqVphNsB4H
参考链接:
[1]https://x.com/NousResearch/status/1922744494002405444
[2]https://x.com/PrimeIntellect/status/1921730059620196772

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

鸿蒙操作系统的核心组件(五):分布式文件系统

HarmonyOS的文件系统是其分布式架构的核心组成部分,具备本地高效存储与跨设备协同的双重优势。文件系统架构与层级设计HarmonyOS文件系统遵循分层设计,由内核层、系统服务层、框架层和应用层构成...

分布式系统架构终极指南:一文吃透核心技术栈与高薪进阶秘籍!

“为什么阿里、腾讯的系统能扛住双11亿级流量?为什么你的项目一上云就崩?凌晨3点,张工程师盯着监控大屏上飙升的CPU曲线和雪崩式的服务超时报警,手指发抖地敲下了一行kill-9——这已经是本周第3次...

Zookeeper:分布式架构详解、分布式技术详解、分布式事务

优质文章,及时送达作者|Java高级互联网架构链接|toutiao.com/a6742369092881089028/一、分布式架构详解1、分布式发展历程1.1单点集中式特点:App、DB...

如果让你自己设计一个分布式架构的中间件系统,该怎么做?

目录1、Master-Slave架构2、异步日志持久化机制3、检查点机制:定时持久化全量数据4、引入检查点节点5、总结&思考这篇文章,给大家来聊一个生产级的中间件系统的架构设计实践,希望给对中间件...

400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署

闻乐发自凹非寺量子位|公众号QbitAI打破科技巨头算力垄断,个人开发者联手也能训练超大规模AI模型?NousResearch宣布推出PsycheNetwork,可以将全球算力整合起来训...

go微服务框架kratos学习笔记九(kratos 全链路追踪 zipkin)

目录go微服务框架kratos学习笔记九(kratos全链路追踪zipkin)zipkin使用demo数据持久化本节简单搭建一下zipkin,zipkin是Twitter基于google的分布式监...

组图丨安全生产管理思维导图

...

《孙子兵法》十三篇思维导图,值得收藏

...

高中化学思维导图整理汇总(必修+选修),建议转发收藏

化学必修1化学必修2化学选修3化学选修4化学选修5...

【思维导图】高中生物知识点框架导图

刑诉法知识框架思维导图,建议打印收藏

为了让各位宝子们复习效率更高,今天合合菌为大家整理了刑诉法学科的思维导图。大家可以利用思维导图来加深对刑诉法各个知识点的理解,搭建知识框架。刑诉法学科思维导图后续合合菌还会为大家准备其他学科的思维导图...

一定要收藏的面试思维导图

我是可爱又迷人:1.常见面试题有哪些?主要从以下一些知识点做了准备:常用的分析方法、Excel、SQL、A/B测试、产品分析。然后每份面试针对职位要求,还有前期和HR聊天一点点了解这个职位之后,定...

八年级地理知识点思维导图梳理,这样记节省80%的时间,抓紧收藏

右上角关注我,每天分享这方面的技巧!点击左上角“我的头像”,【最上方】更多实用内容!不怕同桌是学霸,就怕学霸有方法。很多家长总是觉得孩子学习不努力,写作业没有耐心,听课没有效率。所以总是在不停...

思维导图:比喻和拟人使用大全,家长收藏好,孩子把作文写“活”

学生在写作文的时候必须要用到各种修辞手法,才会使得作文形象生动,比较常用的修辞手法有比喻、比拟、排比、反复、借代、借喻、设问、反问、夸张、对偶等。但很多孩子不清楚比喻、比拟的区别。所以使用起来经常不到...

《易经》思维导图,一图读懂古人智慧(收藏)

《易经》算是一部关于万象变化的古老经典了,一度被誉为“诸经之首,大道之源”,相传成书于西周时期,作者为伏羲。很多朋友将《易经》与《周易》混为一潭,实际上它们并不是一回事,《易经》分为三部易书,分别是《...

取消回复欢迎 发表评论: