百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

ccwgpt 2025-06-10 13:40 36 浏览 0 评论


近年来,大型语言模型(LLM)在多模态任务中展现出强大潜力,但现有模型在架构统一性与后训练(Post-Training)方法上仍面临显著挑战。


传统多模态大模型多基于自回归(Autoregressive)架构,其文本与图像生成过程的分离导致跨模态协同效率低下,且在后训练阶段难以有效优化复杂推理任务。


DeepMind 近期推出的 Gemini Diffusion 首次将扩散模型(Diffusion Model)作为文本建模基座,在通用推理与生成任务中取得突破性表现,验证了扩散模型在文本建模领域的潜力。


在此背景下,普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。



  • 论文标题:MMaDA: Multimodal Large Diffusion Language Models
  • 论文链接:https://arxiv.org/abs/2505.15809
  • 代码仓库:https://github.com/Gen-Verse/MMaDA
  • 模型地址:https://huggingface.co/Gen-Verse/MMaDA-8B-Base
  • Demo 地址:https://huggingface.co/spaces/Gen-Verse/MMaDA


团队已经开源训练、推理、MMaDA-8B-Base 权重和线上 Demo,后续还将开源 MMaDA-8B-MixCoT 和 MMaDA-8B-Max 权重。


性能表现与跨任务协同



MMaDA 在三大任务中实现 SOTA 性能:


  • 文本推理:MMLU 准确率 68.4%,超越 LLaMA-3-8B、Qwen2-7B、LLaDA-8B;目前所有的统一理解与生成模型都不支持文本的强推理,MMaDA 首次在多模态任务中保持了文本的建模能力,实现真正意义上的统一基座模型。


  • 多模态理解:在 POPE(86.1 vs 85.9)、VQAv2(76.7 vs 78.5)等基准上与 LLaVA、Qwen-VL 等专用模型持平;


  • 图像生成:CLIP Score 达 32.46,较 SDXL、Janus 等模型提升显著,在文化知识生成任务(WISE)中准确率提升 56%。图像生成任务里,首次对比了统一多模态大模型在含有世界知识(World Knowledge)的文生图任务上的表现,如下图所示:



跨任务协同效应


如下图所示,在混合训练阶段(130K-200K 步),文本推理与图像生成指标同步上升。例如,模型在解决复杂几何问题和生成图像的语义准确性上显著提高,证明了以扩散模型作为统一架构的多任务协同效应。



任务泛化


扩散模型的一个显著优势在于其无需额外微调即可泛化到补全(Inpainting)与外推(Extrapolation)任务上。MMaDA 支持三类跨模态的补全任务:


  • 文本补全:预测文本序列中的缺失片段。
  • 视觉问答补全:基于不完整图文输入生成完整答案。
  • 图像补全:根据局部视觉提示重建完整图像。



这些案例充分展现了统一扩散架构在复杂生成与推理任务中的灵活性与泛化能力。


关键技术解析


训练与测试框架如下:



  • 统一扩散架构(Unified Diffusion Architecture)


MMaDA 的核心架构突破在于将文本与图像的生成过程统一到扩散框架中:


    • 数据表征:文本使用 LLaMA 的 Tokenizer,图像采用 MAGVIT-v2 的 Tokenizer,将 512×512 图像转化为 1024 个离散 Token;
    • 扩散目标:定义统一掩码预测损失函数,通过随机掩码同步优化文本与图像的语义恢复能力。例如,在预训练阶段,模型需根据部分掩码的 Token 序列预测缺失内容,无论输入是文本段落还是图像块。



这种设计消除了传统混合架构(如 AR+Diffusion)的复杂性,使模型在底层实现跨模态信息交互。


  • 混合长链思维微调(Mixed Long-CoT Finetuning)


为解决复杂任务中的冷启动问题,MMaDA 提出跨模态混合 CoT 的微调策略:


    • 统一推理格式:定义特殊标记结构 <think>推理过程</think>,强制模型在生成答案前输出跨模态推理步骤。例如,在处理几何问题时,模型需先解析图形关系,再进行数值计算;
    • 数据增强:利用 LLM/VLM 生成高质量推理轨迹,并通过验证器筛选逻辑严谨的样本。文本数学推理能力的提升可直接改善图像生成的事实一致性(如正确生成「北极最大陆生食肉动物——北极熊」)。


  • 统一策略梯度优化(UniGRPO 算法)


针对扩散模型强化学习的三大难点——局部掩码依赖、掩码比例敏感性与非自回归特性,MMaDA 提出创新解决方案:


    • 结构化噪声策略:对答案部分随机采样掩码比例(如 30%-70%),保留问题部分完整。这种设计模拟多步去噪过程,避免之前方法(如 d1)的全掩码导致的单步预测偏差;



    • 多样化奖励建模:针对不同任务设计复合奖励函数。例如在图像生成中,CLIP Reward 衡量图文对齐度,Image Reward 反映人类审美偏好,二者以 0.1 系数加权融合。



如下图所示,UniGRPO 在 GSM8K 训练中使奖励值稳定上升,相较基线方法收敛速度提升 40%。这得益于 UniGRPO 对扩散模型多步生成特性的充分适配。



主要作者介绍


杨灵:普林斯顿大学 Research Fellow,北京大学博士,研究方向为大语言模型、扩散模型和强化学习。


田野:北京大学智能学院博士生,研究方向为扩散模型、统一模型及强化学习。


沈科:字节跳动 Seed 大模型团队的 AI 研究员,研究方向为大语言模型预训练和统一学习范式。


童云海:北京大学智能学院教授,研究领域涵盖多模态大模型、图像/视频的生成与编辑。


王梦迪:现任普林斯顿大学电子与计算机工程系终身教授,并创立并担任普林斯顿大学「AI for Accelerated Invention」中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。

相关推荐

自己动手写Android数据库框架_android开发数据库搭建

http://blog.csdn.net/feiduclear_up/article/details/50557590推荐理由关于Android数据库操作,由于每次都要自己写数据库操作,每次还得去...

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic

智东西编译|金碧辉编辑|程茜智东西5月28日消息,据科技媒体TheDecoder5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude3.7...

工信部:着力推动大模型算法、框架等基础性原创性的技术突破

工信部新闻发言人今日在发布会上表示,下一步,我们将坚持突出重点领域,大力推动制造业数字化转型,推动人工智能创新应用。主要从以下四个方面着力。一是夯实人工智能技术底座。通过科技创新重大项目,着力推动大模...

乒乓反复纠结“框架不稳定”的三个小误区

很多球友由于对框架的认知不清晰,往往会把“框架不稳定”当成一种心理负担,从而影响学球进度,其典型状态就是训练中有模有样,一旦进入实战,就像被捆住了手脚。通过训练和学习,结合“基本功打卡群”球友们交流发...

前AMD、英特尔显卡架构师Raja再战GPU,号称要全面重构堆栈

IT之家8月5日消息,知名GPU架构师拉贾科杜里(RajaKoduri)此前曾先后在AMD和英特尔的显卡部门担任要职。而在今日,由Raja创立的GPU软件与IP初创企...

三种必须掌握的嵌入式开发程序架构

前言在嵌入式软件开发,包括单片机开发中,软件架构对于开发人员是一个必须认真考虑的问题。软件架构对于系统整体的稳定性和可靠性是非常重要的,一个合适的软件架构不仅结构清晰,并且便于开发。我相...

怪不得别人3秒就知道软考案例怎么做能50+

软考高级统一合格标准必须三科都达到45分,案例分析也一直是考生头疼的一门,但是掌握到得分点,案例能不能50+还不是你们说了算吗?今天就结合架构案例考点,分享实用的备考攻略~一、吃透考点,搭建知识框架从...

UML统一建模常用图有哪些,各自的作用是什么?一篇文章彻底讲透

10万+爆款解析:9大UML图实战案例,小白也能秒懂!为什么需要UML?UML(统一建模语言)是软件开发的“蓝图”,用图形化语言描述系统结构、行为和交互,让复杂需求一目了然。它能:降低沟通成本避...

勒索软件转向云原生架构,直指备份基础设施

勒索软件组织和其他网络犯罪分子正越来越多地将目标对准基于云的备份系统,对久已确立的灾难恢复方法构成了挑战。谷歌安全研究人员在一份关于云安全威胁演变的报告中警告称,随着攻击者不断改进数据窃取、身份泄露和...

ConceptDraw DIAGRAM:释放创意,绘就高效办公新未来

在当今数字化时代,可视化工具已成为提升工作效率和激发创意的关键。ConceptDrawDIAGRAM,作为一款世界顶级的商业绘图软件,凭借其强大的功能和用户友好的界面,正逐渐成为众多专业人士的首选绘...

APP 制作界面设计教程:一步到位_app界面设计模板一套

想让APP界面设计高效落地,无需繁琐流程,掌握“框架搭建—细节填充—体验优化”三步法,即可一步到位完成专业级设计。黄金框架搭建是基础。采用“三三制布局”:将屏幕横向三等分,纵向保留三...

MCP 的工作原理:关键组件_mcp部件

以下是MCP架构的关键组件:MCP主机:像ClaudeDesktop、GitHubCopilot或旅行助手这样的AI智能体,它们希望通过MCP协议访问工具、资源等。MCP主机会...

软件架构_软件架构师工资一般多少

软件架构师自身需要是程序员,并且必须一直坚持做一线程序员。软件架构应该是能力最强的一群程序员,他们通常会在自身承接编程任务的同时,逐渐引导整个团队向一个能够最大化生产力的系统设计方向前进。软件系统的架...

不知不觉将手机字体调大!老花眼是因为“老了吗”?

现在不管是联系、交友,还是购物,都离不开手机。中老年人使用手机的时间也在逐渐加长,刷抖音、看短视频、发朋友圈……看手机的同时,人们也不得不面对“视力危机”——老花眼,习惯眯眼看、凑近看、瞪眼看,不少人...

8000通用汉字学习系列讲座(第046讲)

[表声母字]加(续)[从声汉字]伽茄泇迦枷痂袈笳嘉驾架咖贺瘸(计14字)嘉[正音]标准音读jiā。[辨形]上下结构,十四画。会意形声字,从壴从加,加也表声。注:从壴,字义与鼓乐有关;从加,字义与...

取消回复欢迎 发表评论: