百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

【技术解读】AI PC时代天花板级NPU强在哪?AMD XDNA 2架构解析

ccwgpt 2025-03-12 13:05 35 浏览 0 评论

在之前的技术文章中我们已经详细介绍过,锐龙7040配备了AMD第一代NPU,而锐龙8040系列则搭载了第二代NPU,它们都基于XDNA架构,而到了Ryzen AI 300系列,AMD正式为它配备了基于XDNA 2架构的NPU,使其算力暴增到50TOPS,远远超过了微软Copilot PC+的40TOPS性能需求和一众竞品。那么XDNA 2架构到底强在哪儿?为什么它能提供远超常规处理器的AI计算性能?在前不久AMD于美国洛杉矶举行的 2024 Tech Day大会上,AMD高级副总裁、人工智能负责人Vamsi Boppana为大家进行了详细的讲解。

专业的事交给专业的U:XDNA打造的NPU更适合高效AI计算

在AI PC时代,AI应用的特定性决定了它更需要一种专用的全新架构来提供更高能效的计算。从图中可以看到,随着AI应用负载越来越特殊化,CPU和GPU在计算能效比方面已经捉襟见肘,而NPU这种专为AI计算而生的处理器明显在这方面优势很大。

那么为什么NPU是AI PC时代处理器必备的功能呢?从图中我们可以看到,AI应用方面,模型的规模和多样性都在不断地增长,越来越成为操作系统不可或缺的一部分,因此提升AI计算的效率就比以往任何时候都显得更重要。从AI模型每瓦性能对比可以看到,相对CPU来讲,核显可以提供大约8倍的能效,而NPU则可以提供高达35倍的能效,毫无疑问在 AI计算方面,NPU是能效表现最高的存在。

AMD Ryzen AI 300系列移动处理器作为新一代全能AI处理器,可以同时提供全新CPU、NPU和GPU架构,带来全新的AI PC使用体验。到2024年,第三代AMD Ryzen AI已经拥有超过150个AI助力的ISV,AI生态圈的发展非常迅猛。

Ryzen AI使用的XDNA架构之所以最适合AI计算,最大的原因就是它采用了灵活的计算结构与更具适应性的内存层次结构,相对传统的多核心处理器架构来讲,它不会出现数据堵塞的情况。同时,它通过软件管理内存,不会出现缓存未命中,因此拥有稳定而准确的性能表现。此外,它的可编程互联设计可以有效降低内存带宽消耗并实现资源阻隔。上面这两点让它还可以实现计算单元的灵活分区,就像图上所示,它可以用8个AIE来完成实时视频、8个AIE来完成实时音频,16个AIE来完成内容创作,空间的可重构、高效的多任务性能保证了AI计算的实时性能。锐龙7040/8040上采用的NPU就采用了XDNA架构,从实际表现来看也达到了预期的高能效AI计算效果。

大幅升级!XDNA 2再次在架构上领先业界

在Ryzen AI 300移动处理器上,我们迎来了XDNA 2架构。XDNA 2在XDNA的基础上将AIE(AI引擎)单元从20个提升到了32个,每TIE提供双倍的MACs,片上内存增加60%,外加增强的非线性支持与独有的Block Floating Point模式支持。和锐龙7040的第一代NPU相比,采用XDNA 2架构的第三代NPU最高支持8个空间并发流,大幅增强多任务能力,提供了5倍的计算性能。同时,由于XDNA 2还采用了基于列的电源门控,因此也可以提供更长的续航能力,所以第三代NPU拥有了两倍于初代NPU的能效表现。

接下来介绍的Block Floating Point模式可以算是XDNA 2的终极奥义了。我们知道,目前的AI应用有两种常见的数据精度,大多数AI应用使用了16bit的精度,也就是FP16(16bit浮点)模式,而移动平台为了更高的效率一般会采用8位精度,也就是INT8(8位整数)模式。很显然,FP16拥有更高的精度,而INT8则拥有更高的效率,那么有没有办法两者兼得呢?AMD为XDNA 2配备的,就是兼具两者性能与精度优点的Block FP16模式。

从AMD官方数据来看,Block FP16吞吐量几乎持平INT8/W8A8,大约两倍于INT8/W8A16——很明显INT8在处理8位权重和16位激活的数据类型时是远不及Block FP16的。在9位存储的模型体积方面,Block FP16只比INT8略高,远低于FP16,这也有效节约了存储空间。在16bit精度方面,使用LIama2-7B模型测试,Block FP16可以达到FP16大约99.9%的精度,比INT8/W8A16更高,更是高出INT8/W8A8一倍。由此可见,Block FP16结合了INT8的高性能与FP16的高精度优势,让XDNA 2架构打造的第三代Ryzen AI NPU能够发挥出遥遥领先对手的AI算力。实际上,我们从图上还可以看到,Block FP16即便是和FP32基线相比,也几乎没有什么精度损失,这也就意味着Block FP16给ISV们带来FP16/FP32或者Block FP16训练的模型提供了一条强力的“匝道”。

从实测Float16峰值性能来看,XDNA 2架构打造的第三代Ryzen AI NPU拥有最高50TOPS的算力,远超Apple M4 ANE、Intel Lunar Lake NPU和高通骁龙Elite X NPU。

综合来看,XDNA 2架构在XDNA的基础上进一步扩大规模,并提供了对Block FP16 的支持,从而让它拥有了业界领先的AI算力,提供当下无与伦比的AI高效加速体验。

强大生态圈助力第三代Ryzen AI起飞

在硬件方面,XDNA 2已经交出了令人满意的答卷,那么在配套的生态圈部分呢?AMD与微软多年来的深度合作已经在AI生态圈的打造方面有了巨大的进展,包括感知壳体、生成式AI和协作与沟通,目前所有的模型都已经可以工作,在基于XDNA 2架构的NPU上,可以获得出色的Copilot+体验。

大家最为熟悉的Stable Diffusion XL Turbo本地AI图片生成工具也提供了对Block FP16的支持,可以在XDAN 2架构的NPU上实现超快的图片生成操作。

LIama2大语言模型也可以利用Block FP16来同时提供高精度和高性能,从AMD官方数据来看,在基于LIama2 7B模型的AI响应速度对比中,XDNA 2架构的Ryzen AI NPU可以提供五倍于竞品酷睿Ultra 7 155H内置NPU的响应速度。

在本地检索增强生成(RAG)演示中,使用LIama2-7B模型的RAG可以在第三代Ryzen AI NPU上完美运行,当然,用户也可以随时给本地RAG“喂”上更新的资料,让它在回答问题时能够提供更加准确的结果。

对于开发者来讲,可以非常轻松地利用Ryzen AI开发出成千上万的模型。Ryzen AI拥有更广的模型支持度,支持1000+的模型,包括CNN和Transformer,支持不同的数据类型,包括INT4/8以及Block FP16、FP 16等等。同时也优化了Halo模型,支持LIama、Mistral、Qwen大语言模型和Stable Diffusion文生图。在执行端,Ryzen AI也支持ONNX运行时,最终打造出运行在锐龙AI笔记本上的应用集合。


AMD的统一AI软件栈让Ryzen AI APU的CPU+NPU+GPU三位一体AI加速架构可以让ISV提供更佳的AI应用体验。其中在AI模型与算法方面,对开源平台的PyTorch、TensorFlow和ONNX提供了很好的支持;在函数库方面,为CPU(Zen5)/GPU(RDNA 3.5)/NPU(XDNA 2)都提供了运行时,支持AI工作负载分区、编译和优化功能。当然,硬件基础方面也少不了强大的CPU(Zen5)+ GPU(RDNA 3.5)+ NPU(XDNA 2)三位一体AI加速架构。

写在最后

最后简单总结一下,Ryzen AI 300移动处理器内置的XDNA 2架构Ryzen AI NPU是当前性能最强的NPU,XDNA 2在XDNA的基础上进一步扩展规模,大幅提升性能,这使得它拥有了高达50TOPS的峰值算力,领先业界的同时也成为Copilot+PC当下最佳选择,堪称世界首款“Win24 ready”的X86内置NPU。同时,XDNA 2还带来了独有的Block FP16支持,可以实现接近INT8的性能与FP16的精准度,此外,它还支持高级数据类型、提供广泛的模型支持,在统一AI软件栈的支持下更是让ISV能够提供更好的AI使用体验。综合来讲,在AI PC时代,入手具备XDNA 2架构第三代Ryzen AI NPU的锐龙AI PC,无疑能获得当下最佳的AI应用体验,同时也能更好地支持未来深度绑定AI功能的Windows操作系统。

相关推荐

如何使用PIL生成验证码?(pi验证教程)

web项目中遇到使用验证码的情况有很多,进行介绍下使用PIL生成验证码的方法。安装开始安装PIL的过程确实麻烦各种问题层出不绝,不过不断深入后就没有这方面的困扰了:windows安装:直接安装Pil...

Python必学!3步解锁asyncio异步编程 性能直接狂飙10倍!

还在用传统同步代码被IO阻塞卡到崩溃?别当“代码苦行僧”了!Python的asyncio模块堪称异步编程的“开挂神器”,处理高并发任务就像开了涡轮增压!不管是网络爬虫、API接口开发还是文件批量处理,...

Tornado6+APScheduler/Celery打造并发异步动态定时任务轮询服务

定时任务的典型落地场景在各行业中都很普遍,比如支付系统中,支付过程中因为网络或者其他因素导致出现掉单、卡单的情况,账单变成了“单边账”,这种情况对于支付用户来说,毫无疑问是灾难级别的体验,明明自己付了...

Python学习怎么入门?附真实学习方法

Python技术在企业中应用的越来越广泛,因此企业对于Python方面专业人才的需求也越来越大,那对于之前对Python没有任何了解和接触的人而言,想要从零开始学习并不是一件容易的事情,接下来小U就为...

PySpider框架的使用(pyspider 教程)

PysiderPysider是一个国人用Python编写的、带有强大的WebUI的网络爬虫系统,它支持多种数据库、任务监控、项目管理、结果查看、URL去重等强大的功能。安装pip3inst...

大学计算机专业 学习Python学习路线图(最新版)

这是我刚开始学习python时的一套学习路线,从入门到上手。(不敢说精通,哈哈~)希望对大家有帮助哈~大家需要高清得完整python学习路线可以【文末有获取方式】【文末有获取方式】一、Python入门...

阿里巴巴打造的400集Python视频合集免费学起来,学完万物皆可爬

第一阶段Python入门章节1:Python入门章节2:编程基本概念章节3:序列章节4:控制语句章节5:函数章节6:面向对象编程第二阶段Python深入与提高章节1:异常处理章节2:游戏开发-坦克大...

Nginx Gunicorn在服务器中分别起什么作用

大部分人在gunicorn前面部署一层nginx的时候也的确没有想过为什么,他们只是觉得这样显得他们比较专业,而且幻想着加了一层nginx反向代理之后性能会有提升,恕我直言,请你们带上脑子,一个单纯的...

Python培训怎么学?Python基础技术总结!值得一看

Python培训如今越来越被更多人所接受,相比自学参加Python培训的好处也是显而易见,但Python毕竟属于后端编程开发的主流语言,其知识机构还是比较庞大的,那Python培训怎么学?以及Pyth...

使用Tornado部署Flask项目(tornado async)

Tornado不仅仅是一个WEB框架,也可以是一个WEB服务器。在Tornado中我们可以使用wsgi模块下的WSGIContainer类运行其他WSGI应用如:Fask,Bottle,Djang...

Python Web框架哪个好用?(python3 web框架)

  问:PythonWeb框架哪个好用?  答:  1.Django  Django是Python世界中最出名、最成熟的Web框架。Django功能全面,各模块之间结合紧密,(不讲其他的)Djang...

Vue3.0+Tornado6.1发布订阅模式打造异步非阻塞实时=通信聊天系统

“表达欲”是人类成长史上的强大“源动力”,恩格斯早就直截了当地指出,处在蒙昧时代即低级阶段的人类,“以果实、坚果、根作为食物;音节清晰的语言的产生是这一时期的主要成就”。而在网络时代人们的表达欲往往更...

Python开源项目合集(第三方平台)(python第三方开发工具)

wechat-python-sdk-wechat-python-sdk微信公众平台Python开发包http://wechat-python-sdk.readthedocs.org/,非官方...

IT界10倍高效学习法!用这种方式,一年学完清华大学四年的课程

有没有在某一个瞬间,让你放弃学编程刚开始学python时,我找了几十本国内外的python编程书籍学习后,我还是似懂非懂,那些书里面到处都是抽象的概念,复杂的逻辑,这样的书,对于专业开发者来说,在平常...

如何将Python算法模型注册成Spark UDF函数实现全景模型部署

背景Background对于算法业务团队来说,将训练好的模型部署成服务的业务场景是非常常见的。通常会应用于三个场景:部署到流式程序里,比如风控需要通过流式处理来实时监控。部署到批任务中部署成API服...

取消回复欢迎 发表评论: