M4 Ultra性能超越RTX 4090，苹果放大招了？

2024-11-18 14:43:36卓越科技

自从苹果在10月份发布了搭载M4Pro和M4Max的MacBookPro后，M4系列芯片的性能表现就引起了很多关注。但是，了解苹果产品线的朋友都知道，M4系列还有一个隐藏BOSS——M4Ultra尚未发布。

虽然Ultra型号缺席了前代M3系列，但是M2Ultra的性能却给大家留下了深刻印象，加上很早之前就曝光M4Ultra已经流片，无疑让人们对这颗苹果的真·旗舰芯片性能有了很大期待。

在海外媒体的推算中，如果M4Ultra采用与M2Ultra相似的架构设计，也就是将两个Max版芯片通过UltraFusion封装技术连接在一起，那么M4Ultra的GPU性能应该会是M4Max的1.7倍左右。

再结合M4Max在Geekbench6的GPU测试中得到的197754分，M4Ultra的GPU测试得分大概率会在330000左右，作为对比，目前消费级的最强显卡RTX4090得分也只有310000-320000。

图源：MaxTech

M4Ultra爆杀RTX4090？这个消息恐怕老黄看了都要做噩梦，不过也有人提出疑问：M4Ultra的GPU真的能有这么高的性能吗？在实际使用场景中真的能媲美RTX4090吗？M4Ultra跑分曝光，到底有多强？

M4Ultra虽然还未发布，但是我们可以从已经发布的M4Pro和M4Max上一窥这个系列芯片的性能表现。如果单看Geekbench6的测试结果，你会发现M4Pro的得分属实恐怖，在单核测试中以3925的成绩超越了AMD和英特尔的最新桌面端旗舰处理器，而在多核测试里，也明显领先Ryzen99950X，仅略输于酷睿Ultra9285K。

图源：MaxTech

至于性能定位更高的M4Max，则是在单核、多核测试中均碾压了Ryzen99950X和酷睿Ultra9285K，让整个PC市场感受到了苹果的强大。而且，在测试中M4系列芯片的核心主频及核心数都明显低于两个对手，只有4.5GHz，但是却展现了更高的单核及多核性能。

图源：MaxTech

可怕吗？很可怕。要知道酷睿Ultra9285K和Ryzen99950X都是桌面端处理器，满载功耗均超过200W，而M4Pro和M4Max却是MacBookPro的移动端芯片，足见其能效比之高。

以目前M4Max的性能推算，采用两颗M4Max芯片组合而成的M4Ultra在多核性能上或将达到45000分，是酷睿Ultra9285K的两倍。单核性能则一般不会有太大提升，不过仍然会高于M4Max，成为目前消费级市场的最强处理器。M4UltraGPU一举超越英伟达RTX4090

再来看看GPU性能，曝光称其跑分会超过RTX4090，而依据则是Geekbench6的GPU测试，这个测试涉及GPU的图像处理、计算摄像、机器学习、物理模拟和计算金融五个模块，并不单单测试游戏性能，这就给了M4Ultra更多的得分空间。

所以，结合目前实测的M4MaxGPU性能数据，这个推测是有一定道理的，在极客湾的实测中，M4Max的AI大模型计算性能已经达到RTX4090的60%。甚至可以在RTX4090因为爆显存而性能暴跌的情况下，借助128G统一内存的优势继续流畅运行更大参数量的AI模型。

图源：极客湾

这也意味着，只要M4Ultra的架构不发生根本性变化，至少在AI计算等方面的性能是可以超越RTX4090，成为消费级最强的AIGPU。

那么游戏方面呢？从目前的实测结果来看，M4Ultra的游戏性能肯定无法与RTX4090相比的，因为即使是运行原生Mac游戏《博德之门3》，高分辨率下帧数也只是比RTX4070移动版略高30%，尚未达到RTX4080移动版的水平。

而在3DMark的测试中，RTX4090桌面端的性能约为RTX4080移动端的两倍，这也意味着M4Ultra在最理想状态下，游戏性能也只能达到RTX4090的75%左右。不过若是对比移动端的RTX4090，那么倒是有机会反超，毕竟移动端RTX4090本质上就是RTX4080桌面端，差距还是非常明显的。

另外，如果是非原生游戏，那么GPU的性能还会受到明显的削弱，实测中帧数直接从领先RTX4070移动版30%变成落后30%甚至50%，这时候别说挑战RTX4090了，可以直接考虑和RTX4060坐一桌。

对于想用M4Ultra打游戏的朋友来说，个人建议是不如拿一万装台游戏电脑，体验会比M4Ultra好很多。但是如果你的需求是用来跑本地AI大模型、视频剪辑、模型渲染等，那么M4Ultra的表现或许会超过目前最强的消费级PC也说不定，对于英伟达和AMD的消费级GPU市场部门来说，这并不是一个好消息。「苹果芯」跑分屡创新高，Arm是关键

苹果的自研M系列芯片跑分屡创新高，着实让英特尔、AMD等传统半导体厂商冷汗直冒，甚至不得不联手成立x86架构生态小组，共同探讨x86架构的未来，能让两个曾经的死对头联手，可想而知Arm带来的压力有多大。

实际上很多人也好奇，为什么Arm架构芯片的能效比可以如此惊人？其实关键就在于指令集上，Arm的指令集相较于x86要精简很多。

你可以将x86看作是一台复杂的多功能卡车，它可以一次性处理大量的数据和任务，但是在面对简单任务时，复杂且庞大的指令集也让其难以降低自己的资源占用率。而Arm则是摩托车，虽然每次只能执行单个任务和少量数据，但是可以通过灵活的车辆调度，分配执行任务的最佳车辆数，让Arm芯片在运行时有着更好地能效。

基于Arm架构的特性，苹果等企业很快就意识到通过增加核心数（准备更多的摩托）和优化指令集（专车专用提升效率），就可以让Arm芯片在性能上取得突破，Arm指令集的高能效比也让Arm芯片可以轻松堆砌大量核心，而不用过多的考虑功耗问题。

此外，Arm架构的灵活性，让苹果可以根据需求定制化设计专门的模块负责对应的任务，使得芯片效率进一步提升，加上统一内存架构带来的低延迟特性，让M系列芯片的整体执行效率远程传统芯片。

图源：苹果

得益于多项优化，量变最终引起了质变，让Arm芯片成功在单核及多核性能上都超越了传统x86芯片，成为PC市场的新兴势力，而不再是固守在移动设备市场。而且，苹果很快就发现这个套路在GPU上也同样可行，通过堆砌核心数的方式让GPU性能同样进入爆发式增长。

以M4Pro和M4Max为例，前者的GPU核心数为20个，后者则是40个，而在实际测试中，后者的各项性能基本上就是前者的两倍。理论上，只要苹果愿意，在达到芯片内部延迟的上限之前可以无限堆叠核心，打造更强的GPU。

图源：苹果

不过苹果本身并非半导体企业，其芯片设计更多的是为产品服务，所以并不会像英伟达、AMD那样为了销售芯片而设计出功耗、性能都「爆炸」的产品。但是苹果不这么做，不代表其他企业也这么想，比如高通就一直在关注ArmGPU和CPU，除了消费端，服务器和数据中心同样是高通的目标市场。

在2024年，高通就宣布重回服务器芯片市场，推出基于Nuvia内核设计的服务器芯片，截止目前为止，相关机构预估服务器市场的Arm芯片占比已经达到10%。其中不少AI算力中心都有增加ArmGPU算力服务器的计划，因为Arm的高能效可以显著降低AI推理时的电力成本，进而降低单位算力的成本。

正是因为Arm架构所带来的巨大威胁，前段时间英特尔与AMD签署合作协议时，英伟达也同样到场，并且同为生态小组的合作企业之一。目前，对于英伟达等企业来说，最好的消息是苹果无意参与到半导体芯片市场中，而坏消息则是，高通的Nuvia内核表现不错，恐怕会成为GPU市场的一匹黑马。

可以预见的是，在未来的PC市场中，Arm必然会有一席之地，并且有望彻底挑战x86架构和英伟达的市场地位。

APP下载