上市15天,摩尔线程剑指英伟达腹地,摩尔线程是个什么公司


出品 | 虎嗅科技组

作者 | 丸都山

编辑 | 苗正卿

头图 | 摩尔线程

在资本市场的热度趋于平静之时,摩尔线程又在产业端将人们的视线拉回。

12月20日,摩尔线程举行了首届“MUSA开发者大会”,发布全新一代全功能GPU架构“花港”,以及基于“花港”架构打造的AI训推一体芯片“华山”,以及专用于高性能图形渲染的芯片“庐山”。


此外,摩尔线程创始人张建中在现场还公布了“夸娥万卡智算集群”,以及未来即将发布的MTT C256超节点结构规划。

如果说上述内容还属于“可预测的”技术迭代内,那么诸如中间语言MTX,以及光刻计算库、量子计算融合框架等技术,就真的完全在人意料之外了。

当然,也可以说这些技术并非摩尔线程首次提出的,毕竟后面这几项或多或少都在GTC大会上出现过,但从国产GPU公司体量来看,敢于全方位地去搭建生态,这本身就是件值得肯定的事。

对于正处于“情感估值”与“理性审视”交织中的摩尔线程来说,这场开发者大会也是在向外界传达一个明确的信号,即无论行业作何评价,摩尔线程都会坚持以MUSA为核心,去打造类似英伟达CUDA的生态护城河。


与英伟达中门对狙?

先来说说本次开发者大会上,让笔者最为震惊的一项技术:中间语言MTX。

它属于MUSA 5.0软件栈的一部分,对于MUSA统一架构,关注过摩尔线程的人或多或少都了解过,这是摩尔线程自主研发的覆盖从芯片架构、指令集编程模型到软件运行库及驱动程序框架的全栈技术体系。

在此前几次版本迭代中,MUSA主要集中在编程生态的扩充,比容兼容更多编程语言,或是丰富算子库上,而今天提到的“中间语言MTX”属首次出现。


简单解释下中间语言MTX是什么。它的核心作用是兼容不同代际GPU的指令架构,让开发者无需为每一代新GPU重新适配代码,大幅降低开发者适配成本,同时为上层软件生态提供稳定的底层支撑。

用个更直观的例子来说明下:在英伟达CUDA生态下,其核心底层组件之一,就是这个中间语言技术,英伟达将其命名为“PTX”,依托PTX中间语言,开发者在2018年为Turing架构芯片编译的代码,至今仍可通过驱动即时编译在2025年的Blackwell芯片上运行。

那么做这个“中间语言”难吗?应该说非常难,而且耗时耗力,同样以英伟达的PTX为例,在2007年随CUDA 1.0发布后,大部分版本都需要新增对应硬件的专属指令(如Tensor Core相关指令),同时保持对旧版本的兼容,最终形成“高级语言→PTX→硬件二进制指令”的成熟编译链路。

对于开发者来说,因为中间语言PTX的存在,更加没理由拒绝CUDA,因为在英伟达之前,就没有芯片厂商考虑过“向前兼容”的问题。

不过,对于国内GPU厂商而言,开发一个中间语言的难度肯定要远大于英伟达,因此在今天之前,笔者从不认为真会有国内厂商去做这件事。

而按照张建中在今天开发者大会上的表态,在明年上半年,摩尔线程自研的MTX就将向开发者开放。

相较于英伟达的18年磨一剑,可以预见的是,摩尔线程的MTX在适用性上一定不如前者,不过敢于迈出这一步,还是足够令人刮目相看。

毕竟,在GPU行业中,有着英伟达这座大山,“不做生态”已经成为了某种程度上的政治正确。


新架构,提升显著

从2022年基于MUSA统一架构的“苏堤”问世算起,摩尔线程先后推出了四代GPU架构,而本次发布的“花港”架构基本上可以看作是升级幅度最大的一代。

首先是计算性能的显著提升。基于新一代指令集,“花港”架构较前代“平湖”的算力密度提升50%,同时能效大幅优化,且支持从FP4到FP64的全精度端到端的全精度端到端计算。

其次是异步编程与超大规模互联的支持。新一代异步编程模型,能够更好地优化任务调度与并行极致,而通过自研的MTLink高速互联技术,将支持十万卡以上规模的智算集群扩展。


值得一提的是,在开发者大会现场,张建中还明确表示,新一代“花港”架构将内置AI生成式渲染结构,并且完整支持DirectX 12 Ultimate。

据此基本可以判断出,摩尔线程的消费级显卡接下来一定会得到迭代,而且极大概率是一款基于“花港”架构打造的产品。在“消费级显卡”这个小众且最艰难的赛道上,摩尔线程依然没有放弃。

基于“花港”架构,摩尔线程在今天发布了两款芯片:“庐山”与“华山”。

先说说定位于“AI训推一体”芯片的“庐山”。除了上文提到的新一代异步编程与全精度张量计算单元外,这枚芯片还有个特殊之处是能够适配多种“类以太协议”,同时又适配多种Scale-Up switch。

这意味着“庐山”芯片不仅能在MTlink下使用,也可以兼容国内其他厂商的协议,而据张建中在现场的介绍,“庐山”最高支持在1024片超节点的扩展。

应该说,尽管摩尔线程执着于打造自研生态,但并没有把路走窄。

另外一枚用于高性能图形渲染的芯片“庐山”,其图像性能对比MMT S80,在集成了AI生成式渲染后,AI计算性能提升64倍,UtiTE统一渲染架构让几何处理性能提升16倍,全新的硬件光追引擎,让光线追踪性能提升50倍。


除了芯片外,本次MUSA开发者大会还正式发布了“夸娥万卡智算集群”。该集群具备全精度、全功能通用计算能力,在万卡规模下实现高效稳定的AI训练与推理。



继续拓展生态边界

今年,国内GPU行业的叙事逐渐从“能用”转移到“好用”,尤其在H200解禁对华出口后,国内从业者更加感受到了紧迫。

在芯片“好用”这个问题上,摩尔线程答案仍聚焦于“生态”二字,不仅要实现生态自立,也在主动探索生态边界。

比如在今天的开发者大会上,摩尔线程推出的“长江”SoC。这款芯片主要面向端侧,通过CPU+GPU+NPU的组合,最高可提供50 TOPS的异构AI算力。


据张建中介绍,摩尔线程将推出基于“长江”SoC、AI芯片模组MTT E300和夸娥智算集群打造的MT Robot具身智能解决方案。

通过这个组合能够看出,该款方案最大的特点是能够协调“端—边—云”算力。据悉,MT Robot已经用在了农业场景中。

另外值得一提的是,摩尔线程还基于这款SoC打造了一款名为“MTT AIBOOK”的AI算力本,未来还将推出一款迷你型计算设备MTT AI Cube。


而在具身智能方面,除了MT Robot外,摩尔线程还发布了MT Lambda具身智能仿真训练平台。

该平台在定位上有些类似于英伟达的Issac Sim,但又不完全一样。MT Lambda核心聚焦于“全栈融合”,旨在将物理引擎、渲染引擎与AI引擎深度整合,打破了传统具身智能研发中“开发、仿真、训练”各环节割裂的痛点,以提升研发效率。

此外,MT Lambda也可以直接部署到MT Robot上,以形成软硬件的高效协同。

从摩尔线程在具身智能赛道上的生态拓展可以看出,在目前任何一个与“计算”有关的行业中,摩尔线程都试图通过“全栈软硬件架构+全场景产品”的布局占据身位,每一步都在拓展生态的边界,同时每一步都面临着实打实的挑战。

某种意义上,这也是在走一遍英伟达来时的路,面对后者近20年沉淀出的生态霸权,摩尔线程能否搭建起另一条国产生态护城河,答案终究需要时间来检验。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4819257.html?f=wyxwapp


nginx