晶圆级芯片,是未来
日期:2025-07-01 15:35:55 / 人气:6

在 AI 大模型参数呈指数级增长的当下,对计算能力的需求如饥似渴。仅仅两年间,大模型所需算力暴增 1000 倍,远超硬件迭代速度。主流的 GPU 集群方案在应对 GPT-4、文心一言等万亿参数模型时,已显露出 “力不从心” 的尴尬,而晶圆级芯片,正以破局者的姿态,被视为未来的关键突破口。
芯片发展困境:单芯片 GPU 的瓶颈
单芯片 GPU 在提升算力的道路上面临着难以逾越的障碍。其一,物理尺寸限制了晶体管数量的增加,即便采用先进制程工艺,算力提升也逐渐逼近摩尔定律的极限;其二,多芯片互联时,数据在芯片间传输产生的延迟与带宽损耗,导致整体性能无法随芯片数量线性增长。例如,即便堆叠数千块英伟达 H100 来支撑大模型训练,依然摆脱不了 “算力不足、电费爆表” 的困境 。
晶圆级芯片:两大玩家的创新探索
晶圆级芯片另辟蹊径,为算力提升提供了全新思路。在常规芯片生产中,晶圆光刻后会被切割成小裸片单独封装,而晶圆级芯片则制造不切割的晶圆级互连基板,将常规裸片集成封装,形成巨大芯片,其电路单元与金属互连更紧密,构建出高带宽、低延时的互连结构。
全球已有 Cerebras 和特斯拉两家公司推出晶圆级芯片产品。Cerebras 的 WSE-3 采用台积电 5nm 工艺,晶体管数量达 4 万亿个,AI 核心数量 90 万个,缓存容量 44GB,可支持 1.2PB 片外内存,在训练大模型上优势显著,其性能指标远超英伟达 H100 。特斯拉的 Dojo 则采用 Chiplet 路线,在晶圆尺寸基板上集成 25 颗 D1 芯粒,专为全自动驾驶模型训练定制,通过独特的系统架构提供强大算力 。
晶圆级芯片与 GPU 对比:性能、成本的全方位较量
算力性能:各有千秋,晶圆级芯片潜力突出
在每秒浮点运算次数这一衡量原始计算能力的指标上,Cerebras WSE-3 的 FP16 训练峰值性能达 125 PFLOPS,支持训练 24 万亿参数的 AI 模型且无需分区,其独特设计使核心可独立运行并直接访问本地内存,有效提升计算吞吐量。英伟达 H100 虽采用模块化和分布式方法,但在训练超大型模型时,GPU 间通信会影响训练速度。在处理超大型模型训练任务时,WSE-3 表现更优 。
延迟与吞吐量:晶圆级芯片的速度优势
数据传输方面,WSE-3 单片架构避免多芯片数据传输,显著降低延迟,软件复杂度降低 90%,实时 GenAI 推理延迟降低 10 倍以上;特斯拉 Dojo 也大幅降低通信开销,但跨区块扩展仍有延迟;英伟达 H100 虽有高速通信技术,但数据传输延迟高于晶圆级系统 。不过,晶圆级系统存在可扩展性有限、制造成本高和通用工作负载灵活性不足的问题 。
成本考量:不同选择下的经济账
硬件购置成本上,特斯拉 Dojo 单台成本 3 - 5 亿美元,采用成熟工艺和先进封装,良品率高且便于规模化生产;Cerebras WSE 系统因先进工艺和复杂设计,成本较高,WSE-2 每个系统成本 200 - 300 万美元;英伟达单 GPU 采购成本低,但长期使用能耗高、多芯片协作存在性能瓶颈,运营成本会不断增加 。
结语:未来之路,晶圆级芯片前景可期
常规集群随着算力节点增加,通信开销增大、效率降低,英伟达虽通过提升节点集成密度优化,但想要进一步提升算力密度,最终可能走向晶圆级芯片的发展道路。晶圆级芯片作为目前算力节点集成密度最高的形态,尽管存在一些挑战,但凭借在算力、延迟等方面的巨大优势,拥有无限潜力,必将在未来 AI 计算领域占据重要地位,引领芯片技术的变革与发展 。
作者:沐鸣娱乐
新闻资讯 News
- 固态电池:终结电动汽车“里程焦...07-01
- 香港商铺结业潮:商业生态重构下...07-01
- 美企获全球最低税豁免,告别 “复...07-01
- 奢侈品不香了?前世界首富遭遇 “...07-01