10个GPU问题

张开发
2026/4/17 14:52:32 15 分钟阅读

分享文章

10个GPU问题
随着AI大模型的爆发GPU卡和GPU服务器的需求持续攀升。但在日常交流中我发现很多朋友对GPU的基础概念仍存在模糊甚至混淆的地方。今天我用10个典型问题帮你彻底理清GPU的架构、分类、接口、产品线等核心知识。无论你是运维、销售还是刚入门的技术小白都能有所收获。一、CPU和GPU到底有什么不同虽然CPU和GPU都是处理器但它们内部的三大部分占比完全不同CPU计算机的“大脑”负责指挥和通用计算必不可少。GPU图像/并行计算的“加速器”协助CPU处理特定任务图形渲染、矩阵运算等。一句话CPU擅长复杂逻辑GPU擅长简单重复的并行计算。ALU算术逻辑单元(arithmetic and logic unit) 是能实现多组算术运算和逻辑运算的组合逻辑电路简称ALU。二、GPU 显卡不对它是显卡的“心脏”很多人把GPU和显卡画等号严格来说是不对的。GPU只是一颗芯片负责计算。显卡整块电路板包含GPU芯片、显存、供电模块、总线接口、散热风扇等。类比GPU : 显卡 CPU : 主板。GPU是显卡的心脏CPU是主板的心脏。三、GPGPU是什么为什么AI芯片都用它GPGPU General Purpose GPU通用计算图形处理器。它在GPU的基础上去掉了专门的图形处理单元保留了SIMT单指令多线程架构和大量通用计算单元这样做的好处更适合高性能并行计算如AI训练、科学计算并且支持更高级的编程语言CUDA、OpenCL等。目前主流的A800、H800、昇腾910B、海光DCU等都属于GPGPU。四、NVIDIA显卡的三大分类消费卡、专业卡、数据中心卡类型代表产品目标市场消费卡GeForceRTX 4090、RTX 3090游戏、个人娱乐专业卡QuadroRTX A6000、T1000专业设计、虚拟化数据中心卡TeslaH800、A800AI训练、HPC、深度学习注意服务器大厂通常不公开零售消费卡数据中心卡才是它们的“正规军”。五、涡轮卡 vs 风扇卡散热设计的门道在GPU服务器中经常要求使用涡轮卡它和普通的风扇卡有什么区别涡轮卡从涡轮开口处吸入冷空气向四周360°抛散热量从显卡尾部或头部排出。适合多卡紧贴的服务器环境。风扇卡下吹式冷空气从风扇进入穿过鳍片后向四周散开最终靠机箱上方风扇排出。适合单卡或空间宽松的PC环境。服务器里显卡排布密集涡轮卡能把热气直接排出机箱外避免热量在卡间循环。六、公版 vs 非公版显卡公版显卡由NVIDIA或AMD官方设计并销售。外观简洁不是每个芯片都会出公版卡。非公版显卡华硕、七彩虹、微星等品牌购买GPU芯片后自行设计PCB和散热。外观更炫酷频率和散热往往优于公版。非公版又分为顶级非公堆料高频、普通非公、改版非公缩水版。七、PCIe接口 vs SXM接口特性PCIe接口SXM接口形态插卡式类似普通显卡模块化直接焊/插在底板上带宽较低受限于PCIe通道极高配合NVLink散热通常自带风扇依赖服务器被动散热适用场景通用服务器、工作站高密度AI训练集群如DGXSXM卡是NVLink整机的主力性能更强但更换和散热要求更高。注SXMScalable Link Interface Module是由英伟达设计的一种高带宽、高速度的接口,专门用于其GPU加速计算产品。八、英伟达HGX、DGX、DGX POD、DGX GH200别再傻傻分不清HGX H100一个GPU模组通常把8张H100 SXM卡 NVSwitch板集成在一起逻辑上像一个大的“GPU”。DGX H100英伟达官方整机包含HGX H100 机箱、CPU、内存、硬盘等。DGX POD以多台DGX H100为核心的集群方案包含IB网络、存储、管理节点等。DGX GH200基于Grace Hopper超级芯片 NVLink Switch系统构建的超大集群。简单记忆HGX是心脏DGX是身体POD是军团。九、NVLink和NVSwitch多GPU互联的秘密武器NVLink一种高速互联技术也是指物理链路。用于GPU之间直接通信带宽远高于PCIe。NVSwitch基于NVLink技术的芯片或设备。正是NVLink NVSwitch让8卡甚至千卡集群能够高效协同训练。十、A800和H800为了合规阉割了什么受出口管制影响英伟达向中国推出了A800和H800性能上做了“定向调整”。总结A800相对“厚道”只砍了带宽H800对算力和带宽都动了刀尤其是HPC常用的双精度能力被大幅削弱。转自https://mp.weixin.qq.com/s/xlTvcqn-xuNcnm3A66Ba8A

更多文章