一张显卡5-6万？Tesla计算卡凭什么这么贵！-网烁信息科技有限公司

想必大家都知道，显卡巨头Nvidia公司的产品可以分为三大类：科学计算卡（Tesla）、专业图形卡（Quadro）和家用显卡（Geforce）类。可是同样都是显卡，为什么Geforce卡只需要几千块，而Tesla计算卡能卖到5-6万呢？

FP64双精度浮点计算能力强

对于专业卡而言，仅强调FP32单精度运算速度是不够的，毕竟进行生化模拟，比如化学分析和生物遗传学对数学精度的要求远远高于图形成像要求。举个例子吧，要展示一个清晰的图像，我们使用能计算到小数点后23位的Geforce卡能满足（你能看出两张2K分辨率图片中几个像素点的不同吗？）。但是对于科学家而言，小数点后23位可能会产生误差，这种误差可能导致药物研发/航空探索等科学研究出现重大失误。这时就需要双精度（FP64=52位小数）进行更加精准的计算。下图为不同显卡的双精度浮点运算能力：

小数点后的小数越多，误差越小，读数越精确，这是我们从小学就知道的基本数学常识。

FP16半精度计算能力强

如果说上面的双精度做的是“数学题”，要求答案越精准越好，那么半精度计算就是做“选择题”，只要求答案“YES or NO”。半精度浮点计算通常应用于深度学习/人工智能应用中，NV官方曾经对某CSDN博主提问“为何1070半精度运算比单精度慢”做出回答：同样是帕斯卡架构，只有P100完整核心的拥有完整的计算速度。下图是不同架构中半精度、单精度和双精度吞吐量对比，6.0代表帕斯卡架构完整核心，7.0代表最新的volta架构完整核心。从图中可以看出不同架构中完整核心都是支持所有精度计算模式的。

可是这和价格贵有什么关系呢？

1.核心完整程度不同

上文提到的FP64和FP16，一个要求在SM单元中专门安置FP64单元进行双精度计算，效果仅有FP16的1/8不到，普通Geforce卡的GPU并没有独立FP64单元，被民间称为“阉割版”，所以拥有完整计算能力的专业卡GPU价格昂贵；FP16则不需要独立单元参与，这里不提。商品功能越多，附加值越高，这一点很好理解吧。

上图是最近热门的Nvidia Volta核心SM单元结构图，可以看到一个SM单元不仅保留了FP32/FP16混合计算，还支持IN8与FP64甚至单独的Tensor，这样一张Volta完整核心的Tesla计算卡可以胜任半精度（AI/深度学习）、单精度（普通影音处理）和双精度（生化物理研究模拟等）甚至120T的Tensor多重计算任务。

2.颗粒不同

另外，为了支持高精度计算不会在读写存储时出现误差，Tesla通常都采用了带ECC纠错能力的HBM2显存，这种显存产量低价格昂贵，这也构成了Tesla计算卡价格昂贵的原因之一。选择不具备ECC内存纠错功能的GPU卡进行高精度计算会如何？2018年年初一些研究人员发现用Titan V卡进行仿真计算时会输出不准确的答案，这就是因为Nvidia TITAN系列显卡禁用了HBM颗粒的ECC功能导致数据出现误差的，英伟达官方也建议：在进行高精度科学计算时应该采用专业的Tesla显卡。

3.市场需求

2017年时国外媒体GamersNexus披露，HBM2 1GB显存颗粒的单价在10美元左右，而同样容量的GDDR5颗粒只需6.5美元，这一价格差距在2018年据称已经提高到一倍。存储巨头之一的SK海力士公司高层表示：客户愿意为HNM2颗粒支付2.5倍的费用，对GPU市场走红趋势的判断也是Tesla计算卡价格高昂的原因之一。

你想知道使用不同的计算卡（Nvidia Tesla K系列、P系列和V系列）有哪些差别吗？欢迎关注网烁，我会继续给你带来更多深度的服务器产品讲解！

通用服务器

深度学习-人工智能

HPC高性能运算

高密度服务器

2U机架式

3U机架式

4U机架式

图形工作站

ND7000系列

ND8000系列

ND9000系列

办公电脑系列

便携式服务器

FP64双精度浮点计算能力强

FP16半精度计算能力强

可是这和价格贵有什么关系呢？