NVIDIA推出新一代图灵GPU架构：NVIDIA在光线跟踪，GDDR6等方面实现双打-网烁信息科技有限公司

在NVIDIA的SIGGRAPH 2018主题演讲中，公司首席执行官Jensen Huang正式公布了该公司期待已久的图灵GPU架构。作为下一代NVIDIA的GPU设计，图灵将采用一系列新功能，并将于今年推出。虽然今天宣布的重点是专业可视化（ProViz）方面的问题，在其他即将推出的NVIDIA产品中可能也将看到这一点。同样地，今天的发布不应被视为图灵所有特征的详尽列表。

混合渲染和神经网络：RT和Tensor核心

那么图灵带来了什么呢？至少对于NVIDIA的专业人群而言，亮点是混合渲染，它将光线跟踪与传统光栅化相结合，以充分利用这两种技术的优势。

NVIDIA将在Turing中包含更多的光线跟踪硬件，以便提供更快，更高效的硬件光线跟踪加速。图灵体系结构的新功能是NVIDIA称之为RT核心的，其基础是我们目前尚未充分了解，但作为专用光线跟踪处理器。这些处理器块加速了光线三角形交叉检查和边界体积层次（BVH）操作，后者是用于存储光线跟踪对象的非常流行的数据结构。

NVIDIA表示，最快的图灵部件每秒可以投射10亿（千兆）射线，与未加速的帕斯卡相比，光线追踪性能提高了25倍。

图灵结构也承载了Volta的tensor核心，甚至比Volta还要强大。tensor核心是NVIDIA计划的重要项目之一。除了加速光线跟踪本身之外，NVIDIA的其他工具还包括通过使用AI去噪来清理图像来减少场景中所需的光线量，这是tensor核心所擅长的。当然，这并不是tensor核心的唯一亮点--NVIDIA的整个AI/神经网络帝国都是基于tensor核心群，所以虽然不是SIGGRAPH人群的主要关注点，但这也证实了NVIDIA即将到来的GPU是最强大的神经网络硬件。

新一代图灵核心支持更广泛的精度，可以在不需要高精度的工作负载中实现显着的加速。除了Volta的FP16精密模式之外，图灵的tensor核心还支持INT8甚至INT4精度，分别比FP16快2倍和4倍。虽然NVIDIA的PPT里没有详说，但是有人认为Nvidia正在做类似于他们用于CUDA核心上的低精度操作的数据压缩。因此，较低精度的模式虽然并不总是有用，但无疑会使一些用户对数据吞吐量非常满意，尤其是在推理任务中。

为了更好地利用光线追踪和专业深度学习软件之外的tensor核心，NVIDIA将推出一个SDK---NVIDIA NGX，将神经网络集成到图像处理中。NVIDIA正在设想使用神经网络和tensor核心进行额外的图像和视频处理，包括即将推出的深度学习抗锯齿（DLAA）等方式。

图灵SM：可变速率着色，专用INT核心等

除了专用的RT和tensor核心，图灵架构流式多处理器（SM）本身也在学习一些新的技术。特别是在这里，它继承了Volta的一个更新颖的变化，它将整数核心分离成自己的块，而不是浮点CUDA核心的一个部分，加速了地址生成和融合乘法加法（FMA）性能。

说到ALU，NVIDIA已经确认图灵支持“可变速率着色”，这是用于着色器性能随数据类型大小缩放的术语。在Volta中，这表现为FP16操作速度是FP32速率的2倍，INT8操作速度是INT32速率的4倍。可变速率着色、快速打包数据包以及将多个较小的操作打包到一个较大的操作中的相关操作，都是在摩尔定律减速时提高GPU性能的关键组成部分。通过判断需要使用精确的数据类型，可以将它们打包在一起以在相同的时间段内完成更多的工作，反过来对于神经网络推理和其他类似的动作尤其重要，因为到目前为止，大多数神经网络模型显示它们不需要提供与FP32/INT32相近的精度。

Turing SM还包括NVIDIA称之为“统一缓存架构”的内容。NVIDIA表示它提供的带宽是“上一代”的两倍，目前还不清楚NVIDIA是指Pascal还是Volta，Pascal可能性更大。

下面是第一代GDDR6显存规格：

相对于GDDR5X而言，GDDR6的提升并不像过去的几代产品那么大，因为GDDR6的许多创新已经融入到GDDR5X中，GDDR6有望成为除了HBM2这种高端产品外的GPU行业标准显存。GDDR6工作电压更低，仅1.35v，内部存储器现在被分成每个芯片两个存储器通道。对于标准的32位宽芯片，这意味着一对16位存储器通道，256位卡上总共16个这样的通道。 GPU可以很好利用这些通道，毕竟显卡是一种大规模并行设备。

NVIDIA已经证实，第一款Turing Quadro显卡将以14Gbps的速度运行GDDR6，这恰好是所有Big 3成员提供的最快速度等级。也就是说，NVIDIA也证实了使用三星的颗粒，特别是先进的16Gb容量模块。对于典型的256位GPU来说，NVIDIA可以使用标准的8个模块装配卡，并获得16GB的总容量，甚至可以达到32GB。

与此同时，游戏玩家和专业用户对VR的期待变为现实，新一代显卡增加了VirtualLink支持。而USB Type-C备用模式于上个月发布，通过一根电缆支持15W +电源，可传输10Gbps USB 3.1 Gen 2数据和4通道DisplayPort HBR3视频。这可以被视为有额外数据和电源的DisplayPort 1.4，允许视频卡直接驱动VR设备。该标准得到了NVIDIA，AMD，Oculus，Valve和微软的支持，因此图灵产品将成为支持该标准的众多产品中的第一款。

核心数字：

即将到来的2018年第四季度

除了图灵架构，NVIDIA还宣布推出基于图灵GPU的前3款Quadro显卡 - Quadro RTX 8000，RTX 6000和RTX 5000 - 将于今年第四季度上市。对于NVIDIA的特斯拉客户来说，图灵的发布让Volta处于不稳定的状态。 NVIDIA没有告诉我们图灵是否最终会扩展到高端的特斯拉空间 - 取代GV100 - 或者说明Volta是否仍将成为所在领域的顶梁柱。

通用服务器

深度学习-人工智能

HPC高性能运算

高密度服务器

2U机架式

3U机架式

4U机架式

图形工作站

ND7000系列

ND8000系列

ND9000系列

办公电脑系列

便携式服务器