英特尔Knights Mill揭开面纱它将为AI带来什么样的改变?-网烁信息科技有限公司

在举行的Hot Chips大会上，英特尔将挡在Knights Mill前的帷幕小小地拉起了几分——Knights Mill是英特尔针对机器学习应用而研发的一款Xeon Phi处理器。

　作为英特尔在AI领域多管齐下的一部分，“Knights Mill”代表了该芯片制造商的第一个专门针对机器学习市场，专门用于训练深层神经网络的Xeon Phi产品。在深度学习推论方面，英特尔推出了其基于Altera的FPGA产品，微软在其Azure云(对人工智能和网络加速)中大量使用了该产品。英特尔还在开发其他机器学习产品，用于训练工作，这些产品将来自公司去年收购的Nervana公司。

与此同时，Knights Mill将用来填补目前Knights Landing处理器——用于HPC的Xeon Phi芯片——和未来的基于Nervana的产品之间的空白。在这种情况下，Knights Mill将从Knights Landing中继承大部分的设计，最明显的改变是硅的数量，致力于获得更精确的数学性，最适合于神经网络的运算。

　　从本质上讲，Knights Mill用一个较小的双精度端口和四个向量神经网络指令(VNNI)端口，取代了Knights Landing的矢量处理单元(VPU)上的两个大的双精度/单精度浮点(64位/ 32位)端口。后者支持单精度浮点和混合精度整数(16位输入/ 32位输出)。因此，它看起来像是张量处理单元(TPU)的英特尔版，它在NVIDIA的新V100 GPU的张量核心中有对应物。不过，后者仍然是更传统的16 / 32位浮点运算。

　　最终的结果是，与Knights Landing相比，Knights Mill将提供一半的双精度浮点性能，两倍的单精度浮点性能。在VPU(256 ops/cycle)中添加了VNNI整数支持，英特尔声称Knights Mill将提供4倍于深度学习应用的性能。

　　使用整数单元来增强深度学习性能的方法有些不太传统，因为大多数应用程序都使用浮点运算。然而，英特尔坚持认为，浮点数在准确性方面几乎没有优势，而且在计算上更昂贵。这种权衡是否成功还有待观察。

Knights Mill还将支持16 GB的MCDRAM——组装在一个3D堆栈中的英特尔版on - package高带宽内存——以及6个DDR4内存通道。从他们在Hot Chips(上图)公布的图表上看，这个设计似乎支持72核，至少对于这个特殊的配置而言是这样。为VPU提供256个ops / cycle值，这意味着Knights Mill可以交付——以1.5 GHz处理器来说——超过27万亿次的深度学习性能。

　实际性能是多少，我们会在英特尔开始生产该产品之后得知。据悉，Knights Mill计划于今年第四个季度推出。

源自 it168网站原创　作者: 谢涛

通用服务器

深度学习-人工智能

HPC高性能运算

高密度服务器

2U机架式

3U机架式

4U机架式

图形工作站

ND7000系列

ND8000系列

ND9000系列

办公电脑系列

便携式服务器