随着英伟达不断推出Tesla V100 GPU产品,多家知名服务器制造商业推出相应搭载的企业级服务器。但出现的一个很大的问题是,随着企业越来越多转向云,这些为机器学习而设计的服务器真的可以阻止企业服务器业务的下滑吗?最近推出用于IoT的硬化工业服务器可能都在表达一个信息:服务器制造商正在寻求在垂直市场的增长突破。
将企业工作负载转移到亚马逊、谷歌、IBM和其他托管基础设施方面是可以理解的,按需资源的可伸缩性、云规模的运营效率和安全性是其中的三个原因。例如,谷歌有90名工程师正在进行的是大多数企业人员不足的安全防范工作。
上个季度,除戴尔外,每个企业服务器公司的收入都有所下降。服务器业务正在增长,却不在企业级领域。云供应商并没有购买太多,相反,他们购买了根据其规范构建的组件,并为其庞大的24X7工作负载优化了基础架构。谷歌、Facebook、IBM和其他云服务商,通过由Facebook创建的开放计算项目开展工程并指定新的硬件组件。这意味着云供应商将直接从服务器厂商的供应链购买。前几季度的下降表明,这将会是一个难以扭转的长期趋势。
企业级机器学习市场还很年轻,但是这些服务器的利润将会很高。为企业创新者的机器学习工作负载提供经GPU优化的服务器将是有利可图的。随着行业的成熟,及早获得市场份额对企业来说很重要。
英伟达与英特尔
英伟达是机器学习和人工智能界的英特尔。在英伟达的Volta架构上,还借鉴了英特尔的剧本。英特尔在PC和服务器平台获得了主导地位,通过为其他组件生产商如内存、硬盘开放标准接口,为系统制造商如戴尔、联想提供参考规范,以及为许多小型制造商设计系统帮助其优化PC和服务器的性能及价格。
看看Volta架构白皮书,英伟达与英特尔采取的方法十分相似,但是有一个不同的用例:神经网络。用神经网络应用计算资源来解决具有非常大矩阵的机器学习线性代数问题,迭代以做出准确的统计决策。神经网络是计算密集型的,因为它们需要多次更新数百万个参数,以最小化误差并产生准确的模型。这些更新基本上是大型矩阵乘法运算。
虽然有许多不同类型的机器学习和AI,但是大多数应用机器学习是受到监督的。监督意味着用标记的数据集来训练机器学习模型。
机器学习是一种实证科学。工程师需要多次迭代才能学习如何训练神经网络来了解一个新的用例。即使是最有经验的机器学习专家也不能肯定地说,到底需要多少的矢量来训练一个模型。这意味着大量的实验可以为新的用例创建一个模型,然后再进行优化以适应具有ROI的计算预算。
如今,大多数机器学习模式,都是从自然语言或图像识别等学术界开始,由谷歌、Facebook、IBM和微软的大型精湛的研究人员和工程团队进一步研究。但这些问题与企业的用例、搜索排名、图像和对象识别等相匹配,这些问题常常是开源的,可供企业使用,但可能不适用于企业用例。企业机器学习专家和数据科学家将不得不从头开始研究,并迭代构建新的高精度模型。
英伟达的Volta架构
Volta架构包括许多在超级计算机中使用的特性,用于加速计算并优化以前的CPU和现在的GPU、内存和互连带宽。
Volta架构使用流式多处理器进行深度学习,以混合计算和寻址计算进行优化调整,并行处理通过并行线程之间的细粒度同步和协作得到改进。连接的L1数据缓存和共享内存可以显著提高性能并简化编程。
·它具有更高带宽实现高速互连。多GPU系统之间的更多连接增加了可扩展性和并行性。
·内存子系统使用三星HBM2内存快速存储器提供900 GB /秒的峰值内存带宽,可以使用高达95%的内存带宽利用率运行许多工作负载。
·多进程服务提高了共享GPU的多个计算应用程序的性能、隔离性和服务质量。在多GPU应用程序中,获取接近GPU的数据执行指令的速度性能。统一的内存和地址转换服务将内存页面迁移到最频繁访问它们的处理器,从而提高处理器之间共享的内存范围的效率。
英伟达已经为其企业服务器合作伙伴设计了一个架构,用于向致力于机器学习的企业销售服务器产品。这是一个特殊业务,因为企业需要四种特性:大量的培训数据,高技能的数据科学家和机器学习专家,机器学习可以解决的一个战略问题,以及不使用云服务的理由。
it168网站原创 作者: 李佳惠