面向云原生超算的Quantum-2平台,化解数据中心“成长的烦恼”

百家 作者:飞象网 2021-12-21 19:18:01


成长发展一方面意味着能力的提升与进步,另一方面也意味着面对新的问题与挑战。


对于数据中心而言同样如此,那个最初大型机时代运行关键单一任务的数据中心已经成为过去式,正在随着技术发展与场景需求而演进的数据中心,也有着自身“成长的烦恼”。


数据中心“成长的烦恼”


数据中心的第一次成长是随着软件定义概念的出现,在运行多个业务时出现了如何优化利用资源的瓶颈,随即通过SDN、数据中心解耦、微服务解决了这一烦恼。


随着推理训练技术的发展,AI也正在成为数据中心最主流的应用之一,数据中心开始逐渐成为计算单元,“算力即服务”成为诉求。


这无疑对于扩展性与算力产生了挑战。而在扩展性的背后又有性能隔离和安全的问题。


“现在的大环境需要在数据中心里要有无限算力,又需要高安全、高隔离,完全基于零信任。”NVIDIA网络事业部的宋庆春一语概括了当下行业对于数据中心的诉求。


这其实也反映了很多传统数据中心的不足之处。


例如,一般情况下相对小的业务可以通过云来解决,当需要大的算力资源时,为了有非常高性能的算力资源就需要找到超算中心。


但对算力资源的需求又波动性很大,继而产生了如何把超算性能和云灵活性、安全性整合起来,通过一种更新的架构来支持现有业务的需求。


而当多租户均在使用算力资源,性能隔离的需求也会凸显,才能实现一个业务不会影响到其他性能。


另外,当网络上的安全隐患越来越多,也就无法信任网络上的任何一个单元,包括人、包括设备,也就需要过云原生的架构、通过DPU、通过Morpheus等安全软件,保障用户在使用资源时能够保证数据安全、机器安全、设备安全。


Quantum-2平台的三大产品


云原生超算技术恰恰可以满足将超算性能、云灵活性与安全性整合的业务需求,可以把超级计算技术带入到千家万户的数据中心中,同时还把上云的灵活性和安全性带进了超算平台。


InfiniBand网络是目前最能把云原生设备高效连接起来的网络。


作为会计算的网络,不管是在InfiniBand网卡、DPU、还是交换机上,都赋予针对不同业务的强劲引擎。同时还具有很好的可扩展性,可以采用不同的拓扑方案而不需要担心拓扑中出现死锁和网络风暴的问题。


InfiniBand也是一个标准网络,并支持软件定义网络规则与即插即用。


英伟达在秋季GTC大会上推出的新一代Quantum-2 InfiniBand网络平台,以400Gbps InfiniBand作为基础搭配Quantum-2 交换器、ConnectX-7网卡、BlueField-3 InfiniBand DPU与支持新架构的软件构成。


可提供云原生上需要的五个关键功能:多租户、性能隔离、拥塞控制、SHARP Gen 3网络计算、高精度计时。



“当超级计算机和云原生超算系统要实现高性能时,一定需要这里面所有的资源都参与到计算里面来,我们的目标是实现数据在哪里,计算就在那里。”宋庆春这样表述Quantum-2的目标。


英伟达通过动态路由技术与InfiniBand拥塞控制技术,解决了多租户状态下的性能一致性。


其中动态路由技术可以根据网络拥塞的状况,自动选择一个最畅通的通路,让通信效率达到96%以上。InfiniBand拥塞控制技术可以通过识别不同的业务,对可能导致网络拥塞的业务预先采取措施。


两种技术双剑合璧,进而让业务间性能隔离,实现真正完全的裸机性能。


BlueField DPU的出现,为行业提供了另外一个对业务性能做优化的思路,基于融通信与计算为一体的特性,DPU可以用来加速HPC业务中的通信,由DPU来运行通信框架,由CPU和GPU执行真正的浮点计算。


这样也就为相关业务带来了性能的提升,例如通过用DPU和CPU实现计算与通信重叠,让iAlltoall模型性能提升44%。通过DPU和CPU计算与通信的Overlap,可以让iAllgather的性能提升36%。另如在快速傅立叶变换的业务中,可让性能提升36%。



Quantum-2平台中的BlueField-3 DPU,相比上一代产品,更是具有更高的加速计算能力、16个Arm A78 CPU核,和4倍的加密速度。


在3U一体的架构中,通过DPU、CPU和GPU的分工合作,让数据中心的性能能够得到进一步优化提升。


零信任、零监督、自学习的安全


今年秋季GTC大会上,英伟达专门发布了面向零信任的安全架构DOCA 1.2。


“DOCA 1.0、DOCA 1.1、DOCA 1.2每个版本发布时都会有其针对性的市场,DOCA  1.2主要是面向安全。”宋庆春介绍,在这一版本中提供了API 面向Load Balancers、DPI、 IPS、IDS、下一代防火墙,设计安全软件的用户或者安全软件的供应商可以直接通过DOCA API调用在DPU里的硬件加速引擎,让数据中心更安全。



根据《2021中国DPU行业发展白皮书》中的阐述,零信任可以减少数据泄露、拒绝未授权的访问,因此在数据安全方面价值巨大。 


DPU可以为企业提供零信任保护,通过将控制平面由主机下放到了DPU,实现主机业务和控制平面的完全隔离,数据将无法进行穿透,保证安全性。 


BlueField DPU由于支持零信任的全方位安全架构,其安全性覆盖范围从硬件设备到数据传输,再到恶意攻击的安全加速引擎,可以确保从内到外的防护。


同时,Morpheus安全框架也为未来的数据中心提供了一个新的思路。即Morpheus可以利用AI深度学习的方式来进行全方位安全防御,而不是根据一些安全顾问对于恶意攻击的定义或者是其他的一些安全特定模型来识别,基于这样一种深度学习方式来去进行安全防御,可以自动提升对于新型恶意行为的辨别能力。


Morpheus给了用户一个完全的自学习的环境,完全的零监督自学习的框架。通过600倍的数据处理速度,Morpheus具备根据数据中心中的各种特征生成千万级数量级别的模型,并在数据中心内部进行匹配。



“用Morpheus时,我们不用去定义这个行为是恶意还是善意的,我们也不需要知道是恶意还是善意的,但我们会关注你这个行为是正常的还是异常的,只要是异常行为这时候就会去监控和识别,判断到底是一个合理还是不合理的行为。”宋庆春介绍。


目前,无论是英伟达的以太网还是InfiniBand网络,都已实现与Morpheus的整合。利用AI能力与DPU的强大硬件加速执行单元,可以对网络中所有异常行为来进行跟踪。



关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接