探访UCloud优刻得乌兰察布云数据中心:大模型绽放在草原云谷

百家 作者:Ucloud 2023-11-02 22:24:22

乌兰察布,蒙古语中意为“红色的山口”,这不能不让人联想到城市北部名为乌兰哈达的火山公园。作为京津冀地区游客的避暑胜地,更是“一带一路”和中欧班列唯一的非省会枢纽节点城市,被中国气象学会授予“中国草原避暑之都”。

 

如今,乌兰察布有了一个新名片:草原云谷。处于全国一体化算力网络内蒙古国家枢纽节点,乌兰察布得天独厚的地理优势,让越来越多的数据中心汇聚于此。



能耗是数据中心选址时需要考量的重要因素之一,使用自然冷却技术可以大大降低数据中心能耗,因此在数据中心选址时也倾向于选择温度较低、天气晴朗、电力充足且电价低廉的北方地区。乌兰察布海拔高度在1300米以上,年平均气温只有4.3摄氏度,而在2021年京张高铁全线通车后,这里到北京的交通时长缩短到了2小时以内,到内蒙古自治区首府呼和浩特的时间更是只有36分钟。

 

UCloud优刻得乌兰察布数据中心是优刻得紧贴“东数西算”国家战略、按照国际A级数据中心标准所自建的“西部”数据中心,坐落于内蒙古国家算力网络枢纽节点集宁大数据产业园,距离北京直线300公里,三路入京链路时延低至4.2ms。

 

据优刻得数据中心产品线总经理赵雪飞介绍,UCloud优刻得乌兰察布云计算数据中心项目整体建设用地约140000平方米,总计可容纳12000个机柜,目前已建成并投入使用的一期项目机柜数量为2500多个,而正在建设的二期项目机柜数量为4800多个,预计明年可以投入使用。除此之外,未来的三期、四期工程也已经开工,也将为客户持续提供强大的数据存储与处理能力。

 

完善基础设施架构,为东数西算提供坚实底座

 

已实现50%绿色电力,保障高能效供电

 

刚刚我们提到,乌兰察布自然资源得天独厚,对应到数据中心的建设来说,主要聚焦于供电与制冷两个层面。


在供电层面,UCloud优刻得乌兰察布云计算数据中心采用的是自建110kV变电站,通过双路110kV外市电引入,互为热备,单路引入容量100MVA,总容量200MVA。从外部看来,每栋机房楼具备4*10MVA供电容量,20MVA主用,20MVA备用;而在机房内部则部署的市电中压柜、低压柜、变压器、UPS、列头柜到机柜PDU全2N架构,互为冗余的配电用房实现了物理隔离。

 

低压配电柜

 

这其中,数据中心IT电力由双路UPS提供,容量配置为2N冗余,电池后备时间满足单路满载状态下≥15分钟。末端精密空调、水泵等重要动力设备的供电采用1路市电+1路UPS方式,UPS电池后备时间单路满载状态下≥15分钟。在现场,我们也看到了巨大的柴发设备作为后备电源,以便在市电故障的时候应急启动,有备无患。值得一提的是,UCloud优刻得乌兰察布云计算数据中心有50%使用的都是清洁能源,这正符合国家节能减排的双碳战略。

 

制冷系统、余热回收等绿色节能设计,实现低耗降排

 

与供电相比,制冷也是乌兰察布的优势之一,毕竟除了每年7-8月份的酷暑时节,绝大部分时间段都可以采用自然风进行冷却,这样的优势可不是所有数据中心都具备的。在现场我们看到,数据中心楼空调系统采用两套带自然冷却功能的风冷冷冻水系统,可以充分利用低温环境,制冷效率高,且对水资源需求低。数据中心的应急冷源采用蓄冷罐,满足在最大负荷下持续供冷15分钟的蓄冷量,并预留在线扩容为30分钟蓄冷量条件。

 

风冷冷水机组

 

在机房内部,UCloud优刻得乌兰察布云计算数据中心采用的是房间内水平弥散送风、上回风的气流组织形式,对热通道实施封闭处理,配合温度检测和气流调节措施,保证各类设备均衡冷却,无局部热点。冷/热通道的设计温度为25/37摄氏度,是比较理想的应用温度,而设备运行产生的热水也可以回收用于办公空间冬季采暖,节能效果显著。

 

“启蛰”数据中心余热回收利用技术,是优刻得践行“碳达峰碳中和”政策而构建的创新解决方案,创造性地提出“集散分离、远近两宜”的余热回收利用理念,利用集中式余热回收方案来实现热量的远距离输送和利用,分布式余热回收方案来实现热量的就近利用。两种方案相辅相成,即保证了余热利用效率,又提高了部署的灵活性和适用性,具有极高的推广应用前景和价值。

 

集中式余热回收方案是建设独立的热回收站,引入制冷系统的冷水作为热源,利用水源热泵螺杆机制取高温热水,输送到需要采暖的建筑空间,然后通过空调末端实现供热。优刻得乌兰察布数据中心的集中式余热回收系统已经为2栋综合办公楼提供冬季采暖。

 

分布式余热回收利用方案是在IT模块的空调间内部署水源多联机作为余热利用的主体,水源多联机与精密空调并联,共用一套水输配系统,为周边空间提供冷量和热量。优刻得乌兰察布数据中心的分布式余热回收系统,为数据中心楼内的电池室、柴发机房、高配间、水泵房、办公室等低发热空间,提供了冬季采暖。

 

弹性可伸缩,UCloud助力大模型算力发展


作为云计算产业的重要一员,UCloud优刻得深知大模型应用的重要性,尤其是在今年算力需求迫切、GPU一卡难求的局面下,如何充分满足客户对高算力的渴望也成为了数据中心服务的核心内容之一。为此,UCloud优刻得自建数据中心内上线了多款GPU算力资源选择,可为大模型的AI训练、推理、数据处理等多场景打造灵活、可扩展的算力服务。在现场,我们也看到了包括x86、ARM等主流架构在内的多款国内外平台,适用于不同行业、不同规模的客户需求。


 

或许觉得“授人以鱼”还不够,UCloud优刻得更是面向大模型企业推出了AIGC解决方案。该方案融合了“训练专区+推理专区+存储专区+管理专区”在内的多分区方案,其中训练区主要以A800/H800及未来更高性能GPU一体机进行集群建设,单集群规模最大可达2048卡;推理区通过内网打通同可用区公有云GPU资源池,提供多种类推理GPU资源,弹性可伸缩的满足多场景下的推理需求。这一方面为客户提供了完善的解决方案,另一方面也从侧面证明了UCloud优刻得自建数据中心在供电、散热等层面的先进性与可靠性,毕竟GPU集群对于供电需求非常苛刻,也并不是传统2.5kW供电能够满足的。

 

除了算力之外,大模型对于数据存储也提出了严苛的要求,毕竟模型训练需要的数据量也是一个天文数字,而如何让这些数据实现有序的存储与高效调度,同样关乎训练的成败。为此,UCloud优刻得从大量列表元数据操作、高吞吐读需求、大量顺序写入这三个方面针对基于对象存储的文件系统进行升级改造,提升元数据性能、读缓存和写吞吐的能力。

 

经测试,优化后的读性能有70%左右的性能提升,达到5GBps;写吞吐10%左右的吞吐提升,达到 2.2 GBps,可充分满足大模型客户在单点挂载时吞吐的性能需求,大幅提升训练效率。而在关乎数据传输效率的方面层面,UCloud优刻得也支持IB和RoCE两种高性能网络方案,可充分满足大规模算力集群之间的高速网络互联,实现多节点间的无损通信。


智能运维,让日常运营变简单


庞大的数据中心如何进行有效管理?行业给出的答案是——智能化。不少数据中心都采用了智能化的平台,可以实时监控数据中心的供电、散热等多维度信息,而在UCloud优刻得乌兰察布云计算数据中心,也全方位运用了智能化运维手段。

 

首先出场的就是智能巡检机器人。它的造型很像在酒店中看到的服务机器人,但在功能上显然更丰富一些。据悉,这款机器人可能按照既定路线为客户提供智能巡检、影像记录等功能,提高机房内IT设备运维的自动化水平。

 

AI智能巡检机器人

 

另一个UCloud优刻得的“独门绝技”,则是RFID资产管理系统。一直以来,数据中心运维中对故障设备的定位都是一个难题,尤其是面对成千上万台服务器的时候,如何快速找到故障设备、最短时间内完成修复是摆在每一位运维人员面前的难题。除此之外,如何对众多服务器进行快速盘点、如何高效管理U位空间,这些问题听起来简单,但在实际操作中都会让人焦头烂额。

 

为此,UCloud优刻得开发出了RFID资产管理系统,通过U位智能模块和智能标签可以快速实现智能定位,系统可以自动同步资产ID、U位信息到管理平台,这样就可以快速查询并识别设备,实现自动化资产盘点,也实现了可视化的U位空间利用,可以有效监控资产物理安全。至此,运维人员实现了资产精细化管理,轻松实现一键盘点,也让运维从此变得更轻松。


基于超10年成熟云计算服务和无损网络运营经验,UCloud优刻得可以提供从数据中心、服务器、到计算、存储、网络、安全、架构设计等全方位的技术产品和解决方案,得益于自建数据中心带来的强大能力,UCloud优刻得也致力于在智慧城市、智慧医疗、动画渲染、金融证券、云游戏等多个领域中实现赋能,为大模型客户构筑稳定可靠的算力基础设施。

  热文回顾

1、UCloud私有云双活数据中心,强效保障业务可靠性和连续性

2、对象存储能力进阶,UCloud统一分布式存储平台全新版本发布

3、一云多芯、自主可控,UCloudStack信创云筑强国产化数字根基

4、6大功能特性升级,UCloudStack优刻得私有云发布全新版本

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接