机房地板冒出来一个洞,我下去逛了一圈

百家 作者:企业网D1net 2019-05-29 04:42:53

如果你正在路上走着,

突然发现前面有个一米宽的洞,

这时你的选择是

A.绕道而走 B.在旁边观察 C.跳进去

没错!不要怀疑!

有个选项就是跳进去!

因为不但有人这么想了,

他还这么做了!

真的猛士,敢于直面黑黢黢的洞口,敢于正视不见底的未知


若问猛士何许人也,运维工程师王工者也

那天0:30

王工一边打着哈欠,一边在机房巡检,走着走着,他看见了地板上那个口径1米左右的黑洞

第一秒,王工是怔愣的

第二秒,王工是迷茫的

第三秒,王工是勇敢的——他跳了进去!

许是加班太久,脑子变成了浆糊;

许是地板下走线的安全,牵着他的心弦;

许是那晚机房的灯光太暖,将黑洞照得格外温柔。

总之,邂逅黑洞3秒之后王工就毅然决然地投入了它的怀抱

后来呢

后来,用一个词形容再合适不过了:别有洞天

王工跳进黑洞后,下坠了0.6秒。

0.1s

A服务器、A存储在向他招手:“伙计,你好呀。”

0.2s

B服务器、B存储笑得一脸灿烂。

0.3s

C服务器、C存储正在跟Z服务器和Z存储对骂。

0.4s

D服务器全身通红,D存储膨胀到颤抖。

0.5s

E服务器举着白旗说撑不下去了,E存储拿着对讲机呼叫支援。

0.6s

咦?这些个铺满了灰尘的箱子是啥东东?

(你才是东东,我们也是有名有姓的服务器、存储好伐→_→)


0.6s过去了,王工轻飘飘落地了。

目之所及,各色设备纵横交错,层层向上堆叠,一直延伸到洞口,它们之中,有负载过重的,有闲置吃灰的,还有老死不相往来的。

深洞、多设备、负载不均、自成一脉……万千指示灯闪烁中,王工只觉得此情此景格外熟悉,莫非这就是江湖上大名鼎鼎的竖井”?

过去十几年间,数据中心的结构大多是“竖井型”——若要上线新业务,企业一般都简单粗暴地买买买,新服务器、新存储买起来,新应用系统组起来,而不考虑实际的工作负载利用率。

久而久之,不仅导致设备资源分配不均——有的负载过重,有的闲置不用,大量成本浪费,而且加剧了IT架构的复杂性,产生了许多孤岛,使管理日益复杂。

此时王工的耳畔响起了老板的声音:“公司最近要上新业务,估计需要新买几十台服务器和存储,你跟采购部的合计合计。”

他感到后背发凉。

一言不合就买买买的危害太大了,如果不明确现有资源利用到什么程度、存在哪些问题,就开始盲目地采买新设备,最后肯定要消化不良。

虽然不知道这个黑洞映射的是何家机房,但危机就在眼前。

他环顾四周,发现吃灰的一台服务器边上有部电梯,他进去再出来,人已经回到了原来巡检的地方,时间是0点32分。

坐回工位,王工内心澎湃不已,竖井里的画面还历历在目,是时候对数据中心采取精准化管理措施了

最近业务部门要新上一套系统,架设在现有的虚拟化资源池上,现有基础上能否继续新增宿主机和虚拟机业务,是否需要扩容资源,都必须根据实际情况做决策不能一味买设备

当务之急是给现有工作负载做个全面体检,他想起了以前打过几次交道的戴尔易安信工程师。

第二天一上班,王工就给对方去了电话。

根据工程师介绍戴尔易安信有一款专门的信息收集和性能分析工具——Live Optics,可以帮助用户收集、可视化IT环境及工作负载的数据,并生成专业的分析报告,使企业获得实际工作负载利用率的洞察力,避免过度购买。


王工在戴尔易安信工程师的指导下免费下载并安装了Live Optics,并按照操作说明,使用Live Optics对现有虚拟化环境进行了数据收集

24小时后,Live  Optics分析报告出炉,戴尔易安信工程师也来到了现场。

☟☟☟


以下为报告内容:

01
服务器:

 从整体计算与存储性能来看,CPU的集群峰值在547.7GHz,净CPU为1425.6GHz,当前峰值占用在38%左右;

从整体内存来看,使用峰值为10.71TB,内存总量为19.12TB,占总内存的56%。

02
存储:


存储IO性能数据如下:

 峰值IOPS70000,峰值吞吐量4GB/秒;

 一般IOPS在40000左右,吞吐量800MB-1GB/秒;

③ 存储IO延迟在10ms以内。

戴尔易安信工程师看完报告

定位到环境存在的问题

并提出了后续建议

▼▼▼

后续建议:

01
服务器:

 服务器10.*.*.*系列,磁盘IO压力过大,需要相应增加SSD或10K机械盘来满足性能要求;

② 计算资源可以满足当前任务负载类型的一倍,即在当前38%的占用基础上还可以支持38%的应用增加(未来应用负载及类型与当前应用使用资源一致的情况下);

 内存方面,已经使用了56%的资源,为了保证系统的稳定及冗余,建议最多再增加24%的系统增长,即总值不超当前的80%;

 还需要注意及观察,是否有特别“吃”资源的业务系统及VM,重点监测这些应用,避免出现资源不足的情况。

02
存储方面:

可以看到共享存储使用率达到85%以上,存储目前配置IOPS已经接近饱和,后续可以通过添加磁盘来进一步提升性能。

但随之而来的是存储的IO延迟会超过10ms,对应用会有影响,存储空间不足会导致性能延迟以及系统报错,需要尽快扩展容量

有了Live Optics提供的“体检”报告,公司的工作负载管理就能做到心中有

戴尔易安信根据Live Optics和存储扩容需求,为王工制定了一份合理并满足需求的配置清单,相比于之前大手笔买买买的计划,新方案的预算降了一半,王工也因此得到老板高度赞扬。

动手指“”它

进入戴尔易安信解决方案中心

点击▼“阅读原文”了解更多数字化转型方案

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接