“你上班都做什么”“一般一天啥也不干”
两位群友的回答着实让我羡慕了一番,不过也有所感慨。当然,这个回复有些许夸张,但也明显地暗示了一个结论:戴尔易安信的存储系统就是一个字:稳!
稳定是存储系统的第一要义,一个系统纵然功能再强、性能再高,如果不稳定,天天出事故,都是白搭。本文我们就来论一论存储系统的稳定性,以及影响稳定性的因素。
传统SAN、NAS存储系统由Controller和JBOD构成。
Controller就是一台定制化服务器,主要部件为主板、CPU、RAM、HBA;JBOD内部则包含双SAS Expander卡、背板、硬盘。其中HBA、SAS Expander芯片和硬盘内部还运行有固件。
存储系统整体架构如下图所示▼,左侧为单控系统,右侧则为双控系统。
以下为戴尔易安信 VNX存储系统前视图▼。其中包含两个SAN Controller(Storage Processor)、两个NAS Controller(Data Mover),以及DAE 、电池模块、Console控制台服务器。
此外,SAN/NAS Controller中还运行有存储系统核心操作系统和对应的功能软件,由于整个存储系统模块众多,所以各类故障在所难免。
SAN存储系统的基本思路是将主要部件形成双冗余架构,这些双份组件包括:SAS Expander、电源模块、SAS线缆、SAN/NAS控制器。然而,单纯的双冗余架构只能保证可用性,无法确保可靠性。
➣可用性:在组件故障之后系统是否依然可以提供服务,能够读写数据,也就是仍然可以使用。
➣可靠性:在可用的前提下,系统是否可以提供与正常状态下同等质量的服务。如果非正常状态下读写的数据存在大量校验错误,或者非正常状态下的吞吐量忽高忽低、抖动剧烈,那么此时系统就是不可靠的。
保证可用性的前提是关键部件双冗余,但是仅这样还不够,上层软件也必须做足功夫。比如,当一个SAS Expander出现莫名其妙卡死、性能抖动、误码率激增等各种奇葩故障时,系统软件具体如何判断此时是否需要切换到另外的冗余路径上?
如果频繁切换,系统前端的I/O就会停顿,不可用;如果切换迟缓,前端I/O也会由于超时而被中断,同样导致系统不可用。所以,如何拿捏这个时间点,就是不同存储厂商长期积累下来的经验了。
同样,硬盘、HBA的不稳定,以及控制器内部OS内核的不稳定,都需要判断是否切换路径。此外,应用服务器上也需要多路径软件来配合这种路径切换,加之服务器上各种不同的操作系统版本、前端网络HBA、驱动版本之间难免会有兼容性问题,所以整条系统路径非常复杂,一线大厂和二三线小厂的区别多在此。至于硬件,其实大家并无本质区别。
稳定性,3分靠设计,7分靠市场上的摸爬滚打。
产品初始集成开发阶段,无法对现场环境中的全部故障类型进行模拟,因为不同的用户现场环境可能会有很大差异,包括供电、电磁干扰、承重形变、散热情况,并且对应线缆、光纤的质量等也都无法控制。
如果用户自购任意品牌型号的硬盘,系统将失去可控性,因为不同硬盘的行为有所不同。像SSD厂商,都要针对选中的NAND进行详细测试以预知其在特定情况下的响应,从而实现SSD性能的稳定。SSD厂商不可能兼容所有厂家的NAND颗粒,在有限的成本下,他们只会选中1~2家。
➣ 所以,目前的SAN存储系统无一例外都不允许用户自购硬盘,必须使用经过对应SAN存储厂商认证测试过的型号,并在硬盘固件中通过对应的认证机制,有些甚至还定制了特殊的控制码来获取深层次硬盘信息。
针对上述不可控因素,实力强的厂商会从以往的经验中总结抽象出对应的故障模型,并采取对应的故障注入手段,对新产品进行黑盒测试。
而经验不足的厂商就比较难受,经验的缺乏导致其不得不以用户现场为实验田,在早期忍受用户的指责,挺过来,则逐渐步入正轨,否则就很难发展。
大厂的产品在日志、故障模式方面比较成熟,运维人员单凭日志就可以排查出90%以上的故障原因,从而早早介入使系统恢复正常。经验不足的厂商在这些方面就有所欠缺,遇见一些原因不可知的故障,不得不传递给后端研发人员,导致后者忙于救火,又影响了新版本开发,如此恶性循环,短期内其产品质量就难以保证。
戴尔易安信稳定的存储系统就是建立在不断的探索和改进之上的,无论是全闪存、横向扩展架构亦或云就绪、软件定义,还是安全保护应用装置,戴尔易安信都有全面而完善的存储解决方案,帮助企业打造稳定、健康的存储环境,实现运维无忧。
DELLEMC产品名片
点击打开小程序,了解更多戴尔易安信产品信息▼
点击▼“阅读原文”了解更多数字化转型方案
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/