服务器的黑科技：服务器是怎么做到每年只停机30秒的？

作者&投稿：成王帜（若有异议请与网页底部的电邮联系）

关键业务服务器对可靠性要求非常严格，调研机构曾调查过不同行业，关键业务中断服务带来的金钱损失：服务器宕机1分钟，平均会使运输业损失15万美元，银行业损失27万美元，通信业损失35万美元，制造业损失42万美元，证券业损失45万美元。而根据ITIC最新2018年底统计，1小时停机损失：

前些年关键业务服务器的金标准是要做到5个9，现在已经要求6个9，甚至7个9。他们是什么意思呢？

X个9，表示在1年时间的使用过程中，服务器可以正常使用时间与总时间（1年）的比值。

5个9：(1-99.999%)*365*24*60=5.26分钟，表示1年非计划停机时间不超过5.26分钟。

6个9：(1-99.9999%)*365*24*60*60=31.5秒，表示1年非计划停机时间不超过30秒。

7个9：(1-99.99999%)*365*24*60*60=3.15秒，表示1年非计划停机时间不超过3秒。

ITIC统计2018年80%的企业最低要求4个9，可靠性要求增长非常迅速：

服务器能够做到这么短的非计划停机时间，除了在操作系统上要求严格外，硬件上的保证是重中之重。服务器的RAS(Reliability， Availability，Serviceability 高可靠性、高可用性、高服务性)特性（feature）曾经是大型机的骄傲，也是它们高高在上身价的基础，但随着X86在RAS功能上的补足，服务器市场已经几乎被X86服务器占据。关键业务服务器由于历史和维护原因，还有部分市场份额不在X86的掌控之中，但非X86高可靠性的神话已经破灭。根据ITIC统计：

X86服务器不但占据绝大部分，而且可靠性也仅仅比Power 服务器低一点点。

那么这些RAS功能都是些什么呢？绝对不是焚香祷告哦

而是实打实的硬功夫！RAS的根本在于提供硬件冗余来避免错误；出错后及时发现、纠正和避免错误扩散；替换掉出错的设备等等。下面我们来分别了解一下。

对计算机比较了解的同学都知道磁盘的RAID模式，RAID提供了数据冗余来保证数据安全。当然RAID是服务器上的必备要求，但你知道吗，内存也有同样的模式，那就是内存镜像（Memory Mirror）。内存镜像将4个通道的内存成对存储相同的数据，类似磁盘的RAID 1，内存的数据在硬件上就被保存了两份，当一份损坏时还有备份，而更妙的是这些是对软件透明的。

这个冗余度和RAID1一样是很大的，一半的资源在大部分情况下闲置了，在提高可靠性的同时浪费也十分严重，有没有稍微省钱点的做法呢？当然有，那就是内存备用(Memory Sparing)，简单来说就是保留了部分内存，当出错再把这些内存拿来顶上。它的颗粒度可以到DIMM甚至以Rank为单位。

大家知道1位奇偶校验码可以发现1位的错误，但不能纠正，对于2位以上连发现都发现不了。ECC好一些，但对于很多位错误就无能为力了。SDDC （Single Device Data Correction,单设备数据校正）可以纠正X4的单设备错误：

SDDC+1不但可以纠正X4的内存错误，还可以把出错的颗粒替换掉，让它下次不再出错：

DDDC（Double Device Data Correction ）可以和Lockstep一起，将两个DIMM拼拼，纠正两个X4颗粒的错误：

DDDC+1和ADDDC(Adaptive Double Device Data Correction)这里就不再介绍，有兴趣的可以自行Google。

这些都是内存访问的时候发现错误了如何处理，但是还有些错误可能发生在没有访问的区域，这些区域错误不加处理，积少成多，可能超过DDDC的纠错能力。这就需要Patrol Memory Scrubbing的帮助了。它会像高速巡警一样，借助一个特殊的引擎，帮助定期扫描内存的可能出现的错误。Demand Scrubbing会把发现错误的数据，纠正后写回去，避免错误积累。

我曾经有过两篇文章介绍出错的问题：

计算机硬件出错了会发生什么？

WHEA原理和架构

大家感兴趣可以翻翻前面的文章。

作为服务器必备的功能，WHEA会把错误向操作系统报告，操作系统可以选择做出相应的动作。BIOS还可以设置poison位来标定出错的范围。

硬件发生了错误，即使已经通过各种手段（SDDC等）得到纠正，但隐患已经埋下。硬件一旦发生错误，可能会越来越严重，慢慢变得不能够纠正而变成严重错误。为了避免发生这种情况，需要把出错的设备移除和替换。

那么操作系统报告给管理员错误后，该怎么办呢？按照一般的想法就是关机换设备吧。但这种操作是严重影响x个9的可用性数据的。必须在操作系统还在持续提供服务的情况下更换设备、内存甚至CPU！

也许你听说过PCIe设备的热插拔，但内存和CPU的热插拔就比较高冷了。CPU和内存热插拔和PCIe类似，有个attention开关。在按下后，BIOS、操作系统和硬件会合作把设备周边电路隔离、内核对象移除和变更，在完成后会有状态指示灯显示准备工作结束，可以动手移除了。CPU和内存插入和这个相反，但都要BIOS、操作系统和硬件支持，十分复杂，但整个操作下来也十分炫酷。

6个9甚至7个9是个系统工程，需要整体上考虑。除了这些RAS功能之外，服务器硬件如磁盘驱动器等等也与民用不同，十分昂贵。

这些功能整体推高了服务器的价格，Google、FB、亚马逊和阿里等等大型云服务公司决定另辟蹊径，从操作系统级别的软件冗余来解决系统X个9的可靠性问题，这样一台服务器出错，直接整台offline，而不是CPU或者内存的更换。于此同时另外2到3台服务器还在持续提供服务，服务不会中断。

但是大型关键部门如银行电信等，还在借助传统的RAS来保证系统的可靠性。

走进服务器,不再神秘!
答：英特尔的开放平台策略让IA架构服务器的技术不再是秘密,中小系统集成商可以像组装电脑一样,从市场上购买零部件,打造出一台真正的服务器——我们称之为“白牌服务器”。价格亲民白牌服务器的最大优点就是价格亲民!相比于品牌服务器的高昂价格,白牌服务器让更多用户能够拥有一台真正的服务器。而且,它的内部构造也...

浪潮信息的服务器有什么好?
答：以浪潮信息新一代服务器产品为例，就加入了很多创新黑科技，譬如NVH降噪黑科技，该技术可以科学检测并抑制各类噪音。

永恒岛服务器人满怎么再次注册进去黑科技
答：永恒岛服务器人满无法再次注册进去。根据查询相关公开信息显示，游戏《永恒岛》的服务器达到人员上限后，再次注册无法突破服务器所容纳的上限进入服务器。服务器是计算机的一种，它比普通计算机运行更快、负载更高、价格更贵。服务器在网络中为其它客户机（如PC机、智能手机、ATM等终端甚至是火车系统等大型...

AB站+轮询收款-你不知道的FP独立站黑科技
答：在当今的独立站运营环境中，FP站点面临着严峻的挑战。无论自建服务器还是借助服务商，一旦FP产品被平台识别或举报，账户往往会被迅速冻结。在这个背景下，我们来探索一种创新的支付解决方案——AB站轮询收款，为FP独立站的生存提供了新的可能。AB站与轮询的智慧融合AB站，简单来说，就是创建两个独立的...

魔兽世界一个服务器最多能多少人同时在线?
答：根据178人口普查和魔兽耳朵人口普查，个人估计一个服务器同时在线可以上3000. 排队说明服务器里面有很多人在玩，爆满了。

我的世界服务器怎样崩溃别人客户端
答：因为你的IP地址输入不正确或者服务器已满，还有服务器维修，这里面有。

B站黑科技是怎么做到的
答：或者直接调用视频地址。4. 手机可以直接拿到视频地址，那么破解一下看看是怎么拿到的，然后做个js脚本模拟手机拿到这个地址，然后和B站自己的flash弹幕播放器组合一下，这就是黑科技了。实际上一般情况下，搞到cid，传给B站自己的flash弹幕播放器，就可以了。现在看到的黑科技基本都是这样的。

野豹加速器黑科技全新上线,告诉你到底能有多智能?
答：如果在这个时候告诉你，其实加速根本不用这么繁琐，切换节点、区服也不用掉线重来，你会怎么样呢？没错，野豹加速器新出的智能加速完美解决了这个问题，从此节点、区服随便切，笑死，根本不掉线，延迟还低！看到这里，有小伙伴可能就要说了：吹吧，你就继续吹！要有这种黑科技别人早就出了，还轮得到你...

未来液冷黑科技,彻底激活AI大脑能力!
答：阿里有套非常先进的超大规模通用计算操作系统叫做“飞天”，而该系统未来的海量计算服务和数据就都会跑在这“麒麟”上。这个“麒麟”就是阿里自主研发的黑科技装置——液冷服务器集群！它可以把大型服务器集群的单位运算能力提高10倍。而污染率、噪音指数等几乎都接近零！！！从照片里你可以看到服务器的“...

生活知识网

服务器的黑科技：服务器是怎么做到每年只停机30秒的？

相关热门