系统可靠性的三个概念

本文简单总结一下系统可靠性的三个概念。

1.高可用(High Availability,HA)

当系统发生故障时,允许短暂中断(如可用时间为5个9)。通过冗余实例和失效检测,实现快速恢复。

2.容错(Fault Tolerant,FT)

当系统发生故障时,仍可以继续运行,做到零宕机时间,运行水平可能有所下降。
如果高可用系统做到了零宕机,那么这个系统就是一个容错系统。

3.灾难恢复(Disaster Recovery,DR)

当系统发生重大灾难时,按照恢复计划挽救业务,恢复关键业务系统,确保业务不被中断。(在新的基础设施部署系统)
灾难的恢复,需要一定的恢复时间(RTO),也可能会丢失一部分数据(RPO)。
通过自动化脚本或基础设施自动创建,以缩短恢复时间(RTO)。

参考

http://www.pbenson.net/2014/02/the-difference-between-fault-tolerance-high-availability-disaster-recovery/
https://yq.aliyun.com/articles/702191
https://www.ruanyifeng.com/blog/2019/11/fault-tolerance.html


---转载本站文章请注明作者和出处 二进制之路(binarylife.icu),请勿用于任何商业用途---

留下评论