신뢰성
신뢰성(Reliability)은 시스템이 정해진 조건과 기간 동안 명세된 기능을 오류 없이 수행할 확률이다. 단순히 “지금 잘 동작한다”가 아니라, 시간과 공간의 변화 속에서도 일정 수준의 결과를 약속할 수 있는가를 본다.
신뢰성의 측정
| 지표 | 의미 |
|---|---|
| MTBF | Mean Time Between Failures (장애 사이 평균 시간) |
| MTTF | Mean Time To Failure (다음 장애까지 평균 시간) |
| MTTR | Mean Time To Repair (복구까지 평균 시간) |
| 가동률 | MTBF / (MTBF + MTTR) |
가용성과의 차이
- 신뢰성: 일정 기간 연속해서 정상 동작할 확률
- 가용성: 어느 시점에 시스템이 사용 가능할 확률
신뢰성이 낮아도 빠르게 복구되면 가용성은 높을 수 있다. 반대로 신뢰성이 높아도 한 번 장애 시 복구가 오래 걸리면 가용성은 떨어진다.
신뢰성을 높이는 설계
- 이중화(Redundancy): 동일 컴포넌트를 여러 개 두어 단일 장애점 제거
- 결함 허용(Fault Tolerance): 일부 실패해도 전체는 동작
- 재시도·서킷 브레이커: 일시 오류에 대한 회복
- 모니터링: 이상을 조기에 감지