신뢰성

신뢰성(Reliability)은 시스템이 정해진 조건과 기간 동안 명세된 기능을 오류 없이 수행할 확률이다. 단순히 “지금 잘 동작한다”가 아니라, 시간과 공간의 변화 속에서도 일정 수준의 결과를 약속할 수 있는가를 본다.

신뢰성의 측정

지표의미
MTBFMean Time Between Failures (장애 사이 평균 시간)
MTTFMean Time To Failure (다음 장애까지 평균 시간)
MTTRMean Time To Repair (복구까지 평균 시간)
가동률MTBF / (MTBF + MTTR)

가용성과의 차이

  • 신뢰성: 일정 기간 연속해서 정상 동작할 확률
  • 가용성: 어느 시점에 시스템이 사용 가능할 확률

신뢰성이 낮아도 빠르게 복구되면 가용성은 높을 수 있다. 반대로 신뢰성이 높아도 한 번 장애 시 복구가 오래 걸리면 가용성은 떨어진다.

신뢰성을 높이는 설계

  • 이중화(Redundancy): 동일 컴포넌트를 여러 개 두어 단일 장애점 제거
  • 결함 허용(Fault Tolerance): 일부 실패해도 전체는 동작
  • 재시도·서킷 브레이커: 일시 오류에 대한 회복
  • 모니터링: 이상을 조기에 감지

관련 노트