ROC 곡선
ROC 곡선(Receiver Operating Characteristic Curve)은 이진 분류 모델의 성능을 분류 임계값을 바꿔가며 측정해 시각화한 그래프다. x축은 거짓 양성률(FPR), y축은 *참 양성률(TPR, 재현율)*을 나타내며, 곡선 아래 면적(AUC)이 모델 성능의 요약 지표로 쓰인다.
구성 요소
| 지표 | 정의 | 축 |
|---|---|---|
| TPR (민감도/재현율) | TP / (TP + FN) | y |
| FPR (1 - 특이도) | FP / (FP + TN) | x |
이 값들은 혼동 행렬에서 도출된다.
곡선의 해석
- **좌상단(0,1)**에 가까울수록 좋은 모델 — 민감도 높고 오탐률 낮음
- 대각선은 무작위 예측 수준 (AUC = 0.5)
- 우하단은 반대로 동작하는 모델 (반전하면 쓸 만함)
- 곡선이 계단처럼 꺾이는 것은 이산적 임계값에서 자연스러운 현상
AUC (Area Under Curve)
- 1.0: 완벽한 분류
- 0.9 이상: 매우 우수
- 0.8 ~ 0.9: 양호
- 0.7 ~ 0.8: 보통
- 0.5: 무작위 수준
AUC는 임계값에 독립적이라 임계값 선택이 아직 안 된 단계에서 모델 비교에 특히 유용하다.
언제 ROC가 적합한가
- 양성/음성 클래스가 비교적 균형을 이룰 때
- 임계값 조정이 중요한 문제(의료 진단, 사기 탐지 등)
반대로 클래스 불균형이 심하면 PR 곡선(Precision-Recall)이 더 적절하다.
관련 노트
- 혼동 행렬: ROC의 기초 행렬
- 인공지능 · 전용 인공지능: ROC가 평가하는 대상
- 정량적 데이터: 성능 평가의 기반
- A.I. Guideline: 모델 성능과 신뢰성