설명 가능한 인공지능 (A.I. Guideline)

설명 가능한 인공지능(eXplainable AI, XAI)은 AI 모델의 예측·의사결정이 왜 그러한지를 사람이 이해할 수 있는 형태로 제공하려는 원칙과 기법의 집합이다. 딥러닝의 복잡도가 높아질수록 *“왜 이런 결과가 나왔는가”*를 답하기 어려워졌고, 이로 인해 신뢰성·책임·공정성 문제가 대두되었다.

왜 필요한가

신뢰: 결과를 납득할 수 없으면 채택되지 않는다
책임: 의료·금융처럼 결정의 근거가 요구되는 영역
공정성: 편향을 찾아 제거하려면 어디서 편향됐는지가 보여야 한다
디버깅: 모델이 왜 틀렸는지 알아야 개선할 수 있다
규제 대응: GDPR 등 일부 법규는 자동화 의사결정에 대한 설명을 요구

설명 방법의 종류

구분	예시
내재적(intrinsic)	모델 자체가 해석 가능 (의사결정트리, 선형회귀)
사후(post-hoc)	블랙박스 모델의 결과를 사후 설명 (LIME, SHAP)
전역(global)	모델 전체 동작 설명
지역(local)	개별 예측 하나에 대한 설명

주요 기법

LIME: 개별 예측 주변을 선형 근사해 기여도 분석
SHAP: 각 특성의 예측 기여도를 게임 이론 기반으로 계산
특성 중요도: 어떤 변수가 모델에 가장 큰 영향을 주는가
어텐션 시각화: 신경망이 어디를 봤는지 표시
Counterfactual: “이 값을 바꾸면 결과가 달라진다”는 반례

AI 가이드라인 원칙

투명성: 시스템이 AI임을 알려야 한다
공정성: 특정 집단에 불이익을 주지 않도록
책임성: 오류 시 책임 주체를 명확히
프라이버시: 데이터의 수집·사용 동의
안전성: 예상치 못한 피해를 방지

관련 노트

인공지능 · 전용 인공지능: 상위 개념
ROC 곡선 · 혼동 행렬: 모델 평가 지표
정량적 데이터: 학습 데이터의 품질