분류 모델(classifier)을 평가할 때 주로 Confusion Matrix를 기반으로 Accuracy, Precision, Recall, F1 score를 측정한다.
Confusion Matrix(혼동 행렬, 오차 행렬)
분류 모델(classifier)의 성능을 측정하는 데 자주 사용되는 표로 모델이 두 개의 클래스를 얼마나 헷갈려하는지 알 수 있다.
- T(True): 예측한 것이 정답
- F(False): 예측한 것이 오답
- P(Positive): 모델이 positive라고 예측
- N(Negative): 모델이 negative라고 예측
- TP(True Positive): 모델이 positive라고 예측했는데 실제로 정답이 positive (정답)
- TN(True Negative): 모델이 negative라고 예측했는데 실제로 정답이 negative (정답)
- FP(False Positive): 모델이 positive라고 예측했는데 실제로 정답이 negative (오답)
- FN(False Negative): 모델이 negative라고 예측했는데 실제로 정답이 positive (오답)
Accuracy(정확도)
모델이 전체 문제 중에서 정답을 맞춘 비율이다.
하지만 데이터가 불균형할 때(ex) positive:negative=9:1)는 Accuracy만으로 제대로 분류했는지는 알 수 없기 때문에 Recall과 Precision을 사용한다.
0 ~ 1 사이의 값을 가지며, 1에 가까울수록 좋다.
$$
Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
$$
Precision(정밀도) = PPV(Positive Predictive Value)
모델이 positive라고 예측한 것들 중에서 실제로 정답이 positive인 비율이다.
실제 정답이 negative인 데이터를 positive라고 잘못 예측하면 안 되는 경우에 중요한 지표가 될 수 있다.
Precision을 높이기 위해선 FP(모델이 positive라고 예측했는데 정답은 negative인 경우)를 낮추는 것이 중요하다.
0 ~ 1 사이의 값을 가지며, 1에 가까울수록 좋다.
$$
Precision = \frac{TP}{TP + FP}
$$
Recall(재현율) = Sensitivity(민감도) = TPR(True Positive Rate)
실제로 정답이 positive인 것들 중에서 모델이 positive라고 예측한 비율이다.
실제 정답이 positive인 데이터를 negative라고 잘못 예측하면 안 되는 경우에 중요한 지표가 될 수 있다.
Recall를 높이기 위해선 FN(모델이 negative라고 예측했는데 정답이 positive인 경우)을 낮추는 것이 중요하다.
0 ~ 1 사이의 값을 가지며, 1에 가까울수록 좋다.
$$
Recall = \frac{TP}{TP + FN}
$$
F1 score
Recall과 Precision의 조화평균이다.
Recall과 Precision은 상호 보완적인 평가 지표이기 때문에 F1 score를 사용한다.
Precision과 Recall이 한쪽으로 치우쳐지지 않고 모두 클 때 큰 값을 가진다.
0 ~ 1 사이의 값을 가지며, 1에 가까울수록 좋다.
$$
F1 = \frac{2 \times Precision \times Recall}{Precision + Recall}
$$
기타
그 외에도 Error Rate, Specificity, Fall Out 등이 있다.
Error Rate(오분류율)
모델이 전체 데이터에서 잘못 맞춘 비율이다.
$$
Accuracy = \frac{FP + FN}{TP + TN + FP + FN}
$$
Specificity(특이도) = TNR(True Negative Rate)
실제 정답이 negative인 것들 중에서 모델이 negative라고 예측한 비율이다.
$$
Specificity = \frac{TN}{TN + FP}
$$
Fall Out(위양성률) = FPR(False Positive Rate)
실제 정답이 negative인 것들 중에서 모델이 positive라고 예측한 비율이다.
$$
Fall Out = 1 - Specificity = 1 - \frac{TN}{TN + FP} = \frac{FP}{FP + TN}
$$
Reference
'Study' 카테고리의 다른 글
추천 시스템 성능 평가 지표(Precision@k, Recall@k, Hit@k, MAP, MRR, nDCG) (0) | 2022.01.09 |
---|---|
회귀 모델 성능 평가 지표(MAE, MSE, RMSE, MAPE 등) (1) | 2022.01.07 |
BM25 (0) | 2021.12.13 |
TF-IDF(Term Frequency - Inverse Document Frequency) (0) | 2021.12.13 |
DTM(Document-Term Matrix) (0) | 2021.12.13 |