초봉5센티미터

혼동행렬(Confusion Matrix) 본문

Machine Learning

혼동행렬(Confusion Matrix)

삶은돼지고기 2022. 11. 24. 17:21
728x90

혼동행렬(Confusion Matrix)란?

  • 모델의 성능을 평가할 때 사용되는 지표
  • 예측값이 실제 관측값을 얼마나 정확히 예측했는지 보여주는 행렬

혼동행렬은 분류 모델을 평가하는 지표입니다. 일반적으로 분류모델은 정확도(Accuracy)로 평가됩니다. 

하지만 정확도만으로 평가가 불가능한 문제들이 있습니다. 

 

주어진 데이터의 클래스가 불균형이라고 가정할때 이 경우 하나의 클래스에 다른 클래스보다 더 많은 데이터 인스턴스가 있고 모델은 모든 경우에 대해 대다수 클래스를 예측하고 높은 정확도 점수를 가질 수 있습니다. 

이렇게 된다면 소수 클래스를 예측하지 못하며 일상생활에서 큰 문제를 야기할 수 있습니다.

 

ex) 국민건강보험공단에서 제공하는 데이터에 따르면 검사자 4,276,285명 중 6,473명이 유방암 의심 판정을 받았습니다.

만약 모든 유방암 검사자에 대해서 정상으로 판단한다면 정확도는 99.85%로 매우 높은 수치를 기록합니다.

하지만 이럴경우 유방암에 걸린사람들을 판정하지 못해 매우 위험한 결과를 초래합니다. 

이런 문제들을 해결하기 위해 Confusion Matrix를 사용하게 됩니다.

 

Confusion Matrix

  현실
긍정 (Positive) 부정 (Negative)
예측 긍정 (Positive) 참 긍정
(TP, True Positive)
거짓 긍정
(FP, False Positive)
부정 (Negative) 거짓 부정
(FN, False Negative)
참 부정
(TN, True Negative)

1. TP(True Positive) - 맞는 것을 올바르게 맞다고 예측한 것

- 임신을 예시로 들자면 실제는 임신인데, 임신으로 잘 예측한것

 

2. TN(True Negative) - 아닌 것을 올바르게 틀리다고 예측한 것

- 실제는 임신이 아닌데, 임신이 아닌것으로 잘 예측

 

3. FP(False Positive) - 아닌 것을 올바르지 않게 맞다고 예측한 것 (1종 오류)

- 실제는 임신이 아닌데, 임신으로 예측

 

4. FN(False Negative) - 맞는 것을 올바르지 않게 틀리다고 예측한 것 (2종 오류)

- 실제는 임신인데, 임신이 아닌것으로 예측

 

 

 

1) 정확도

  현실
긍정 (Positive) 부정 (Negative)
예측 긍정 (Positive) 참 긍정
(TP, True Positive)
거짓 긍정
(FP, False Positive)
부정 (Negative) 거짓 부정
(FN, False Negative)
참 부정
(TN, True Negative)

​공식

- 예측이 현실에 부합할 확률입니다.

 

- 예측 결과 전체를 모두 분모에 넣고, 참 긍정이든 참 부정이든 제대로 예측하는 데 성공한 빈도가 전체 중의 얼마를 차지하는지 0~1사이의 값으로 살펴봅니다.

 

- 정확도가 높다는 것은 곧 예측이 제대로 적중한 경우가 많다는 의미가 되며 정확도 높은 예측 알고리즘은 활용 가능성이 높다고 인정됩니다.

 

- 일반적으로 분류 예측을 얼마나 잘 했는지 평가하기 위한 지표로 사용

 

 

2) 정밀도

  현실
긍정 (Positive) 부정 (Negative)
예측 긍정 (Positive) 참 긍정
(TP, True Positive)
거짓 긍정
(FP, False Positive)
부정 (Negative) 거짓 부정
(FN, False Negative)
참 부정
(TN, True Negative)

공식

- 예측 결과가 긍정적일 떄 현실도 실제로 긍정일 확률입니다.

 

- 여기서는 예측 결과가 긍정적인 경우에만 관심을 갖고, 참긍정과 거짓긍정을 모아서 분모에 넣는 반면 분자에는 참긍정만 넣어서 그 비율을 0~1사이 값으로 견주어 봅니다.

 

- 정밀도가 높다는 것은 긍정적인 예측이 제대로 적중한 경우가 많다는 의미가 되며, 정밀도 높은 예측 알고리즘은 안정성이 높다고 인정됩니다.

 

- 하지만 정밀도는 예측 결과가 부정적일때 이를 얼마나 신뢰해야 할지에 대한 정보는 제공하지 않습니다.

 

3) 재현율(민감도)

  현실
긍정 (Positive) 부정 (Negative)
예측 긍정 (Positive) 참 긍정
(TP, True Positive)
거짓 긍정
(FP, False Positive)
부정 (Negative) 거짓 부정
(FN, False Negative)
참 부정
(TN, True Negative)

공식

- 현실이 실제로 긍정일때 예측 결과도 긍정적인 확률입니다.

 

- 여기선 현실이 긍정인 경우에만 관심을 갖고 분모에는 참긍정과 거짓부정을 모아 넣는 반면 분자에는 참긍정만 넣어서 그 비율을 0~1사이 값으로 확인합니다.

 

- 민감도가 높다는 것은 현실이 긍정일때 그 예측도 제대로 잘 이루어지고 있다는 의미가 됩니다.

 

- 하지만 민감도는 현실이 부정일때 예측이 어떻게 이루어지는지에 대한 정보는 제공하지 않음

 

3) 특이도

  현실
긍정 (Positive) 부정 (Negative)
예측 긍정 (Positive) 참 긍정
(TP, True Positive)
거짓 긍정
(FP, False Positive)
부정 (Negative) 거짓 부정
(FN, False Negative)
참 부정
(TN, True Negative)

공식

- 현실이 실제로 부정일때 예측 결과도 부정적일 확률

 

- 민감도와는 반대로 현실이 부정인 경우에만 관심을 갖습니다.

 

- 특이도의 분모는 참부정과 거짓긍정으로 구성되고 분자에는 참부정만 들어가 0~1사이 값으로 결과를 산출

 

- 특이도가 높다는 것은 현실이 부정일때 그 예측도 제대로 잘 이루어지고 있다는 의미가 됩니다.

 

- 하지만 민감도와는 반대로 특이도는 현실이 긍정일 때의 평가 정보는 제공하지 않습니다.

'Machine Learning' 카테고리의 다른 글

머신러닝에서의 데이터 문제들  (0) 2023.04.05
Support Vector Machine  (0) 2022.11.22
🌳랜덤포레스트 - 매개변수 정리  (0) 2022.11.17
⚡️One-Hot-Encoding  (0) 2022.11.10
🌲Decision Tree(결정트리)  (0) 2022.10.27
Comments