일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 소프트맥스함수
- RFM분석
- 2022 AI 온라인 실무 교육
- 멋쟁이사자처럼 ai school 7기
- 데이터마케팅분석
- OneHotEncoding
- Python
- 코드업
- 캐글데이터분석
- Onehot인코딩
- 머신러닝
- 코드업 기초100제
- 파이썬
- 코딩테스트
- 기초100제
- ai school
- 멋사 ai
- 시그모이드함수
- 고객데이터분석
- ai 스쿨 7기
- 코드업100제
- 딥러닝
- 데이터분석가
- 데이터 분석
- 앨리스
- 멋쟁이사자처럼
- RFM
- 데이터분석
- 고객세그먼트
- AI 데이터 분석 트랙
- Today
- Total
초봉5센티미터
혼동행렬(Confusion Matrix) 본문
혼동행렬(Confusion Matrix)란?
- 모델의 성능을 평가할 때 사용되는 지표
- 예측값이 실제 관측값을 얼마나 정확히 예측했는지 보여주는 행렬
혼동행렬은 분류 모델을 평가하는 지표입니다. 일반적으로 분류모델은 정확도(Accuracy)로 평가됩니다.
하지만 정확도만으로 평가가 불가능한 문제들이 있습니다.
주어진 데이터의 클래스가 불균형이라고 가정할때 이 경우 하나의 클래스에 다른 클래스보다 더 많은 데이터 인스턴스가 있고 모델은 모든 경우에 대해 대다수 클래스를 예측하고 높은 정확도 점수를 가질 수 있습니다.
이렇게 된다면 소수 클래스를 예측하지 못하며 일상생활에서 큰 문제를 야기할 수 있습니다.
ex) 국민건강보험공단에서 제공하는 데이터에 따르면 검사자 4,276,285명 중 6,473명이 유방암 의심 판정을 받았습니다.
만약 모든 유방암 검사자에 대해서 정상으로 판단한다면 정확도는 99.85%로 매우 높은 수치를 기록합니다.
하지만 이럴경우 유방암에 걸린사람들을 판정하지 못해 매우 위험한 결과를 초래합니다.
이런 문제들을 해결하기 위해 Confusion Matrix를 사용하게 됩니다.
Confusion Matrix
현실 | |||
긍정 (Positive) | 부정 (Negative) | ||
예측 | 긍정 (Positive) | 참 긍정 (TP, True Positive) |
거짓 긍정 (FP, False Positive) |
부정 (Negative) | 거짓 부정 (FN, False Negative) |
참 부정 (TN, True Negative) |
1. TP(True Positive) - 맞는 것을 올바르게 맞다고 예측한 것
- 임신을 예시로 들자면 실제는 임신인데, 임신으로 잘 예측한것
2. TN(True Negative) - 아닌 것을 올바르게 틀리다고 예측한 것
- 실제는 임신이 아닌데, 임신이 아닌것으로 잘 예측
3. FP(False Positive) - 아닌 것을 올바르지 않게 맞다고 예측한 것 (1종 오류)
- 실제는 임신이 아닌데, 임신으로 예측
4. FN(False Negative) - 맞는 것을 올바르지 않게 틀리다고 예측한 것 (2종 오류)
- 실제는 임신인데, 임신이 아닌것으로 예측
1) 정확도
현실 | |||
긍정 (Positive) | 부정 (Negative) | ||
예측 | 긍정 (Positive) | 참 긍정 (TP, True Positive) |
거짓 긍정 (FP, False Positive) |
부정 (Negative) | 거짓 부정 (FN, False Negative) |
참 부정 (TN, True Negative) |
공식
- 예측이 현실에 부합할 확률입니다.
- 예측 결과 전체를 모두 분모에 넣고, 참 긍정이든 참 부정이든 제대로 예측하는 데 성공한 빈도가 전체 중의 얼마를 차지하는지 0~1사이의 값으로 살펴봅니다.
- 정확도가 높다는 것은 곧 예측이 제대로 적중한 경우가 많다는 의미가 되며 정확도 높은 예측 알고리즘은 활용 가능성이 높다고 인정됩니다.
- 일반적으로 분류 예측을 얼마나 잘 했는지 평가하기 위한 지표로 사용
2) 정밀도
현실 | |||
긍정 (Positive) | 부정 (Negative) | ||
예측 | 긍정 (Positive) | 참 긍정 (TP, True Positive) |
거짓 긍정 (FP, False Positive) |
부정 (Negative) | 거짓 부정 (FN, False Negative) |
참 부정 (TN, True Negative) |
공식
- 예측 결과가 긍정적일 떄 현실도 실제로 긍정일 확률입니다.
- 여기서는 예측 결과가 긍정적인 경우에만 관심을 갖고, 참긍정과 거짓긍정을 모아서 분모에 넣는 반면 분자에는 참긍정만 넣어서 그 비율을 0~1사이 값으로 견주어 봅니다.
- 정밀도가 높다는 것은 긍정적인 예측이 제대로 적중한 경우가 많다는 의미가 되며, 정밀도 높은 예측 알고리즘은 안정성이 높다고 인정됩니다.
- 하지만 정밀도는 예측 결과가 부정적일때 이를 얼마나 신뢰해야 할지에 대한 정보는 제공하지 않습니다.
3) 재현율(민감도)
현실 | |||
긍정 (Positive) | 부정 (Negative) | ||
예측 | 긍정 (Positive) | 참 긍정 (TP, True Positive) |
거짓 긍정 (FP, False Positive) |
부정 (Negative) | 거짓 부정 (FN, False Negative) |
참 부정 (TN, True Negative) |
공식
- 현실이 실제로 긍정일때 예측 결과도 긍정적인 확률입니다.
- 여기선 현실이 긍정인 경우에만 관심을 갖고 분모에는 참긍정과 거짓부정을 모아 넣는 반면 분자에는 참긍정만 넣어서 그 비율을 0~1사이 값으로 확인합니다.
- 민감도가 높다는 것은 현실이 긍정일때 그 예측도 제대로 잘 이루어지고 있다는 의미가 됩니다.
- 하지만 민감도는 현실이 부정일때 예측이 어떻게 이루어지는지에 대한 정보는 제공하지 않음
3) 특이도
현실 | |||
긍정 (Positive) | 부정 (Negative) | ||
예측 | 긍정 (Positive) | 참 긍정 (TP, True Positive) |
거짓 긍정 (FP, False Positive) |
부정 (Negative) | 거짓 부정 (FN, False Negative) |
참 부정 (TN, True Negative) |
공식
- 현실이 실제로 부정일때 예측 결과도 부정적일 확률
- 민감도와는 반대로 현실이 부정인 경우에만 관심을 갖습니다.
- 특이도의 분모는 참부정과 거짓긍정으로 구성되고 분자에는 참부정만 들어가 0~1사이 값으로 결과를 산출
- 특이도가 높다는 것은 현실이 부정일때 그 예측도 제대로 잘 이루어지고 있다는 의미가 됩니다.
- 하지만 민감도와는 반대로 특이도는 현실이 긍정일 때의 평가 정보는 제공하지 않습니다.
'Machine Learning' 카테고리의 다른 글
머신러닝에서의 데이터 문제들 (0) | 2023.04.05 |
---|---|
Support Vector Machine (0) | 2022.11.22 |
🌳랜덤포레스트 - 매개변수 정리 (0) | 2022.11.17 |
⚡️One-Hot-Encoding (0) | 2022.11.10 |
🌲Decision Tree(결정트리) (0) | 2022.10.27 |