혼동행렬(Confusion Matrix)

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

초봉5센티미터

혼동행렬(Confusion Matrix) 본문

Machine Learning

혼동행렬(Confusion Matrix)

삶은돼지고기 2022. 11. 24. 17:21

728x90

혼동행렬(Confusion Matrix)란?

모델의 성능을 평가할 때 사용되는 지표
예측값이 실제 관측값을 얼마나 정확히 예측했는지 보여주는 행렬

혼동행렬은 분류 모델을 평가하는 지표입니다. 일반적으로 분류모델은 정확도(Accuracy)로 평가됩니다.

하지만 정확도만으로 평가가 불가능한 문제들이 있습니다.

주어진 데이터의 클래스가 불균형이라고 가정할때 이 경우 하나의 클래스에 다른 클래스보다 더 많은 데이터 인스턴스가 있고 모델은 모든 경우에 대해 대다수 클래스를 예측하고 높은 정확도 점수를 가질 수 있습니다.

이렇게 된다면 소수 클래스를 예측하지 못하며 일상생활에서 큰 문제를 야기할 수 있습니다.

ex) 국민건강보험공단에서 제공하는 데이터에 따르면 검사자 4,276,285명 중 6,473명이 유방암 의심 판정을 받았습니다.

만약 모든 유방암 검사자에 대해서 정상으로 판단한다면 정확도는 99.85%로 매우 높은 수치를 기록합니다.

하지만 이럴경우 유방암에 걸린사람들을 판정하지 못해 매우 위험한 결과를 초래합니다.

이런 문제들을 해결하기 위해 Confusion Matrix를 사용하게 됩니다.

Confusion Matrix

		현실
		긍정 (Positive)	부정 (Negative)
예측	긍정 (Positive)	참 긍정 (TP, True Positive)	거짓 긍정 (FP, False Positive)
예측	부정 (Negative)	거짓 부정 (FN, False Negative)	참 부정 (TN, True Negative)

1. TP(True Positive) - 맞는 것을 올바르게 맞다고 예측한 것

- 임신을 예시로 들자면 실제는 임신인데, 임신으로 잘 예측한것

2. TN(True Negative) - 아닌 것을 올바르게 틀리다고 예측한 것

- 실제는 임신이 아닌데, 임신이 아닌것으로 잘 예측

3. FP(False Positive) - 아닌 것을 올바르지 않게 맞다고 예측한 것 (1종 오류)

- 실제는 임신이 아닌데, 임신으로 예측

4. FN(False Negative) - 맞는 것을 올바르지 않게 틀리다고 예측한 것 (2종 오류)

- 실제는 임신인데, 임신이 아닌것으로 예측

1) 정확도

		현실
		긍정 (Positive)	부정 (Negative)
예측	긍정 (Positive)	참 긍정 (TP, True Positive)	거짓 긍정 (FP, False Positive)
예측	부정 (Negative)	거짓 부정 (FN, False Negative)	참 부정 (TN, True Negative)

공식

- 예측이 현실에 부합할 확률입니다.

- 예측 결과 전체를 모두 분모에 넣고, 참 긍정이든 참 부정이든 제대로 예측하는 데 성공한 빈도가 전체 중의 얼마를 차지하는지 0~1사이의 값으로 살펴봅니다.

- 정확도가 높다는 것은 곧 예측이 제대로 적중한 경우가 많다는 의미가 되며 정확도 높은 예측 알고리즘은 활용 가능성이 높다고 인정됩니다.

- 일반적으로 분류 예측을 얼마나 잘 했는지 평가하기 위한 지표로 사용

2) 정밀도

		현실
		긍정 (Positive)	부정 (Negative)
예측	긍정 (Positive)	참 긍정 (TP, True Positive)	거짓 긍정 (FP, False Positive)
예측	부정 (Negative)	거짓 부정 (FN, False Negative)	참 부정 (TN, True Negative)

공식

- 예측 결과가 긍정적일 떄 현실도 실제로 긍정일 확률입니다.

- 여기서는 예측 결과가 긍정적인 경우에만 관심을 갖고, 참긍정과 거짓긍정을 모아서 분모에 넣는 반면 분자에는 참긍정만 넣어서 그 비율을 0~1사이 값으로 견주어 봅니다.

- 정밀도가 높다는 것은 긍정적인 예측이 제대로 적중한 경우가 많다는 의미가 되며, 정밀도 높은 예측 알고리즘은 안정성이 높다고 인정됩니다.

- 하지만 정밀도는 예측 결과가 부정적일때 이를 얼마나 신뢰해야 할지에 대한 정보는 제공하지 않습니다.

3) 재현율(민감도)

		현실
		긍정 (Positive)	부정 (Negative)
예측	긍정 (Positive)	참 긍정 (TP, True Positive)	거짓 긍정 (FP, False Positive)
예측	부정 (Negative)	거짓 부정 (FN, False Negative)	참 부정 (TN, True Negative)

공식

- 현실이 실제로 긍정일때 예측 결과도 긍정적인 확률입니다.

- 여기선 현실이 긍정인 경우에만 관심을 갖고 분모에는 참긍정과 거짓부정을 모아 넣는 반면 분자에는 참긍정만 넣어서 그 비율을 0~1사이 값으로 확인합니다.

- 민감도가 높다는 것은 현실이 긍정일때 그 예측도 제대로 잘 이루어지고 있다는 의미가 됩니다.

- 하지만 민감도는 현실이 부정일때 예측이 어떻게 이루어지는지에 대한 정보는 제공하지 않음

3) 특이도

		현실
		긍정 (Positive)	부정 (Negative)
예측	긍정 (Positive)	참 긍정 (TP, True Positive)	거짓 긍정 (FP, False Positive)
예측	부정 (Negative)	거짓 부정 (FN, False Negative)	참 부정 (TN, True Negative)

공식

- 현실이 실제로 부정일때 예측 결과도 부정적일 확률

- 민감도와는 반대로 현실이 부정인 경우에만 관심을 갖습니다.

- 특이도의 분모는 참부정과 거짓긍정으로 구성되고 분자에는 참부정만 들어가 0~1사이 값으로 결과를 산출

- 특이도가 높다는 것은 현실이 부정일때 그 예측도 제대로 잘 이루어지고 있다는 의미가 됩니다.

- 하지만 민감도와는 반대로 특이도는 현실이 긍정일 때의 평가 정보는 제공하지 않습니다.

'Machine Learning' 카테고리의 다른 글

머신러닝에서의 데이터 문제들 (0)	2023.04.05
Support Vector Machine (0)	2022.11.22
🌳랜덤포레스트 - 매개변수 정리 (0)	2022.11.17
⚡️One-Hot-Encoding (0)	2022.11.10
🌲Decision Tree(결정트리) (0)	2022.10.27

'Machine Learning' Related Articles

Comments

초봉5센티미터

혼동행렬(Confusion Matrix) 본문

혼동행렬(Confusion Matrix)

혼동행렬(Confusion Matrix)란?

1) 정확도

2) 정밀도

3) 재현율(민감도)

3) 특이도

'Machine Learning' 카테고리의 다른 글

티스토리툴바