이것도 알아야 하네?
[개념 정리] 클래스 불균형 데이터 처리 문제점과 중요 지표 본문
728x90
클래스 간 데이터 양 차이가 큰 경우 클래스 불균형이 있다고 말한다.
불균형 데이터의 문제점
데이터 클래스의 비율이 너무 차이나면 단순히 majority 클래스를 택하는 모형의 정확도가 높아지므로 모형의 성능 판별이 어려워진다.
즉, 정확도(accuracy)가 높아도 데이터 개수가 적은 클래스의 재현율(recall)가 급격히 작아지는 현상이 발생할 수 있다. 때문에 이런 상황에서는 정확도 외의 다른 지표들을 확인할 필요가 있다.
실제 값 (정답) | |||
참 (Positive) | 거짓 (Negative) | ||
예측 값 | 참 (Positive) | TP (True Positive) | FP (False Positive) |
거짓 (Negative) | FN (False Negative) | TN (True Negative) |
정확도는 맞은 개수를 의미하며 위의 테이블에서는 (TP + TN) / (TP + TN + FP + FN) 로 구할 수 있다.
재현율은 실제 값이 참인 데이터 중에 예측이 얼마나 맞느냐를 뜻하며 TP / (TP + FN)로, 정밀도는 참이라고.예측한 것 중에 실제 참이 얼마나 있냐를 나타내며 TP / (TP + FP) 로 구할 수 있다.
면접 문제
데이터 불균형의 예시 상황으로 MRI 사진에서의 종양을 들 수 있다. 실제로 종양이 있는 사진을 구하기가 어려운 것으로 알려져 있다. 이러한 상황에서 recall, precision 중 무엇이 더 중요한 수치일까?
정답은 recall이다. precision의 경우는 FN 이 수식에 없기 때문에 실제로 암인 환자를 예측하지 못하는 위험한 경우가 수치에 포함되지 않기 때문이다.
728x90
'프로그래밍 > 데이터 분석' 카테고리의 다른 글
[Python] Python답게 코딩하기 — Lambda, filter, reduce 와 map (0) | 2022.02.15 |
---|---|
[Python] csv 파일을 읽는 다양한 방법 (0) | 2021.11.19 |
[자격증 후기] 2020 정보처리기사 과정 정리 및 합격 수기 (0) | 2021.11.19 |
Comments