-
Notifications
You must be signed in to change notification settings - Fork 6
Description
강의노트 3장에서는 MNIST 숫자 손글씨 데이터셋을 이용해 숫자-5 감별기와 다중 클래스 분류기를 훈련시키고, 오류 분석을 통해 모델이 특정 숫자들을 더 자주 오판함을 설명하고 있습니다.
혼동 행렬을 바탕으로 오분류 사례를 시각화한 이미지에서, 일부 샘플은 모델이 단순히 잘못 예측했다기보다 사람 눈으로 보아도 실제 라벨이 타당한지 의심되는 경우가 있습니다. 예를 들어, 해당 이미지 맨 윗줄의 오른쪽에서 두 번째 숫자를 살펴보면, 실제 라벨이 3으로 표시되어 있지만 형태상 5에 더 가깝게 보이는 샘플이 있어, 데이터셋을 만드는 단계에서 5가 3으로 잘못 라벨링된 것일 가능성이 있어 보입니다.
이를 보면서, 분류 모델의 오분류를 해석할 때 데이터셋의 라벨링 오류를 어디까지 함께 고려해야 하는지 궁금해졌습니다. 즉, 혼동 행렬에서 3과 5 사이의 오분류가 많이 나타난다고 하더라도, 그중 일부가 모델의 한계가 아니라 애초에 잘못 붙은 라벨 때문에 발생한 것이라면, 정확도, 정밀도, 재현율 같은 성능지표의 해석도 달라질 수 있을 것 같습니다.
또 한편으론, 실제 환경에서는 사람 눈으로도 판별하기 어려운 손글씨가 충분히 입력으로 들어올 수 있으므로, 모델 역시 이런 글씨를 어느 정도는 처리할 수 있어야 한다고 생각했습니다. 하지만 데이터셋을 만드는 단계에서 이런 애매한 샘플까지 억지로 라벨링하면, 사람도 확신하기 어려운 만큼 라벨링 오류가 다수 발생할 가능성도 커질 것 같습니다. 그렇다면 실제 입력 분포를 반영하기 위해 이런 샘플까지 포함시키는 것이 더 중요한지, 아니면 라벨 오류를 줄이기 위해 제외하고 데이터셋 자체의 품질을 높이는 것이 더 중요한지 궁금합니다.
