Skip to content

(최*현) (강의노트 3장) MNIST 데이터셋의 라벨링 오류와 오분류 #65

@ch101634

Description

@ch101634

강의노트 3장에서는 MNIST 숫자 손글씨 데이터셋을 이용해 숫자-5 감별기와 다중 클래스 분류기를 훈련시키고, 오류 분석을 통해 모델이 특정 숫자들을 더 자주 오판함을 설명하고 있습니다.

혼동 행렬을 바탕으로 오분류 사례를 시각화한 이미지에서, 일부 샘플은 모델이 단순히 잘못 예측했다기보다 사람 눈으로 보아도 실제 라벨이 타당한지 의심되는 경우가 있습니다. 예를 들어, 해당 이미지 맨 윗줄의 오른쪽에서 두 번째 숫자를 살펴보면, 실제 라벨이 3으로 표시되어 있지만 형태상 5에 더 가깝게 보이는 샘플이 있어, 데이터셋을 만드는 단계에서 5가 3으로 잘못 라벨링된 것일 가능성이 있어 보입니다.

이를 보면서, 분류 모델의 오분류를 해석할 때 데이터셋의 라벨링 오류를 어디까지 함께 고려해야 하는지 궁금해졌습니다. 즉, 혼동 행렬에서 3과 5 사이의 오분류가 많이 나타난다고 하더라도, 그중 일부가 모델의 한계가 아니라 애초에 잘못 붙은 라벨 때문에 발생한 것이라면, 정확도, 정밀도, 재현율 같은 성능지표의 해석도 달라질 수 있을 것 같습니다.

또 한편으론, 실제 환경에서는 사람 눈으로도 판별하기 어려운 손글씨가 충분히 입력으로 들어올 수 있으므로, 모델 역시 이런 글씨를 어느 정도는 처리할 수 있어야 한다고 생각했습니다. 하지만 데이터셋을 만드는 단계에서 이런 애매한 샘플까지 억지로 라벨링하면, 사람도 확신하기 어려운 만큼 라벨링 오류가 다수 발생할 가능성도 커질 것 같습니다. 그렇다면 실제 입력 분포를 반영하기 위해 이런 샘플까지 포함시키는 것이 더 중요한지, 아니면 라벨 오류를 줄이기 위해 제외하고 데이터셋 자체의 품질을 높이는 것이 더 중요한지 궁금합니다.

Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions