[활동2] 데이터 편향성 문제 개선하기
데이터 편향성 문제 개선하기
|
|||
2. 편향성이 없는 데이터를 업로드하고 프로그램을 실행시킵니다.
- 원 데이터셋을 업로드하여 프로그램을 실행시킵니다. |
|||
3. gender_classification2 파일로 학습 시, 데이터 편향성이 나타나는지 확인해 봅니다.
- gender=1이면 남성, 0이면 여성 - 각 클래스에 속한 데이터 수를 확인해보면 해당 데이터는 성별 편향성이 나타나지 않는다는 것을 확인할 수 있습니다. |
|||
4. 시각화를 통해서도 데이터 편향성이 나타나는지 확인합니다.
|
|||
5. 프로그램을 실행시킨 후, 학습한 데이터에 따라 결과가 어떻게 다르게 나타나는지 비교해봅시다. 모델을 실행시킨 후, 데이터 편향성이 나타난 모델과 비교해봅시다.
1) heatmap을 통해 편향성 없는 데이터로 학습한 경우, 변수 간 상관관계가 더 높게 나타남을 알 수 있습니다.
2) 편향된 데이터로 학습한 경우, 전체 데이터 중 옳은 예측의 비율인 정확도가 더 높게 나타납니다. 남성 데이터의 정밀도, 재현율, F1점수 또한 더 높게 나타나나, 여성 데이터는 더 낮게 나타납니다.
이는 인공지능의 성능이 좋게 나올지라도 편향성 문제가 있을 수 있음을 의미합니다. 이 활동을 통해 추후 인공지능을 접할 때 인공지능에 대해 비판적으로 생각할 수 있는 역량을 기를 수 있습니다. |