생성형 인공지능 윤리 2 > Chapter 6. 데이터의 편향성을 개선한 인공지능

[활동2] 데이터 편향성 문제 개선하기

 데이터 편향성 문제 개선하기

 

 1. 활동 1에서 완성한 프로그램을 저장한 후, ‘Notebook 복제하기’를 누릅니다.

  

 2. 편향성이 없는 데이터를 업로드하고 프로그램을 실행시킵니다.

 

- 원 데이터셋을 업로드하여 프로그램을 실행시킵니다.


 3. gender_classification2 파일로 학습 시, 데이터 편향성이 나타나는지 확인해 봅니다.

 

- gender=1이면 남성, 0이면 여성 

- 각 클래스에 속한 데이터 수를 확인해보면 해당 데이터는 성별 편향성이 나타나지 않는다는 것을 확인할 수 있습니다.


 4. 시각화를 통해서도 데이터 편향성이 나타나는지 확인합니다.

 


 

 5. 프로그램을 실행시킨 후, 학습한 데이터에 따라 결과가 어떻게 다르게 나타나는지 비교해봅시다.

 

모델을 실행시킨 후, 데이터 편향성이 나타난 모델과 비교해봅시다. 

 

1) heatmap을 통해 편향성 없는 데이터로 학습한 경우, 변수 간 상관관계가 더 높게 나타남을 알 수 있습니다.

 

 

 

2) 편향된 데이터로 학습한 경우, 전체 데이터 중 옳은 예측의 비율인 정확도가 더 높게 나타납니다. 남성 데이터의 정밀도, 재현율, F1점수 또한 더 높게 나타나나, 여성 데이터는 더 낮게 나타납니다.

 

 

 

이는 인공지능의 성능이 좋게 나올지라도 편향성 문제가 있을 수 있음을 의미합니다. 

이 활동을 통해 추후 인공지능을 접할 때 인공지능에 대해 비판적으로 생각할 수 있는 역량을 기를 수 있습니다.