생성형 인공지능 윤리 2 > Chapter 5. 인공지능과 데이터 편향성

[활동1] 생성형 인공지능으로 이미지 생성하기

 생성형 인공지능의 데이터 편향성 살펴보기

먼저, 데이터 편향성의 개념부터 살펴보도록 하겠습니다. 데이터 편향성의 사전적 의미입니다. 데이터는 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보를 말합니다. 편향성은 한쪽으로 치우친 성질을 의미합니다. 이에 따라 데이터 편향성은 정보가 한쪽으로 치우친 것을 의미합니다.

 

데이터 편향성이란, 인공지능의 모델 학습 과정 및 결과에 있어 인간의 편견과 오류가 데이터에 그대로 반영된 상태를 의미합니다. 인간의 편견과 문화에 의해 차별이 생겨나고, 이것이 AI 시스템에 영향을 미쳐 데이터 편향성이 발생합니다.

 

 

 1. 만약 영상 속 인공지능이 성 역할에 대한 편향성을 그대로 학습하여 영화 시나리오를 작성한다면 어떨 것 같나요?
 2. 우리 사회에서는 남녀 성 역할에 대한 생각이 어떻게 변화하고 있나요?
 3. 만약 영화 시나리오 작성 인공지능을 만든다면, 어떤 데이터를 어떻게 학습시켜야 할까요?

영상을 보면, 남녀 성 역할에 대한 편견이 영화 속에 반영된 것을 알 수 있습니다. 만약 영상 속 인공지능이 성 역할에 대한 편향성을 그대로 학습하여 영화 시나리오를 작성한다면 어떨 것 같나요? 앞서 나온 예시의 애플 카드와 아마존 채용 인공지능처럼 성차별적인 인공지능이 만들어질 것입니다. 우리가 인공지능의 성차별을 문제 삼는다는 것은 그만큼 우리 사회의 인식도 많이 변화했음을 뜻합니다. 만약 영화 시나리오 작성 인공지능을 만든다면, 어떤 데이터를 어떻게 학습시켜야 할까요?

[관련 자료]

- 영화 속 ‘성 역할 편향’ AI가 밝혀냈다, https://tv.naver.com/v/10938236

[수업활동 tip]

1) 영화 속 남녀 성 역할에 대해 알아보고, 더 나아가 인공지능이 이를 학습한다면, 어떤 문제가 나타날지 학생들이 확산적 사고를 할 수 있도록 지도한다.

 

데이터 편향성이 발생하는 주요 원인을 살펴보겠습니다. 앞서 나온 사례들은 데이터 편향성의 주요 원인 5가지 중 어떤 것에 해당할까요? 예를 들어, 아마존의 사례는 주요 원인 중 어떤 것에 해당할까요? 다섯 가지 주요 원인 중 오염된 사례에 해당합니다. 과거의 데이터를 학습해 성별과의 연관성을 발견한 인공지능이 ‘여성’ 단어가 포함된 경우, 감점 처리하였기 때문입니다. 

다음은 각 원인에 대한 예시입니다. 

1) 편향된 표본: 초기 범죄 관찰 기록 데이터에서 기록이 많은 지역을 추출하여, A지역에 경찰을 투입함. A지역의 범죄 관찰 기록이 많아져 실제 범죄율이 높은 타 지역보다 A지역에 더 많은 경찰을 투입함.

2) 제한된 기능: 고등교육을 받지 않은 남성과 고등교육을 받은 여성만으로 이루어진 집단을 대상으로 인공지능이 연봉을 책정할 때, 교육 데이터가 누락되어 있으면 성별을 근거로 판단함. 

3) 표본 크기 불균형: 실제 이름과 가짜 이름을 판별하는 인공지능이 미국 백인의 이름을 위주로 학습함. 이에 따라 ‘Nymwars’라는 흑인 이름을 가짜 이름으로 판별함. 

4) 대리 변수의 존재: 성별 데이터를 제거하였으나 선호 스포츠, 좋아하는 연예인 등 성별을 가늠할 수 있는 정보를 통해 인공지능이 성별을 유추함. 

[관련 자료]

- 신경정보처리시스템학회. (2016).

 

영상을 통해 불평등을 학습한 인공지능의 사례를 살펴봅시다. 영상의 내용을 생각하며 다음 물음에 답해봅시다. 

 1.다음 영상은 어떤 내용이었나요?
 2. 인터넷의 데이터가 편파성을 가지게 된 이유는 무엇인가요?
 3. 이로 인해 어떤 문제가 발생할 수 있나요?

[관련 자료]

- 인간에 의해 차별을 학습하고 있는 ‘인공지능’ 편향적인 데이터 양산중?! | tvN STORY 210525 방송, https://tv.naver.com/v/20392446

[수업활동 tip]

1) 영상을 시청한 후에 관련한 소감을 자유롭게 나누어 확산적 사고를 자극한다.

2) 인터넷의 데이터에 어떤 문제가 나타나는지 학생들이 비판적 사고를 할 수 있도록 지도한다.

 

첫 번째 활동으로, 생성형 인공지능으로 이미지를 생성하며 데이터 편향성이 나타나는지 살펴볼 것입니다. 먼저, 선생님께서 제시해주신 이미지를 보고, 이미지 속 인물의 성격을 유추하여 이야기 나눠 봅니다. 다음으로, 생성형 인공지능 사이트에서 직접 성격 이미지를 생성합니다. 마지막으로, 생성된 이미지에 편향성이 나타나는지 살펴보고, 편향성이 나타난다면 그 이유에 대해 토의해봅니다. 

[관련 자료]

- 이디오그램, https://ideogram.ai/  

[수업활동 tip]

1) 이디오그램은 영문 사이트인데, 사이트 번역 시 오류가 발생하므로 번역하지 않고 사용하도록 안내한다. 

2) 이디오그램은 구글 로그인이 필요하므로 사전에 계정을 준비할 수 있도록 안내한다. 

3) 학생 로그인이 어려운 경우, 교사가 시연을 통해 보여줄 수 있다. 

4) 이미지 생성 시 영어로 검색해야 하므로, 영어에 어려움이 있는 학생은 번역기를 활용하도록 지도한다.


 1. 이미지를 보며 이미지 속 인물의 성격이 어떨 것 같은지 이야기를 나눕니다.

 

 2. Ideogram 사이트에 접속한 후, 가입합니다. (Signup with Google 버튼 클릭)

 

 3. 이용 약관과 개인정보보호정책을 확인한 후, 아이디를 입력하여 가입을 마칩니다.

 

 4. 성격을 나타내는 단어를 영어로 검색합니다. 파파고 등 번역기를 활용하여도 좋습니다.

 

 5. 협업 보드에 생성된 이미지를 첨부하고 편향성 이 나타나는지 적어봅니다. 이전 차시에서 배운 10 대 원칙 중 ‘다양성 존중’과 연관지어 생각해봅시다.

 

 6. 생성형 인공지능의 이미지를 살펴보며 나타난 편향성 문제에 대해 협업 보드에 의견을 적고 토의 해봅시다.