인공지능 윤리 > Chapter 2. 인공지능의 편향성

[이해하기] 데이터편향성

 데이터 편향성


                                                         < 데이터 기반 인공지능 >

편견을 가진 인공지능이 우리 사회에 사용될 경우 공정하지 않은 영향을 미칠 수 있습니다. 특정 성별이나 인종 등에 유리한 결정을 내리는 인공지능은 편견을 가진 데이터로 학습을 하면서 만들어집니다. 다시 말하면, 편향성을 가진 데이터로 학습을 하기 때문입니다. 데이터 편향성이란 무엇일까요? 어떤 원리로 생기는 걸까요? 지금부터 조금 더 자세히 알아봅시다.


1. 데이터 편향성이란


 

기계학습과 같이 데이터를 기반으로 만들어진 인공지능은 어떤 데이터를 사용하는지가 매우 중요합니다. 그런데 기계학습에 사용될 데이터를 수집하고 학습시키는 과정에서 인종, 성별, 종교 등과 관련하여 의도하지 않게 사람의 편견이 반영될 수 있습니다. 데이터 편향성이란, 기계학습 모델을 학습시키는 데 사용되는 데이터가 사람이나 사회가 가지는 편견을 포함하고 있는 것을 의미합니다. 이렇게 편향성을 가진 데이터를 사용하여 학습한 인공지능은 편향된 결과를 출력할 수밖에 없고, 그 결과는 어떤 종류의 차별을 가져오게 됩니다.


2. 데이터 편향성이 생기는 원인

2-1. 고양이와 표범을 구분하는 인공지능 모델 만들기

 활동 방법 (모둠 활동) 1. 도화지 두 장을 준비하여 모둠 책상 가운데에 둡니다. 2. 한 도화지의 위쪽에 ‘고양이’라고 쓰고, 다른 도화지에는 ‘표범’을 적습니다. 3. 활동지의 빈 칸에 고양이와 표범을 하나씩 그립니다. 4. 그림을 자른 뒤, 모둠원이 그린 고양이 그림들을 ‘고양이’라고 쓴 도화지 위에 모아둡니다. 이 그림들은 여러분의 모둠에서 만든 인공지능 모델의 ‘고양이’ 학습 데이터입니다. 5. 모둠원이 그린 표범 그림들을 ‘표범’이라고 쓴 도화지 위에 모아둡니다. 이 그림들은 여러분의 모둠에서 만든 인공지능 모델의 ‘표범’ 학습 데이터입니다. 6. 선생님께서 보여주시는 그림을 보고, 여러분의 모둠에서 수집한 학습 데이터를 참고하여 주어진 그림이 ‘고양이’ 레이블에 해당되는지, ‘표범’ 레이블에 해당되는지 판단해봅니다.


◆ ‘고양이’ 레이블에 들어갈 학습 데이터를 아래 빈칸에 그려봅시다.

◆  ‘표범’ 레이블에 들어갈 학습 데이터를 아래 빈칸에 그려봅시다.

◆ 우리 모둠에서 그린 ‘고양이’와 ‘표범’ 그림들을 보고, 두 동물을 구분하기 위한 특징 또는 기준을 적어봅시다.


 

우리 모둠에서 그린 ‘고양이’와 ‘표범’ 그림들을 보고, 두 동물을 구분하기 위한 특징 또는 기준을 적어봅시다.


 

모든 그림을 잘 맞혔나요? 그렇지 않다면, 왜 이런 결과가 나왔을지 이야기해봅시다.

◆ 이렇게 잘못된 결과가 나오게 되는 문제를 어떻게 해결할 수 있을지 생각해봅시다.

[참고자료] - 데이터의 속성과 레이블


 

데이터의 편향성은 레이블이 불균형하거나 문제의 소지가 있는 속성을 포함하기 때문에 발생합니다. 이 말을 이해하기 위해서는 먼저 ‘레이블’과 ‘속성’이 무엇인지 알아야 합니다.

위 그림은 기계학습에 사용되는 표 형태의 정형 데이터를 나타냅니다. 표 데이터는 행과 열로 이루어져 있는데 보통 각 행에는 샘플을 표기하고 각 열에는 데이터의 ‘특징’ 또는 ‘속성’과 맞히고자 하는 정답인 ‘레이블’을 표기 합니다. 인공지능을 만들 때는 특히 속성이 중요한데, 데이터의 속성들 속에서 의미를 추출함으로써 새로운 데이터의 값을 예측하거나 분류할 수 있습니다.

예를 들어 성별, 나이, 키, 몸무게, 50m 달리기 기록을 통해 멀리 뛰기 시험의 합격 여부를 예측하는 인공지능을 만든다고 생각해봅시다. 위의 정형 데이터에서 샘플의 개수는 3000개이고 속성은 성별, 나이, 키, 몸무게, 50m 달리기(초)입니다. 이때 예측하고자 하는 결과, 즉 레이블은 멀리 뛰기 시험 합격 여부입니다. 기계학습 인공지능을 이용하여 속성들(성별, 나이, 키, 몸무게, 50m 달리기 기록)과 그에 따른 레이블(멀리뛰기 시험 통과 여부)의 관계를 학습합니다. 이렇게 학습한 인공지능을 이용하면 예측하고자 하는 새로운 데이터가 주어졌을 때, 이미 학습한 속성을 바탕으로 멀리 뛰기 시험에서 합격할지 여부를 예측할 수 있습니다.

2-2. 훌륭한 축구선수를 구분하는 인공지능 모델 만들기

데이터 기반 인공지능 모델은 데이터 속 속성을 이용하여 학습합니다. 예를 들어 사과와 바나나를 구분하는 인공지능 모델은 다음과 같은 속성(모양, 색깔, 평균 당도 등)으로 두 과일을 구분할 수 있습니다.

 


  ◎ 훌륭한 축구선수를 구분하는 속성을 생각해봅시다.

신입 축구선수를 뽑는 인공지능을 만들 때는 어떤 속성을 고려해야 할까요?


 

◆ 어떤 문제가 발생했나요?

◆ 왜 이런 문제가 발생했나요?

◆ 훌륭한 축구 선수를 판단하는 인공지능 모델을 만들 때, 꼭 포함해야 할 속성과 포함하면 안 되는 속성은 무엇이 있을까요?

데이터 기반 인공지능은 데이터의 속성을 이용하여 학습합니다. 이때 사람의 편견이 반영될 수 있는 속성이 학습 데이터에 포함되는 경우, 인공지능 모델 역시 그러한 편견을 학습하게 됩니다. 따라서 성별, 인종, 지역, 종교, 나이 등 민감한 내용을 담고 있는 속성을 다룰 때는 그 속성으로 인해 어떤 편견이 생길 가능성이 있는지 충분히 검토해보아야 합니다. 훌륭한 축구 선수인지를 판단할 때는 나이나 성별과 같은 속성보다는 체력, 볼 컨트롤 능력 등과 같은 속성을 이용하는 것이 적절할 것입니다.

두 활동을 통해 알아봤듯이, 사람이 가진 편견으로 인해 데이터에 다양한 집단을 포함하지 못하거나 혹은 포함 하지 말아야 할 속성이 데이터에 포함되는 경우가 있습니다. 이런 경우 데이터가 편향성을 가지게 되며, 이러한 데이터를 이용한 인공지능은 편향성을 그대로 학습하게 됩니다. 이러한 과정을 실습을 통해 직접 확인해봅시다.