Play with Data 2 > Chapter 3. 지식 iN 데이터를 분석해보자

[준비하기] 네이버 지식iN 데이터 그래프 살펴보기

 지식iN 데이터 그래프 살펴보기

1. 지식iN을 사용해본 적이 있나요?


 

여러분은 평소에 지식iN을 많이 활용하나요? 어떤 정보를 찾아본 경험이 있나요? 지식iN을 활용해 궁금증을 해결했던 경험을 각자 이야기해 봅시다.

오늘의 학습 순서에 대해 간략히 소개하겠습니다.

 <학습 순서>

1) 지식iN 데이터 그래프 확인하기(연령별 관심사 알아보기)

2) 지식iN이 데이터를 수집한 방법 알아보기

3) 지식iN 데이터 분석하기

4) 나만의 지식iN 홍보 이벤트 기획하기


2. 그래프의 개념 익히기

이번 프로젝트에서 등장하는 그래프를 미리 살펴봅시다. 그래프를 통해 데이터를 한 눈에 보기 좋게 표현할 수 있습니다.

막대 그래프 : 비교할 양이나 수치의 분포를 막대 모양의 도형으로 나타낸 그래프. 수량의 많고 적음 을 한 눈에 비교할 수 있음.

 

 <막대 그래프 그리는 방법>

① 가로와 세로 눈금에 나타낼 것을 정한다. ② 세로 눈금 한 칸의 크기를 정한다. ③ 조사한 수에 알맞게 막대를 그린다.

원 그래프 : 전체에 대한 각 항목의 비율을 원 모양으로 나타낸 그래프. 비율그래프의 한 종류로 전체 에 대한 부분의 비율을 한눈에 알 수 있다.

 

 <원 그래프 그리는 방법>

① 자료를 보고, 각 항목의 백분율을 구한다.(백분율의 합계가 100%인지 확인한다.) ② 각 항목별 백분율의 크기만큼 선을 그어 띠를 나눈다. ③ 각 항목별 원 위에 항목의 이름과 백분율의 크기를 쓴다.

[출처 : 네이버 지식백과] 막대 그래프, 원 그래프 (학습용어 개념사전, 2010. 8. 5., 이영규, 심진경, 안영이, 신은영, 윤지선)


3. 지식iN의 여러 가지 데이터 확인하기

먼저 네이버 지식iN이 어떤 서비스인지 구체적으로 알아보겠습니다.


네이버 지식iN(지식인)은 네이버 포털의 지식 교류 서비스입니다. 사용자가 올린 질문이나 궁금한 내용, 고민에 대해 다른 사용자들이 자발적으로 답변을 달면서 지식을 주고받을 수 있습니다. 2002년 10월 정식 서비스를 시작한 네이버 지식iN은 2012년 9월 기준으로 질문의 수가 1억 건을 돌파했습니다. 누적 답변수는 2019 년 6월 기준으로 무려 3억 개 이상을 기록하기도 했지요. 최근에는 변호사, 의사 등 전문가 상담을 도입하여 답변 신뢰도를 높이고 있습니다.

네이버 지식iN(지식인)에 있는 여러 가지 데이터를 확인해봅시다. 지식iN ‘Q&A’에 접속하여 어떤 정보가 있는지 직접 확인해보세요.

 


지식iN ‘베스트’에 접속하여 어떤 정보가 있는지 직접 확인해보세요.


 

 <워크 시트>

1) 지식iN 데이터의 종류에는 어떤 것이 있나요? (모두 적어보세요)

2) 지식iN 데이터의 양은 얼마나 될까요? (ex : 한 달 동안 질문수와 답변수)

3) 지식iN 데이터를 분석하면 무엇을 알 수 있을지 예상해볼까요?


4. 지식iN 명예의 전당에서 원 그래프 확인하기

'지식iN 명예의 전당'에서는 여러 가지 데이터를 시각화하여 만든 그래프를 월별로 제공하고 있습니다. 하나씩 클릭해보면서 어떤 그래프들이 있는지 확인해봅시다

‘명예의 전당’ 아래쪽을 보면, 지식iN 관심사를 표현한 원 그래프를 확인할 수 있습니다. 

위 그래프는 2020년 1월에 10대 남성이 지식iN에서 어떤 분야에 대한 질문을 많이 올렸는지 한 눈에 알아볼 수 있도록 표현해줍니다.

위 그래프는 2020년 7월에 10대 여성이 지식iN에서 어떤 분야에 대한 질문을 많이 올렸는지 한 눈에 알아볼 수 있도록 표현해줍니다.

화면을 위쪽으로 올려보면 기간(시간)을 변경할 수도 있습니다. 기간을 변경해 보며 원 그래프가 어떻게 달라지는지 확인해보세요.

사람들이 어떤 분야에 관심을 가지는지 기간, 성별, 나이를 설정해서 확인해보세요. 


※ 인공지능과 데이터 과학

 

Q. 간단히 자기소개 부탁드립니다.

안녕하세요. 데이터 과학자 강병엽입니다. 머신러닝으로 박사학위를 받고 현재, 네이버에서 대용량 데이터 분석 및 인사이트 도출, 최신 머신러닝/인공지능을 연구하고 있습니다.


Q. 최근 전 세계적으로 인공지능이 주목되고 있는데요. 인공지능은 어떻게 발전해왔나요?

인공지능은 최근 바둑으로 유명해진 알파고나 의료계에서 활용되는 왓슨을 통해 많이 알려지게 되었지만, 실제 인공지능 자체는 꽤나 오랜 역사를 가지고 있습니다. 인공지능이라는 단어는 1956년에 처음 사용되었고, 1990년대까지 인간처럼 문제를 해결할 수 있는 능력을 가진 인공지능 개발을 추진하였으나 결실을 맺지 못하였습니다. 2000년대가 되면서 컴퓨터성능의 급속한 발전과 인터넷의 발달로 수십 년 동안 꿈꾸던 인공지능의 구현이 가능하게 되었습니다.

Q. 데이터 과학은 인공지능과 어떤 연관성이 있나요?

인공지능의 핵심은 ‘성능 좋은 컴퓨터’와 인공지능이 학습하는데 필요한 ‘데이터’(빅데이터)라고 할 수 있습니다. 빠르게 일을 할 수 있는 고성능 컴퓨터와 데이터가 인공지능을 만드는데 반드시 필요한 요소입니다. 빅데이터는 이런 인공지능을 구현하기 위해 충분한 학습용 데이터를 공급해줍니다. 하지만, 여러 지식들을 체계적으로 분류하고, 그것들을 인공지능 학습에 사용할 수 있도록 준비하는 것은 아직까지 인간만이 할 수 있는 일입니다. 이러한 역할을 해주는 분야가 바로 ‘데이터 과학’입니다.

Q. 인공지능 시대에 데이터 과학자로서 어떤 역할을 수행하고 계신가요?

저는 데이터 과학자로서 검색 사용자들의 데이터를 직접 분석하고 새로운 사실을 발견하는 업무를 수행합니다. 새롭게 발견한 사실을 활용해서, 검색 사용자들이 더 나은 서비스를 누릴 수 있도록 검색 사용자들을 도와주는 인공지능 모델을 직접 개발하기도 하지요. 또한, 사용자의 데이터를 분석해서 네이버 검색 서비스를 개선하기 위해서 노력합니다. 예를 들면, 검색 사용자들의 데이터를 분석해서 사용자들이 클릭하는 버튼의 위치가 불편하다는 사실을 발견하면, 클릭하는 버튼의 위치를 바꾸는 것이 좋다는 아이디어를 내기도 합니다. 그리고 검색어 순위가 자동으로 바뀔 수 있도록 인공지능 모델을 만들기도 하지요.

Q. 데이터 과학자를 꿈꾸는 학생들을 위해, 어떻게 진로를 정하셨는지 설명 부탁드립니다.

저는 학창시절 수학을 좋아했습니다. 그 중에서 확률과 통계를 가장 좋아해 이쪽 분야를 계속 공부했습니다. 그리고 2012년 머신러닝으로 박사학위를 받았는데, 딱 그 시기가 빅데이터, 머신러닝 등이 한창 주목되던 때였습니다. 대학원 교수님께서 머신러닝을 전공하신 분이어서, 대학원 시절부터 운 좋게 최신 트렌드도 공부할 수 있지요. 그래서 자연스럽게 인공지능, 데이터과학 쪽으로 진로를 결정하게 되었습니다.