[리뷰] 데이터 분석가의 숫자유감



골든래빗 출판사의 "데이터 분석가의 숫자유감(권정민 글/주형 그림)"를 읽고 작성한 리뷰입니다.

표지


“골든래빗 출판사로부터 책을 제공받아 작성했습니다.”

일상이나 직장에서 숫자나 통계의 함정에 쉽게 빠지지 않도록 데이터 리터러시(문해력)를 만화로 쉽게 배울 수 있게 도와주는 책이다.

저자는 데이터 분석 및 과학 분야의 전문가이시다. 스프링거社의 “실전 예측 분석 모델링”, “딥러닝과 바둑” 등 다수의 AI 관련 도서를 잘 번역해 주신 역자님에서 저자님으로 뵙게 되니 감회가 새로웠다. 몇년 전부터 데이터 관련 팟캐스트에도 자주 출연해주셔서 알파고 등장 초기에 데이터 과학 영역을 알아가는데 큰 도움이 되기도 했다.

식상해진 4차 산업혁명이나 AI라는 말을 차치하더라도 데이터를 활용하는 능력이 점점 중요해지는 시대이다. 대부분의 일반인들은 숫자나 통계라면 맹신하는 경향이 있어 백신의 사망률이 정치적으로 이용되거나 특정 통계가 영업, 수익의 목적으로 재단되거나 왜곡되기도 한다.

이 책에서는 일상에서 범하기 쉬운 숫자의 함정들을 만화로 쉽고 재미있게 풀어내고 있는데 긴 설명보다는 삽화를 중심으로 5가지정도 추려 소개해볼까 한다.


  • “소아마비 예방하려면 아이스크림 적게 드세요!”
    언뜻 생각해도 상식적으로 말이 안된다. 상관관계1

    하지만 1940년대의 한 보건 전문가가 실제로 권고한 내용이다. 시간의 흐름에 따라 소아마비의 발생 빈도와 아이스크림 섭취 빈도가 묘하게 일치했기 때문이다.

    실상은 이렇다. 더운 여름에는 아이스크림을 많이 먹는다. 또, 여름에는 소아마비가 많이 발병할 뿐이다. 상관관계2

    즉, 아이스크림 섭취 빈도와 소아마비의 발병 사이에는 상관관계는 존재하지만 인과관계는 존재하지 않는다. 그럼에도 우리는 상식으로 일상을 살아가는데 습관이 베여있어 주위를 기울이지 않으면 쉽게 빠지고 마는 함정이기도 하다. 상어에 잡아먹히기 싫으면 아이스크림을 먹지말라는 말도 비슷한 예이다.


  • 쿠폰으로 구매한 사람이 186명, 쿠폰없이 산 사람이 324명. 쿠폰 행사 괜히 한 것일까?
    우리는 대부분 숫자로 표시되면 무조건 맞을거라 생각하는 착각을 자주한다. 이럴 때 조건에 따라 확률을 파악하는 조건부 확률에 대한 이해가 사실을 보다 명확하게 바라볼 수 있게 도와준다.

    일부 숫자에만 주목할 것이 아니라 주어진 상황과 조건을 면밀히 파악할 필요가 있다. 아래 그림과 같이 실상은 쿠폰이 주어진 사람이 300명, 쿠폰이 주어지지 않은 사람이 832명이기 때문이다. 조건부확률

    결국 쿠폰이 있을때 구매 확률이 높기에 효과가 없다고 보긴 어려울 것이다. 회사에서는 이윤을 남기기 위한 목적을 지니므로 A/B테스트를 자주 진행하는 편인데 그 때 반드시 알아둬야 하는 기본 소양이다.


  • 옆 회사의 평균 연봉은 4,800만원이니 이직해야 할까?
    우리 회사 평균 연봉은 4,000만원이고 옆 회사가 평균 4,800만원이기에 이직을 했는데 연봉이 2,000만원이 되었다. 왜 이런 일이 생기는 것일까?

    옆 회사는 사장님 급여 10억을 제외한 나머지 구성원의 연봉이 2,000만원 언저리였기 때문이다. 극단적인 예이지만 이렇듯 평균이라는 과학적인(?) 용어는 분포의 함정에 빠져들기 쉽다. 분포

    급여는 보통 좌측 그림의 롱테일 분포를 따르는 편인데 정규 분포로 착각하여 벌어진 일이다. 비슷한 예로 로또에서 앞번호가 많이 등장했다는 이유로 뒷번호를 찍는 경우도 흔한데 이는 정규분포를 균등분포로 착각했기 때문이다.


  • 당신의 별점 4점과 나의 별점 4점은 다르다.
    누군가에게는 5점만점에 4점이면 아주 후한 기준이고 또 다른 누군가에게는 흔한 점수가 될 수 있기에 별점을 곧이 곧대로 믿는 것은 위험하다. 정규화라는 작업은 이럴 때 유용하다. 정규화

  • 엑셀 좀 쓰는 사람이 즐겨찾는 R-제곱값의 정체는?
    아래 그림을 보면 판매량이 올라가고 있는 것처럼 보이기도 한다. 결정계수1

    비슷한 상황에서 주위에서 엑셀 좀 쓴다고 평가 받는 사람들은 추세선에 R-제곱값을 즐겨 활용하는 경향이 있다. 결정계수2

    이 기능을 활용하니 판매량이 되려 감소하는 것으로 보인다. 결정계수3

    이는 통계학에서 자주 활용되는 결정계수인데 설명력을 나타내는 값으로 보통 0.1도 안되는 것은 신뢰도가 매우 낮다고 볼 수 있다. 복잡한 그래프에서 보다 정확한 추세를 판단하기에 꽤 유용한 도구이다.


일상에서 자주 벌어지는 위 사례 외에도 책에는 여러 사례가 추가로 소개된다. 데이터가 난무하고 AI가 사람의 판단력도 넘보는 세상에서 데이터를 매의 눈으로 비판적으로 바라보는 능력은 일상은 물론 직장에서도 더욱 중요해질 것이다.

이 책은 이런 데이터 문해력의 진입 장벽을 낮춰주는 것이 장점이다. 앞서 소개했듯 데이터 분석 분야의 전문가인 저자의 글을 수학에 거부감이 많은 그림 작가가 스스로 이해한 후 재구성한 책이기에 일반 독자 눈높이에 맞게 난이도가 조절되었다는 점도 특징이다.

숫자나 데이터에 거부 반응이 있는 독자에게 꼭 추천하고 싶은 책이다. 아무런 사전 지식이 없어도 재미있게 책을 읽을 수 있을거라 생각하며, 책을 덮고 난 뒤에는 데이터를 바라보는 안목이 한 층 업그레이드 되었음을 느낄 수 있을 것이다.







© 2019.04. by theorydb

Powered by theorydb