[리뷰] 데이터 과학자의 일



휴머니스트 출판사의 "데이터 과학자의 일(박준석 외 10인 저)"를 읽고 작성한 리뷰입니다.

표지


통계학, 금융, 게임, 스포츠, 보안, 의학 등 산업 전반에 걸쳐 데이터 사이언티스트들이 하는 일을 소개하는 책이다.

4차 산업혁명이 화두가 된 이래 데이터 과학이라는 용어가 널리 알려져 있는데 반해 그 정의를 명확히 내리기는 어려운 일이다.

데이터 과학이라는 용어가 쓰이는 분야가 워낙 다양한데다 각 분야 하나하나가 평생을 바쳐 연구해야 내공을 얻을 수 있는 일이기에 모든 영역의 데이터 과학을 다루는 이는 있을 수 없기에 어쩌면 당연한 일이다.

다행히도 이 책에는 다양한 분야의 저명한 데이터 과학자들이 현업에서 어떤 일을 담당하고 있는지 각자 데이터 과학을 바라보는 관점을 엿볼 수 있어 데이터 과학에 대한 감을 잡기 좋은 책이다.

현업에서 전문가들이 어떤 일을 담당하고 있는지 엿볼 수 있다는 점 외에도 이 책은 다양한 장점을 가지고 있다.

먼저 각 장을 읽기 전에 1장을 읽을 것을 추천하고 싶다. 오하이오의 낚시꾼이라는 별명으로 널리 알려진 실리콘 밸리의 전문가이자 이 책의 대표 저자로 부터 통계학의 기본 개념을 배울 수 있다.

대표 저자는 심리학을 전공한 데이터사이언티스트로 이미 페이스북 페이지 오하이오의 낚시꾼의 주인장으로 유명한 분이다.

세간에 논란이 많았던 뉴스, 팩트, 주장들에 대해 과학과 통계를 활용한 냉철한 검증 잣대를 적용한 포스팅으로 유명해진 페이지로 뉴스와 숫자의 결합이면 무조건적으로 받아들이는 대중에게 객관적인 시각을 갖추도록 사회에 기여하는 분이다. AI나 데이터를 연구하는 이들이 자주 들르는 페이지이기도 하다.

관심이 있다면 몇 달 전 출간된 대표 저자의 저서 가짜뉴스의 심리학를 보는 것도 좋을 것 같다.

특정 목적을 가지고 통계를 새빨간 거짓말로 오도하여 특정 계층이 이득을 취할 수 있도록 인위적으로 편집된 통계 자료에 거침없는 저자의 일갈을 보며 감탄한 적이 많다. 이 책은 그런 내용을 보다 쉽고 인문학적 관점에서 잘 정리하고 있어 데이터 과학을 교양 수준에서 쉽게 익힐 수 있다는 장점이 있다.

이번 1장에도 데이터 과학과 통계의 기본 개념을 직관적으로 익힐 수 있는 좋은 예제가 소개된다. 최근에 개발된 신약이 실제로 효과가 있는지, 그 효과가 우연인지 아닌지를 파악하는 과정을 통해 일반인들이 가지고 있는 상식 수준의 통계와 확률의 개념을 데이터 과학의 기초와 잘 연결하고 있다는 느낌을 받았다.

이 예제를 통해 통계학이라는 개념이 불확실성의 계량화에 초점을 맞추고 있다는 점이나 다양한 도메인에서 통계 방법론을 발전시키며 오늘날의 데이터 과학이라는 개념이 형성되었다는 것을 자연스럽게 이해할 수 있을 것이다.

또, 데이터 분석의 기본 개념이 무엇인지 공부할 시간도 주어진다. 스포츠 분야를 다룬 장에서 머니볼이라는 영화와 현실을 연계한 예제가 등장하는데 이 장 하나만 잘 봐도 데이터 분석의 기초 감각을 다지는데 매우 유용하겠다는 생각이 든다. 머니볼

머니볼의 영화에서는 선수들과 경기에 대한 데이터 분석을 시도하며 리그의 성적은 장타율보다 오히려 출루율이 좋다는 인사이트를 얻은 후 적은 연봉의 선수로 리그의 우승을 일궈내는 스토리이다.

기존에는 야구 선수들의 연봉을 책정하는데 있어 장타율이 연봉에 끼치는 영향이 컸는데 이 분석을 통해 출루율이 연봉에 큰 영향을 끼치게 된다. 야구라는 누구나 즐기는 스포츠로 데이터 과학의 가치를 쉽게 이해할 수 있는 좋은 예시라는 생각이 들었다.

나아가 산업 전반에 걸친 최신 동향이 어떤 수준에 이르렀는지 다양한 스타트업의 사례나 최신기술이 소개 되어 현재 산업에서 데이터 과학이 어떤 수준으로 이루어지고 있는지 파악하는데 많은 도움이 된다.

그 중에서도 교육 분야에 대한 데이터 과학의 실무 적용 소개가 인상깊었는데 1대 1 수업이 상위 2%의 성취도를 가져온다는 벤저민 볼룸의 2시그마 문제와 같은 흥미로운 개념을 시작으로 뤼이드사의 산타토익의 경우 틀린 문제를 분석하여 해당 개념을 완벽히 숙지할 수 있는 문제를 추천하는 방식이 소개되고 있어 흥미로웠다.

또, 매스프레소의 콴다의 경우 사진을 찍어 올리면 5초 이내에 풀이법을 제시하고 있고 매쓰플랫의 경우 문제은행 추천시스템으로 선생님의 시간과 노력을 절감하고 있다는 사실을 알게 되었다.

지금까지 도메인 위주의 관점으로 넓게 데이터 과학을 살펴보았다면 한편으로는 기술적 계층 차원에서 깊이있게 데이터 과학의 인프라를 들여다 볼 수 있는 계기도 얻을 수 있다. 인프라

후반부에 접어들면 업종 전직을 위해 커리어에 대한 깊은 고민과 각 직장을 이직하며 느꼈던 회사마다 데이터 과학에 대해 받아들이는 차이를 알 수 있기에 이 분야의 진로를 확정짓기까지 유익한 조언을 받을 수 있다.

그 외에도 리뷰 제약상 모든 것을 소개할 수는 없지만 지식 증류, 모델 양자화, 이상치, 자주 사용하는 20%의 서비스에 대한 파레토 법칙, m-RNA, 뇌경색 판단에 활용되는 CHAD2 score 등 각 도메인마다 다뤄지는 흥미로운 개념들도 배울 수 있다.

결론적으로 이 분야로의 취업을 꿈꾸는 사람이라면 이 책이 많은 도움이 될 수 있을거라 생각한다.

부분적으로 데이터 과학이나 AI, 데이터 분석 등이 실무에서 어떻게 활용되는지 다룬 좋은 책들이 이미 많지만 산업 전반에 걸친 경험들이 집대성된 책은 찾기 어렵기 때문이다.







© 2019.04. by theorydb

Powered by theorydb