[리뷰] 쉽게 시작하는 캐글 데이터 분석
in Review on Review, Book, 캐글, Kaggle, 데이터, 분석, 타이타닉, 주택가격예측, Gcp, 전업캐글러, 그랜드마스터, 이유한
길벗
출판사의"쉽게 시작하는 캐글 데이터 분석(시노다 히로유키 저/조태호 역)"
를 읽고 작성한 리뷰입니다.
캐글 마스터가 집필한 캐글과 데이터분석을 처음으로 도전하는 초보자에게 도움되는 책이다.
책의 눈에 띄는 장점은 두가지를 들 수 있다.
먼저 초보자가 캐글 플랫폼을 빠르게 활용할 수 있도록 그대로 따라하기만 하면 될 정도
로 버튼 하나까지 놓치지 않고 상세히 안내되고 있다는 점이 장점이다.
생각 외로 캐글 플랫폼을 처음 접하면 알아둬야 할 것이 많아 데이터 분석이라는 본 게임을 시작하기도 전에 입구에서 헤매이기 쉬운데 이 책이 최소한의 지식으로 진입장벽을 뛰어넘을 수 있도록 이정표를 제시해 줄 것이다.
초보자에게는 어려운 그레이디언트 부스팅 같은 모델도 직관적으로 잘 이해할 수 있도록 시각 도구를 적절히 잘 활용하고 있으며 필요 이상으로 상세한 설명을 한다는 느낌을 받을 정도로 논리적 비약 과정에서 이해하지 못하는 경우가 없도록 꼼꼼하게 저술했다는 생각이 든다.
또 하나는 캐글 실전 기초 예제 2가지를 매우 깊숙히 들여다 본다는 점이다. 일반적인 데이터 분석 도서의 초입에 자주 활용되는 캐글 예제인 타이타닉 생존자 예측(분류), 주택가격 예측(회귀)을 2가지를 중점적으로 다룬다.
이미 머신러닝 도서를 많이 접한 독자는 너무 쉬운 예제라 굳이 읽을 필요가 없다고 생각할지 모르지만 그렇지 않다. 생각보다 2가지 예제에 대해 깊숙히 다루고 있기 때문이다.
두 예제 모두 말미에 추가 분석
이라는 코너가 등장한다. 보통 다른 도서에서 비슷한 수준의 예제를 최소한의 전처리만 거친 후 기본적인 분류, 회귀를 시도하는 반면 본 도서에서는 통계 기법으로 자주 활용되는 클러스터 분석, PCA 분석 등을 활용하거나 실전에서 비롯된 저자의 인사이트
를 가미하여 추가적인 분석을 시도한다.
사실 누구에게나 공개된 확실한 법칙이나 모델들을 다루는 책들은 널려있지만 캐글 점수를 높이는 방법이나 몸값을 높여주는 자신만의 데이터 분석 필살 기법은 잘 공개를 하지 않는다. 자신의 몸값과 관련되어있거나 연구적 측면으로 항상 옳다고 검증받지 못했기 때문이다.
책에서 다루는 두 예제는 매우 기초적이고 쉬운 예제이지만 저자는 이 예제를 자신만의 통찰을 녹여 분석한다. 타이타닉의 경우도 사실 더 깊숙히 파고 들 가치가 있음에도 잘해야 교차검증이나 LightGBM 정도 적용해보고 더 이상의 고득점을 위한 시도는 하지 않고 다음 내용으로 넘어가는 편이다.
예를 들어 타이타닉에는 어떤 사람들이 타고 있었는지 티켓 등급별로 인원수나 남녀비율을 확인해보고 승선 항구별로 어떤 차이가 있는지 등 정확도 외의 심도 있는 추가 분석을 거친다. 이 과정에서 일반적으로 공개되지 않은 저자만의 노하우를 어깨너머 배우기 좋다.
또 Optuna와 같은 라이브러리를 이용하여 하이퍼파라미터 튜닝을 시도하는 등 하나의 예제를 할 수 있는 한 깊이 있게 분석한다.
머신러닝을 처음 학습하다보면 책에서 예제를 상당수 읽고 접했음에도 막상 새로운 문제가 주어지면 어디서부터 감을 잡아야 할지 막막한 경우가 많다.
예제 하나를 깊이있게 분석하고 확실히 내것으로 만들고 다른 이의 공개된 코드를 확실하게 분석하고 이해할 줄 알아야 새로운 문제에 적합할만한 능력을 갖출 수 있는데 본 도서의 그런 점이 매우 마음에 들었다.
또 다른 차별화된 부분은 부록이다. 부록에는 또 한명의 일본 캐글마스터의 인터뷰와 국내 캐글 코리아 커뮤니티 운영자이자 캐글 그랜드마스터로 유명한 이유한님의 인터뷰가 수록되어 있다.
일본 분의 경우 1년 반에 걸쳐 공무원을 때려치고 전업 캐글러
로 살았던 기록을 남기고 있는데 아주 흥미롭게 읽었다. 아내 분이 꽤 자상하게도 허락해주신 덕분에 전업 종사를 할 수 있었던 것인데 24시간 동안 캐글만하고 싶다는 생각을 가진 이가 나만은 아닐 것이기에 그의 경험이 독자들의 앞날을 향한 결정과 미래 예측에 꽤 도움이 될 것이다.
특히 일본 캐글마스터 분이 LANL 지진 예측 대회에서 3위로 입상한 비법이 공개되어 많은 도움을 받았다. 유관분야의 논문
을 찾아내고 그 논문과 캐글 실전 데이터를 맞춰나가는 노하우는 앞으로 큰 도움이 될 것 같다.
그 외 개발 환경을 구축히는 과정이 매우 상세하기에 데이터 분석이나 캐글에 관한 지식이 전무한 입문자도 쉽게 따라할 수 있을거라 생각하며 GCP와 같은 클라우드 환경에서 AI 애플리케이션을 구축하는 부분도 수록되어 있어 어떤 형태로든 무리없이 실습할 수 있도록 구성된 점이 장점이다.
결론적으로 캐글이나 데이터 분석 둘 중 어느 하나 이상 관심이 있는 독자가 처음 선택할만한 책으로 매우 좋은 선택지가 될 것 같다는 생각이 든다. 수박 겉핥기 수준이 아닌 쉬운 예제 2가지를 심도있게 분석하기에 앞으로 어떤 방향으로 추가 학습을 진행해야 할지 자연스럽게 힌트를 얻을 수 있을 것이다.