[리뷰] 2021 빅데이터분석기사 실기
in Review on Review, Book, 빅데이터분석기사, 데이터캠퍼스, 와이즈인컴퍼니, 실기, 수험서, Dl, Ml, 통계, Python, 데이터, 탐색, Eda, 정제, 알고리즘
와이즈인컴퍼니
출판사의"2021 빅데이터분석기사 실기(김원표 저)"
를 읽고 작성한 리뷰입니다.
빅데이터분석기사 실기 대비를 위한 수험서로 실기 분야를 다룬 최초이자 현 시점 유일한 서적이다.
본 출판사에서 발간된 필기 수험서를 보며 상당히 실무 중심으로 구성되어 있어 인상적이었고 오히려 실기 책을 출간하는게 더 좋겠다는 생각이 들 정도였다.
역시나 필기 서적이 출간된지 얼마되지 않아 실기 서적이 등장하여 반가워 서평단에 지원하게 되었다. 비록 서적을 제공받은 서평이지만 편파적이지 않도록 철저하게 수험생 입장에서 분석했음을 먼저 밝히는 바이다.
실기 유형의 경우 이미 2회 실기 시험이 치뤄져 데이터 전문가 포럼 네이버 카페에 후기들도 올라왔고 데이터진흥원에도 공개된 문제가 있어 공개된 자료에 얼마나 적합한지가 수험서의 핵심이라 볼 수 있을 것이다.
최초의 실기 수험서라는 점과 데이터진흥원에 공개된 문제 및 기출 문제에 꽤 적합하다는 점에서 합격점을 주고 싶다.
먼저 장점부터 살펴보자.
기출 및 실전에 적합하다.
데이터 분석 자체와 무관하게 시험에는 제약사항이 따른다. 본 도서는 제약사항을 정확히 인지하고 있고 그에 따른 전략을 안내하고 있어 효율적으로 접근한다고 볼 수 있다.첫번째 전략으로 파일 I/O에서 시작하여 평가에 이르기까지 기본 베이스 라인의 암기를 바탕으로 변형, 조작을 수행할 수 있어야 함을 강조한다. 시험은 오픈북이 아니기 때문에 베이스라인의 코드를 잘 암기하는 것은 매우 중요하다. 인터넷의 검색이 허용되지 않기 때문에 자동완성, 복붙에 길들여진 실무자라면
암기
를 신경쓸 필요가 있다.두번째로 코드 실행시간이
1분
으로 제한된 점을 강조한다. 이 역시 매우 중요한 부분이다. 나는 개인적으로 배깅, 부스팅 방식을 활용하지 말라는 말과 동일하게 판단했다.실제 후기들을 살펴봐도 캐글 등의 경진대회에서 좋은 성능을 내는 XGBoost, LightGBM, CatBoost 등의 앙상블 계열을 활용하면 시간 부족에 빠진다는 내용이 많다. 즉, 랜덤포레스트 혹은 회귀나 분류의 기본 알고리즘만으로도 충분히 합격할 수 있다는 의미이다. 또, 이는 주어지는
자료량
이 적다는 것을 의미한다.다만 여담으로 명색이 빅데이터 분석기사 시험인데 소량의 데이터만 다룬다는 것은 참 아이러니하다. 빅데이터가 각광을 받은 이유 중의 하나 역시 GPU와 H/W의 폭발적 성능 개선 덕분인데 1분 안에 동작하는 코드를 작성하라는 점도 시험 시행 취지에 어울리지 않는다.
적어도 데이터 처리 프로세스 상 파이프라인 정도는 구성하고 할 수 있다면 서빙 및 배포를 통한 제품화 능력까지 측정해야 하는 것이 아닌가 의문이 드는데 데이터진흥원의 시험이 마음에 들지 않는 것은 오늘 내일 문제가 아니기에 이쯤에서 접어둔다.
아무튼 알고리즘의 기초에 충실하고 빅데이터 분석이 아닌 데이터 분석에 초점을 맞추라고 안내되어 있기에 공부할 범위를 상당히 줄일 수 있다는 전략을 강조하고 있어 마음에 들었다.
세번째로 제공되는
라이브러리의 목록
이 한정되어 있음을 강조한다. 내 개인적인 판단으로는 Pandas만 빠삭하게 익히고 나머지는 기초적이고 자주 활용되는 머신러닝 알고리즘 패턴만 잘 익혀도 합격권에 들어갈 수 있지 않을까 싶다.웹 크롤링을 위한 beautifulsoap이나 selenium로 목록에 제공되지만 인터넷 접속을 허용하지 않는 환경에서 진흥원의 행정력으로 얼마나 매끄러운 크롤링 실습문제가 진행될런지 의심되기에 먼 훗날에 고려할 문제인 것 같다.
아무튼 현 시험의 한계와 집중해야 할 포인트를 정확하게 파악하고 있어 효율적으로 학습할 수 있게 구성된 점은 이 책의 큰 장점이다.
저자 관점으로
재구성
하여 지면의 중복을 피하고 컴팩트하게 정리되어 효율적이다.
이 부분도 칭찬하고 싶은 요소 중 하나이다. 내가 교재를 만든다고 가정해도 성의 없이 대충 만든다면 인터넷에 돌아다니는 예제들을 알고리즘 유형별로 하나씩 나열하지 않았을까 싶다.하지만 그런 무성의한 교재로 실습을 학습한다면 상당히 많은 시간이 필요함은 물론 입체적으로 구성되어 있지 않아 실전의 문제를 해결하기에 머리속의 필요한 부분을 끄집어 내기 어려울 것이다.
그런점에서 도서의 구성이 마음에 들었다. 대강의 구성을 살펴보면 먼저 1장에서 실습환경 설정 및 Python에서 반드시 알아둬야 할 필수 문법을 다루고, 2부에서 전처리를 다룬다.
특히 2부 전처리의 경우 매번 활용되는 기법이기에 이 부분만 따로 빼낸 것은 효율적이라는 생각이 든다. 특히 작업형 1유형의 문제는 Pandas를 능숙하게 다루는지 파악하는 간단한 문제들이 나오는데 이 부분을 집중적으로 준비하기에도 효율적이라는 생각이 들었다. 즉, 작업형 1유형을 준비하기 위해 2부 혹은 조금 더 나아가 2~3부를 잘 숙지한다면 무리가 없을 것 같다.
3부에서 전반적인 분석 프로세스에 맞게 단계별 예시를 들고 있고, 4부는 머신러닝에서 자주 활용되는 유형별 알고리즘을 정리하고 있다.
4부는 특히 자칫 거대한 양에 압도 당할 수 있는 부분이기에 알고리즘의 핵심만 잘 발췌하고 있어 역시 효율적인 구성이라는 생각이 들었다.
또, 단답형 문제의 경우 실무적인 지식이 필요한 편인데 4부의 알고리즘이 하나씩 소개될때마다 짧은 이론을 요약하고 있어 단답형 대비에도 도움되고 실습에 대한 사전지식을 확보하는 단계로도 도움이 되어 일거 양득을 얻을 수 있다.
전반적으로 입체적으로 재구성되어 있는 덕분에 봐야 할 분량이 굉장히 줄어들게 되었고 시간도 효율적으로 사용할 수 있다는 점이 장점이라 평할 수 있겠다.
3장의
맛보기
문제가 백미이다.
이 책에서 가장 중요하게 봐야할 부분은 3장의 맛보기 2문제가 아닐까 싶다. 공개된 문제나 2회 기출을 보더라도 베이스라인의 핵심이 이 2개의 맛보기 문제로 대부분 커버가 가능하게 준비되어있다.2회차에 분류가 나왔으니 3회차에는 회귀 문제가 등장할 확률이 강할 것으로 보이는데 맛보기 유형은 회귀, 분류를 모두 대비하고 있기에 적어도 다음 회차 문제까지 이 교재로 충분한 커버가 가능할 것 같다는 생각이 든다.
시간이 부족한 독자는 3장의 먼저 맛보기 유형부터 잘 숙지하고, 4장의 기초적이고 필수적인 알고리즘을 먼저 숙지하는 순서로 학습할 것을 권유하고 싶다.
다음으로 단점을 살펴보려 한다.
goorm IDE 분석 부재
데이터진흥원이 왜 goorm 플랫폼을 활용하는지는 의문이지만 이 플랫폼은 일반적인 프로그래밍 개발에는 적합할지 몰라도 데이터 분석 환경에는 너무 불편한 점이 많다.뒤에서도 언급하겠지만 시각화 기능을 활용할 수 없다는 점은 정말 최악이다. matplotlib, seaborn 등의 라이브러리를 활용할 수 없다. EDA를 통한 직관도 데이터 분석가로써 매우 중요한 역량이라 생각하는데 이를 평가하지 않는 일방적인 시험이 무슨 의미가 있나 싶다.
또 오픈북이 아니기에 Pandas documentation을 활용할 수 없다. 암기에 의존하거나 help() 명령어로 일일이 API를 검색하는 방식은 구 시대적 발상이다.
어쨌든 본 도서는 그런 구름 플랫폼의 제약사항과 이에 대한 대비책을 제시하고 있지는 않다. 크게 중요한 부분은 아니지만 첫 출간한 실기 서적이기에 아쉬움은 남는다.
시각화 라이브러리
책 곳곳에 matplotlib을 활용한 소스코드들이 등장한다. 위에서 언급했듯 구름 플랫폼은 시각화를 제공하지 않는다. 즉, 적어도 현 시점에는 시각화 부분은 공부하지 않는 것이 학습 시간 효율성 측면에 유리하다 말하고 싶다.저자도 아마 고민이 많았을 것이다. 시간이 흐르며 시각화 기능이 갑자기 제공될 수도 있고 시각화가 EDA 단계에서 꽤 중요한 부분이기에 시험과 실무 사이에서 타협하기 위해 노력하지 않았을까 싶다. 어쨌든 시각화가 포함된 것에 개인적으로는 만족하여 이를 단점이라고 말하고 싶진 않다. 하지만 철저히 수험생 관점으로 효율적인 학습을 원한다면 고려할 문제이다.
성능개선, 튜닝
3장의 머신러닝 프로세스 후반부에 평가 및 튜닝 방법을 다루고 있으나 기본적인 내용만 다루고 있다. AUC, ROC 등 기본적인 부분만 잘 측정해도 개선에 문제될 것은 없으나 보다 저자만의 차별화된 내공이 등장하기를 기대했는데 약간 빈약한 느낌이 들었다. 이는 단점이라기 보다는 개인적 바램임을 밝혀둔다.
동영상 강의도 제공되고 있어 초보자인데 빠른 시간내에 자격증을 취득하고 싶은 독자라면 활용하면 좋을 것이다. 다만 유료인듯 하다.
참고로 실습파일은 교재 내에 별도의 다운로드 받는 설명이 없어 당황할 수 있는데 책의 맨 앞페이지 OR코드를 통해 다운로드 받을 수 있다.
총평을 내리자면 처음 등장한 실기 책 치고는 완성도가 높은 책이라 평하고 싶으며, 제한 시간내에 효과적으로 시험에 대비할 수 있도록 잘 구성된 책이라는 생긱이 들어 추천하고 싶다.
도서를 제공받아 작성된 글입니다.