[리뷰] 빅데이터분석기사 필기



와이즈인컴퍼니 출판사의 "빅데이터분석기사 필기(김원표 지음)"를 읽고 작성한 리뷰입니다.

표지


이미 시험을 합격하였지만 이와 무관하게 이 분야에 관심이 많고 저자마다 미묘한 관점의 차이를 비교하다보면 난해한 부분을 이해하는데 도움이 되기에 서평단에 지원하였다. 벌써 빅데이터 분석기사 책만 5권은 넘게 읽은 것 같다.

전체적인 평을 먼저 내리자면 실무적인 관점과 실전 능력을 향상시키는데 있어 좋은 책이라는 생각이 든다. 기사 책은 물론 데이터, AI 관련 책을 수 백 권 읽다보니 이제 조금은 보인다. 저자가 어떤 부분을 잘 알고 어떤 부분을 잘 모르는지..

혼동할 만한 요소임에도 설명이 유독 생략된 경우가 있는데 그런 부분은 저자도 확신하기 어렵거나 새롭게 내용을 구성하기엔 너무 많은 시간이 걸리기에 건너뛰었을 확률이 높다.

그런점에서 이 책은 여러모로 괜찮았다. 특히 알고리즘이나 통계 부분에 있어 대다수의 책들이 생략으로 설명을 피했던 부분들을 촘촘히 메꿔주는 부분이 마음에 들었다.

아래 그림과 같이 로지스틱 회귀에서 활용하는 오즈비에 대한 설명이 공식으로 자세하게 도출되는 것 부터 로그우도에 따른 적합도까지 상세한 설명을 담고 있다. 어떤 책들은 오즈비를 설명 조차 하지 않거나 설명을 해도 예제도 없어 처음 접하는 사람이 해메기 쉽상이다. 오즈비

아래 선형회귀 검정도 마찬가지이다. 기본적으로 검정은 귀무가설이 무엇인지 명확히 정리해야 이해가 빠른 법인데 암기식 외울거리만 진열한 책들이 많다. 그래서는 시험 출제 유형 변화에 따라 유연하게 적응하기 어려울 뿐더러 실무에는 아무런 도움도 되지 않는다. 나중에야 깨닫는다. `아 그때 외웠던 것이 이렇게 활용되는구나!’하고 말이다. 선형회귀

회귀모형이 유의하지 않은 것으로 귀무가설을 명확히 하고 통계량 별로 구체적으로 어떤 의미를 담고 있는지 잘 설명하고 있는데 실무에서 반드시 알아야 할 과정이다. 물론 시험의 출제 경향과 합격에만 목적을 둔다면 다소 깊이있는 설명이 될지도 모르겠다.

하지만 이제 겨우 한 번 시행된 시험에서 예측할만한 경향을 확정짓기는 어려우며 이 시험의 자격을 취득하려는 목적 또한 결국 실무에서 일을 할 만한 능력이 있음을 증빙하는 것이기에 이 정도 깊이는 언젠가 숙지해야 할 과정이라 생각한다.

또 하나 주목할만한 특징으로 예제가 상세하다는 점과 이해를 위한 예시로 Tabular 성격의 자료를 자주 활용한다는 점이다. 실무에서는 데이터를 직접 들여다보고 질감을 느끼는 과정이 중요하기 때문에 예제를 실전과 유사하게 테이블 형식으로 접하는 것은 실무에 도움이 될 뿐만 아니라 시험에서 요하는 수준의 지식에 대한 이해도를 높이는데 많은 도움이 된다.

예를 들면 아래 그림과 같이 결측치 유형을 글로만 읽는 것 보다 직접 샘플을 접하는 게 이해에 훨씬 도움이 된다. 그리고 설명을 읽으면 확실한 이해가 될 것이다. 반대로 설명을 먼저 읽고 상황을 상상하면 시간이 오래 걸릴뿐더러 한정된 설명으로 실전의 상황이 정확하게 복원될리가 없다. 결측치

마찬가지로 아래 카이제곱 검정의 예시 문제도 Tabular 유형의 예시 문제가 등장한다. 실전과 유사한 모양의 데이터로 기대도수를 어떻게 산출하는지 데이터의 좌표와 함께 파악하면 문제가 어떻게 변형된다 하더라고 적합도가 높아질 것이다. 카이제곱검정

2과목 통계 계산 문제가 앞으로의 난이도를 조절하는 중요한 키가 될 것이라는 생각이 들었다. 실제 카페 후기를 봤을 때에도 수험생 대부분이 2과목이 어려웠다는 평이 많았기 때문이다. 그런점에서 난이도 있는 통계 계산 문제에도 잘 적응할 수 있게 구성된 점도 장점이라 할 수 있다.

그 외에도 암기 위주의 1과목은 깔끔한 정리가 핵심인데 필요한 것만 명확하게 잘 정리하고 있다는 생각이 들었다. 이처럼 실전에도 도움이 될만한 확실한 이해를 위한 밀도 있는 설명이 이 책의 가장 큰 장점이라고 할 수 있겠다.


반면 단점도 있다. 내용 부분의 설명 대비 연습문제 해설은 너무 빈약하다. 해설이 공식 한 줄로 끝나거나 분포표가 주어지지 않은채로 검정량이 얼마라고 바로 제시하는 부분 등 비약된 해설이 많았다. 통계표 값을 활용했다던지 프로그램을 통해 산출했다던지 그 과정에 대한 언급이 보충되었으면 한다.

물론 이런 부분들은 1-2 문제를 확실히 이해하면 다음부터는 오히려 자세한 해설이 귀찮아 지기도 하기에 집필 관점에 따라 이해할 수 있는 부분이긴 하다.

다만 이 책은 데이터캠퍼스라는 강의에서 활용되는 교재인 것 같다. 직접 온라인 강의를 들은 것은 아니기에 잘은 모르겠지만 강의를 듣지 않으면 초보자의 경우 책 하나만으로 이해를 완성하긴 어려울 수도 있겠다는 생각이 든다. 물론 강의와 병행하면 최적으로 구성된 책일 것 같다.

더불어 2회 시험에 대한 기출복원이 없는 부분은 명백한 단점이라고 볼 수 있다. 어쨌든 실전 문제인데 경향을 파악하고 대비하는 데 있어 기출문제 만한 것은 없다.

대신 위안할 만한 부분은 각 과목별로 등장하는 연습문제들이 어느 정도 경향을 반영하고 있고(통계 계산 문제가 자주 등장하는 등) 기출 문제가 제법 보인다는 점이다. 그럼에도 완벽한 복원은 하지 못한 것으로 보이며 연습문제의 양이 적은 것도 아쉬운 부분이다.


정리하자면 실전에서도 도움이 될만한 난이도 있는 이론을 잘 설명하고 있는 점이 장점인 반면, 수험서로는 적중율이나 복원 측면에서 부족한 부분이 더러 발견된다고 평할 수 있겠다.

끝으로 서평 이벤트에 당첨되었다는 이유로 편파적으로 리뷰를 작성하지 않고자 매우 노력했음을 밝힌다. 철저히 이미 경험해봤던 수험생의 입장에서 합격을 목표로 분석했음을 알린다.

도서를 제공받아 작성된 글입니다.






© 2019.04. by theorydb

Powered by theorydb