[리뷰] 59가지 통계학 궁금증 완전 정복
in Review on Review, Book, 통계학, Ai, 머신러닝, 통계, 확률, 추론, 기술, 검정, 회귀, 귀무가설, 표본, T검정, 분산분석, 우도, 릿지, 라쏘, Roc

길벗
출판사의"59가지 통계학 궁금증 완전 정복(황성원 저)"
를 읽고 작성한 리뷰입니다.
난이도 높은
통계학의 핵심 개념
을 직관적으로 쉽게 기술한 책. 저자의 내공과 실전 경험에 기반한 인사이트가 담겨있다.
AI 기술의 대중화로 인해 또 이런 멋진 책을 읽을 수 있게되어 기쁘다. 특히, 통계학에 통달한 분들도 좀처럼 쉽게 전달하지 못하는 난해한 주제들을 돌직구로 전달하는
저자의 카리스마에 경의를 표하고 싶다.
통계를 공부하다보면 왠만큼 머리 좋은 사람도 막히는 첫 진입 장벽들이 있다. p-value, likelihood, 최대우도추정, 재현율
등이 그것인데 설사 본인은 이해를 한다고 해도 타인에게 전달할 수 있는 능력까지
갖춘 전문가는 좀처럼 찾기 힘들다.
저자의 학력, 해외 학위 경험이나 실무 경험
등이 돋보이는 책이었는데 내가 알기로는 이 삼박자가 갖춰지지 않으면 통계의 난해한 개념을 잘 전달할 수 없다고 생각한다.
우선 통계의 용어
자체가 어렵다. 난 아직도 likelihood를 왜 우도로 번역한건지 이해가 가질 않는다. AI 커뮤니티에서도 대부분의 사람들이 지적하는 부분이기도 하다.
뿐만이랴. 본문에서도 등장하지만 번역서마다 정규화, 정칙화, 규제화, 표준화 들이 혼동되어 사용되고 있고 또 벡터, 통계, 실험 등 각 맥락마다 쓰이는 의미가 약간씩 다른데
그 맥락을 전달하는 책도 드물다.
서양권에서 태어난 용어나 개념들이 어설픈 중국의 번역을 거치고 그 용어를 우리나라가 차용하는 단계에서 원래 의미를 직관적으로 전달하지 못하는 용어들이 많다.
이는 통계의 본 고장인 미국이나 서양권의 원어를 그대로 흡수한 학자가 아니면 한국어로의 그 의미나 개념을 제대로 전달하기 어려운 부분이다. 또한, 실무 경험과 연구 양쪽의 밸런스를 모두 갖춰야 편향되지 않게 제대로 전달할 수 있는데 챕터16만 읽어도 이러한 저자의 내공이 돋보인다.
표지나 분량을 보면 통계학의 교양서로 착각하기 쉽지만 이 책은 전문서적이다. 아니, 정확히는 다루는 내용은 전문서인데 전달력은 교양서
라고 할 수 있으니 이 부분이 이 책만이 가지는 독특한 차별화된 장점이다.
이 책에 담긴 내용은 통계학의 핵심이며 AI까지 연결되는 매우 중요한 개념이다. 보통 교양서라하면 p-vlaue에 대한 설명을 건너뛴다든지 likelihood와 같은 용어는 잘 전달하지 않는데 통계를 어려워서 포기하게 되는 난해한 개념들을 어떻게든 수식에 값을 넣어 산수처럼 풀어보고, 직관적인 그림으로 개념 이해를 돕고, 최대한 우리말로 풀어써 상식 수준으로 이해하게끔 도와준다.
예를 들면 아래와 같이 p-value를 직접 계산해보면서 감을 잡는 부분
이 좋은 예시이다. p-value는 통계 패키지나 R과 같은 언어를 사용하면 적분 개념을 이용하여 쉽게 자동화 계산해주기에 편리하기도 하지만 그만큼 입문자에게는 손으로 계산해 볼 수 있는 기회를 빼았는 단점도 있다.
동전의 앞면이 나올 확률이라는 단순한 문제를 바탕으로 이항분포의 확률변수에 따른 확률값을 토대로 동전을 10번 던져 8번이 앞면이 나올 확률을 토대로 통상의 p-value 0.5와 비교하다보면 귀무가설이 무엇인지 그리고 작은 것을 왜 좋다고 표현하는지 등의 개념을 확실하게 습득할 수 있다.
심슨의 역설
과 같이 중요한 개념도 놓치지 않고 다룬다. 아래 그림과 같이 전체 관점에서는 우하향하는 선형관계를 자세히 들여다보면 남학생, 여학생 그룹별로 우상향하는 관계를 파악할 수 있다.
물론 이와 같은 현상은 샘플데이터가 적었을 때 의미있는 이슈가 되겠고 요즘과 같이 빅데이터와 AI 기반으로 모집단 자체를 학습할 수 있는 컴퓨팅 파워를 보유한 시점에는 쉽게 파악해 낼 수 있는 부분이다.
그런점에서도 이 책의 장점이 돋보이는데 전통적으로 통계학에서 중요시 여겼던 귀무가설 검정이 쇠퇴하고 최대우도추정이 힘을 얻게 된 배경도 소개하고 있어 배우는 개념마다 장단점 혹은 트렌드
를 쉽게 파악할 수 있다.
책의 전달력을 높이는 요소로 저자의 내공과 전달력이 가장 중요하겠지만 시각화
도 이에 못지 않은 장치이다. 그림과 같이 라쏘나 릿지의 개념을 파악하는데 노름의 다양한 형태를 시각적으로 전달하고 시각화를 기반으로 최적의 해를 구하는 개념 설명은 그 어떤 책보다 쉽게 풀이한 것 같다.
분산안정화 또한 실험을 진행하다보면 측정 오류 등의 이슈로 흔히 발행하는 문제인데, 직관적으로 분산이 평균에 의존하지 않게 하는 개념이라는 점과 로그 변환 수행등의 솔루션을 제시하고 있다.
통계를 익히는 또 하나의 고비 재현율과 관련해서도 상당 부분을 할애해 직관적으로 쉽게 설명하고 있어 인상적이었다. ROC 곡선을 x축, y축 관점으로 해부하면서 각각의 의미를 파악하고 아래 그림과 같이 이진 분류의 케이스별 성능 평가 방법을 정리하는 일련의 과정
이 돋보인다.
정리하자면 그동안 이해하기 어려웠던 개념들을 이해하며 아 이게 그 의미였구나 탄식하며 읽는 내내 재미를 느꼈다. 내가 확실하게 이해하고 있다고 자부하는 부분까지 또 다른 각도로 개념마다의 진의를 파악할 수 있는 기회를 얻을 수 있었다. 마치 후배를 생각하는 멋진 선배님의 무공 비급
을 얻은 느낌이라고나 할까?
얼마전 머신 러닝 마스터 클래스라는 책을 읽고 리뷰했는데 그에 준하는 멋진 책이 등장해서 정말 기분이 좋다.
AI의 코어를 담당하는 통계의 진의를 이렇게 쉽고 재미있게 익힐 수 있는 책들이 계속 쏟아졌으면 좋겠다. 그간의 시행착오를 이토록 쉽고 편하게 전달해주는 선배 저자분들께 감사를 표하며 리뷰를 마친다.