[리뷰] 3일 만에 끝내는 코딩 통계
in Review on Review, Book, 데이터과학자, 통계, 코딩, R, 경우의수, 확률, 순열, 조합, 조건부확률, 확률분포, 추정, 부트스트랩
사회평론아카데미
출판사의"3일 만에 끝내는 코딩 통계(박준석 저)"
를 읽고 작성한 리뷰입니다.
지금까지 만난 책 중 데이터 과학 입문을 위한 가장 쉽고 직관적인 책으로 통계학과 R의 기초를 다룬 책이다.
서문에서 우리나라의 교육 과정이 데이터 과학 업계의 현실과 얼마나 동떨어져 있는지 강조하며 현업에서 필요로 하는 데이터 과학자가 되기 위해 수학, 통계학, 컴퓨터를 어떤 관점으로 접근하여 학습하면 되는지 학습 방향을 정해주는 것이 이 책의 가장 큰 장점이라 할 수 있다.
조금 더 쉽게 표현하자면 아래 그림이 좋은 예시가 되겠다.
문제에서와 같이 10층의 정육면체 개수를 수학 공식을 도출하여 풀 수도 있겠지만 단순 무식하게 모두 그려 보는 것도 분명 일리있는 방법이다. 결국 이 학생은 정답을 맞췄기 때문이다. 보상 대비 시간과 노동력 측면에서 비효율적인 것이 문제이지 이 접근법이 잘못된 것이 아니다.
학창시절에 이런 풀이 방식을 보면 생각도 하지 않고 잘못된 방식이다라는 선입견이 강했는데 진리가 아닌 이상 세상사는 모든 일에 영원한 옳고 그름은 없는 듯 하다. 저마다의 장단점이 있고 의미가 있다.
컴퓨팅 파워가 비약적으로 발전하며 이른바 빅데이터와 AI의 시대가 왔다. 일상의 데이터들이 대량으로 축적 가능해진 것은 물론 이를 처리하는 연산도 비약적으로 빠른 시대가 왔기에 이 무식한 풀이 방법이 통하는 시대가 온 것이다.
저자가 책에 표현한 바와 같이 통계학은 현대 과학의 언어라고 해도 과언이 아니다. AI의 주류인 통계학과 컴퓨터 과학 및 공학은 말할 것도 없고 사회과학, 의학, 경제학 등의 다양한 분야에서 최신 지식에 해당하는 분야별 논문을 보자. p-value나 통계 가설 혹은 모형을 안쓰는 논문이 과연 얼마나 될까?
수학이 모든 과학의 언어가 된 것 처럼 통계학도 모든 과학의 언어가 되어왔고 이제 컴퓨터 언어도 끼어들고 있다. 그래서 인터넷에 떠돌아다니는 어떤 벤다이어 그램에서 볼 수 있듯 데이터 과학은 직관적으로 통계 + 컴퓨터 + 도메인
으로 여겨지곤 한다.
어쩄든 이런 대격변의 AI시대에 우리가 학교에서 배우는 확률과 통계라는 과목은 허술하기 짝이없다. 주사위 확률로 시작해서 순열과 조합을 배우는데 도통 쓸모가 없다. 아니 사실 쓸모가 넘치는데 현실과 연결시켜주는 방법이 쏙 빠져있다.
한 술 더 떠 계산기로 양성한다. 한 이론의 기저에 숨은 증명 등의 과정이 포함되어 있기에 이 조차 무시할 순 없지만 효용의 범위가 극히 제한적이다. 대부분의 학생은 직장인이 되지 수학자나 연구자의 길을 택하진 않기 떄문이다.
학교에서 애써 배워서 사회에서 바보가 되는 것은 수학 과목만의 문제는 아니지만 교육부는 시대의 변화에 순응할 책임이 있다고 생각한다.
이 책은 이러한 교육의 문제점을 몇마디 말 없이 좋은 예제와 설명을 통해 통쾌하게 행동으로 보여준다. 위 수리 영역 문제를 시작으로 R 언어의 설치부터 기초까지 친절하게 알려준다.
그리고 R 프로그래밍 언어가 왜 중요한지 본격적으로 알려준다. 몬티홀 문제
에 몬테카를로 시뮬레이션을 적용한 부분을 예시로 들겠다. 몬티홀 문제는 꽤 유명한 문제인데 많은 생각을 하게 만드는 문제이다.
“3개의 문이 있다. 하나의 문 뒤에 자동차가 있고 다른 2개의 문 뒤는 꽝이다. 당신이 하나의 문을 선택하여 사회자가 열었을 때 자동차가 있다면 이를 가질 수 있다. 단, 당신이 문을 선택했을때 사회자는 남은 2개의 문 중에서 꽝인 하나의 문을 연다. 당신에게는 최초로 선택했던 문을 남은 1개의 문으로 다시 선택할 수 있는 기회가 주어진다. 당신은 문을 바꿀 것인가? 아니면 최초의 선택 그대로 가져갈 것인가?
이는 사람을 꽤 헷갈리게 하는 문제이다. 직감으로 확률과 관련된 문제임을 알 순 있지만 대부분의 일반인이 어차피 1/3인데 똑같은거 아니냐는 말을 하곤 한다. 원한다면 조금 더 깊이 생각해보자.
답은 문을 바꾸는 쪽이 유리하다. 바꾸면 확률은 2/3이 되고 안바꾸면 1/3 그대로 보전된다.
일찍이 내가 처음 이 문제를 접했을 때 오랜 생각 끝에 맞추며 생각한 직관은 이렇다. 최초에 고른 문은 1/3이고, 그 문을 제외한 나머지 2개를 고르면 2/3이 된다. 그런데 2개 중 1개는 사회자가 꽝을 제거해주므로 선택한 문이 아닌 남은 문 쪽의 확률이 2/3인 것이다.
어쩄든 이 책에도 이 흥미로운 문제가 등장하는 데 이를 수학적으로 설명하는 방식과 위에서 말한 무식한 대입 방법 두가지 방법으로 풀이를 진행한다.
이 무식한 대입 방법을 brute force 라고 하는데 컴퓨터의 힘으로 무식하게 푸는 방법을 말하여 이는 이미 수 십 년 전부터 컴퓨터를 활용한 방법으로 몬테카를로 시뮬레이션
으로 흔히 불리고 있다.
즉, 아래 그림과 같이 R 언어를 이용하여 직접 코딩하여 몬테카를로 시뮬레이션을 수행해 보는 것이다.
이 과정을 통해 내가 느낀 장점 몇가지를 요약해본다.
- 첫쨰, 직접 겪으며 직관적으로 이해할 수 있고 연역적 도출 과정이 귀납적으로 증명되는 것을 흥미롭게 이해할 수 있다.
- 둘쨰, 프로그래밍 구현 스킬이 업그레이드되며 구현 과정에서 아는 지식에 대한 정확한 이해가 이루어진다.
- 셋쨰, 위 두 과정의 장점을 거치고 나면 책에서 언어나 수식으로 말하는 전달력의 미묘한 한계로 인해 정확한 이해를 방해하는 무언가를 찾아낼 수 있으며 이 과정은 향후 데이터 과학 분야에 길이 쓰일 내공이 되어준다.
- 넷째, 법칙을 구현하는 과정에서 응용력이 생긴다. 진정한 내 것이 되었기에 일상의 사소한 문제에서부터 직장의 고난이도 업무까지 활용할 수 있는 대안 방법을 갖추게 되는 셈이다.
- 다섯째, 내가 제대로 이해했는지 측정할 수 있는 방법이 된다. 선생님이 두명이 되는 셈이다. 책으로 한 번 배우고 프로그래밍으로 한 번 더 확실하게 배우는 것이다.
여섯째, 계산기에서 해방된다. 정답을 내고 말고의 문제는 정말 중요한 문제가 아니다. 뛰어난 영재가 사회에 나와 그저 그렇게 살다 죽는 것에는 이런 프레임의 제약이 있다.
제로투원이라는 책에서 피터틸이 말했다. 학교에서 정해준 일정한 범위내의 문제를 잘 풀어야 고득점을 받지 학교에서 알려준 것 보다 뛰어난 답만 내면 0점 맞는다고.
우리는 수십년 간의 교육 덕태에 스스로 무식한 프레임에 갇히게 하여 뛰어난 계산기가 되려는 본능이 있다. 이를 깨뜨리는데 이 책은 큰 도움을 준다.
이 중에서도 여섯번째 장점이 가장 강조하고 싶은 부분이다. 이 책에서는 컴퓨터를 활용하여 몬테카를로 시뮬레이션과 부트스트랩
을 직접 구현해 본다. 이 두 과정만 잘 따라올 수 있어도 앞으로의 삶 전반이 바뀔 것이다.
책은 R 프로그래밍을 구현하며 통계학 입문 내용에 해당하는 기초를 설명한다. 확률, 순열, 조합, 조건부확률, 확률분포, 추정, 부트스트랩 등을 다룬다.
책의 난이도는 고등학생을 타킷 독자로 하였기에 매우 쉬운편이다. 하지만 이런 기초적인 내용조차도 관련 전공 학과 학생 조차도 명확하고 정확하게 설명할 줄 아는 사람은 매우 드물다. 심지어 명문대학에 가방끈이 긴 지인도 t-분포에 관해 물어보면 이렇게 대답한다.
“조금 이해해보니 그럴사해서 일단 대충 넘어가고 t-분포 예제 문제 몇가지를 풀 수 있는 정도의 실력을 키우고 맞출 줄 알게 되었으니 공식 정도나 외우고 넘어갔다. 그리고 현업에서 이를 활용할 부분이 있으면 처음 고민한 문제를 잘 적용해 본뒤 나중에 숫자 바뀌면 대입이나 해보면 큰 문제 없더라.”
그런데 이 책은 t-분포를 확실하게 위해 보다 쉬운 정규분포의 신뢰구간을 이용하여 R 프로그래밍으로 몬테카를로 시뮬레이션을 거친다. 이해가 안 될래야 안 될 수가 없다. 중요한 것은 책에 등장하는 모든 예제가 이런 방식의 교육 체계를 따르기에 위에 언급한 여섯 가지의 장점을 얻을 수 있다.
각 챕터의 말미에는 통계학의 역사적으로 유명했던 역설
몇가지가 소개된다. 그 자체로도 매우 재미있을 뿐더러 스스로의 통계학 관련 수준이 얼마나 되는지 측정해 볼 수 있는 좋은 지표가 된다. 이 역설들을 명쾌히 설명할 수준이 되어야 기초가 튼튼하다고 할 수 있지 않을까?
다만 한가지 우려되는 것은 이 가장 직관적이고 쉬운 통계학 입문서가 첫인상 때문에 독자들의 관심사에서 멀어지는 것이다.
나 역시 “그림이 없다. 컬러가 아니다. 전공 교과서 같은 형식을 갖추고 있다. 출판사 이름이 왠지 대학 전공 교과서를 출판하는 회사 같은 느낌이 난다. 제목이 가벼워 보인다.”의 느낌이 들었기 때문이다.
적어도 본 리뷰를 접하는 독자분들은 부지 진실이 아닌 것에 왜곡되지 마시고 겉으로 보이는 것보다 중요한 내용에 집중하길 바란다.
나는 지금까지 AI 유관 분야의 도서를 500권 이상은 읽었고 100권 이상 리뷰를 작성하였는데 단언컨데 이 책이 가장 쉽고 직관적인 데이터 과학 입문서
임을 강조하고 싶다. 빨리 다음 편이 나오길 갈망하면서…
YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.