[리뷰] 다크데이터
in Review on Review, Book, 다크데이터, Ai, 데이터분석, 정의, 게이밍, 비대칭, 사기, 과학, 질문, 분류, 통계
더퀘스트
출판사의"다크데이터(데이비드 핸드 지음)"
를 읽고 작성한 리뷰입니다.
알 수 없는 정보, 아는데도 수집하지 못한 정보, 잘못 측정된 정보 등의 다크데이터
가 우리의 일상에 어떤 영향을 미쳤는지 사례별로 살펴보고 이러한 다크데이터의 함정에서 벗어나 되려 역으로 활용하는 방법까지 다룬 책이다.
술 취한 사람은 가로등 아래에서 열쇠를 찾는다.
술 취한 사람은 밤에 열쇠를 떨어뜨린 곳이 다른 곳일지라도 어둠 때문에 열쇠를 찾기 어렵기 때문에 빛이 존재하는 가로등에서 열쇠를 찾는다는 영국의 오래된 농담으로 책에서 말하고자하는 핵심 주제를 가장 쉽게 표현하자면 이 일화가 제격인 것 같다.
보이지 않는 때로는 존재하는지 조차 모르는 데이터 때문에 벌어지는 실수들은 우리를 마치 가로등 아래에서만 열쇠를 찾는 취객과도 같아보이게 만든다.
저자는 베스트셀러였던 전작 “신은 주사위 놀이를 하지 않는다”의 저자이자 왕립통계학회 회장을 역임한 데이비드 핸드로 세계적인 통계학자이다.
이 책은 데이터 분석 분야에서 흔히 이상치, 결측치라 부르는 다크데이터를 주제로 삼는다. 노장이자 거장의 관록에 걸맞게 통계학이나 기계학습 교과서에 어렵게 명시된 개념을 현실에서의 사례 위주
로 쉽게 풀어내고 있어 인상적이다.
1부에서는 다크데이터가 우리 일상에 미치는 영향을 살펴본다. 챌린저호 사고와 같이 인명을 앗아가는 거대한 사고에서 학점 인플레이션이 일어나는 원인의 분석에 이르기까지 일상의 흥미로운 이야기를 기본으로 통계학을 접목하고 있어 이해하기 쉬운 것이 특징이다.
이를 저자는 아래 그림과 같이 15개의 다크데이터 유형
으로 분류한다. 1 ~ 7장에서는 15개의 유형에 해당하는 각각의 사례가 소개된다.
2부에서는 한 걸음 더 나아가 다크데이터에 대비
하는 법과 더불어 오히려 이를 역이용하여 활용
하는 방법까지 알아본다.
위 그림은 자세히 보면 무응답이라고 기재된 결측치가 상당수 존재한다. 저자가 의도적으로 만든 데이터임을 밝혔지만 사실 결측치가 하나의 필드라도 존재하는 데이터를 제거하면 남는 데이터는 존재하지 않는다.
8장에서는 이러한 결측치를 분류하는 3가지 유형
을 살펴본다. 보이지 않는 데이터에 종속적인 결측치는 UDD, 보이는 데이터에 종속적인 결측치는 SDD, 데이터에 종속되지 않는 결측치는 NDD로 정의한다.
이를 체중개선 효과 실험 및 설문, 남편과 아내의 나이 조사라는 두가지 사례로 풀어 설명하는데 통계학 교과서의 이론만으로 이해하기 어려운 부분들을 잘 설명하고 있다. 이렇게 실레를 가지고 이론과 접목시킬 수 있는 능력은 저자와 같은 거장이 탁월한 설명력까지 갖췄을 때나 가능한 일이 아닌가 싶다.
개인적으로 가장 재미있게 읽은 부분은 7장이다. 일반인들의 일상의 실수는 그렇다 할지라도 과학의 꼭대기에 군림했던 거장들도 같은 실수를 범했다는 것은 꽤 흥미로운 일이었다. 덕분에 나는 1장의 구체적인 사례보다도 7장 거장 과학자들의 실수가 더욱 재미있었다.
AI 시대에 인간이 차별성을 가질 수 있는 유일한 길이 이 다크데이터의 영역이 아닐까 생각한다. 가진 데이터를 인간이 고안한 모델링 기법으로 예측, 추론하는 행위는 컴퓨터를 능가하기 어렵다.
대신 AI 역시 데이터가 주어지지 않으면 한계가 있다. 통계학의 거장인 저자는 컴퓨터의 마법과 같은 힘에 환상적이라고 표현하면서도 동시에 컴퓨터를 경계할 것을 나지막히 경고한다. 컴퓨터는 어디까지나 데이터와 사람 사이의 매개체일 뿐이다. 컴퓨터 공학 출신으로 통계학을 배우는 나로써는 늘 새겨야 할 부분이기도 하다.
AI라는 거대한 물결에 시대적으로 순응하는 과제외에도 스스로의 일생의 선택의 순간마다 현명한 판단을 하기 위해서라도 이 책은 인생에 한 번쯤은 반드시 읽어봐야 할 필독서라는 생각이 든다.
특히 책에 소개된 다크데이터가 우리에게 미치는 영향과 사례들을 하나씩 곱씹으며 자신의 오판을 벗어나기 위한 체크리스트를 만들어 간다면 더욱 의미있는 일이 될 것이라 생각한다.