[리뷰] 데이터로 전문가처럼 말하기



한빛미디어 출판사의 "데이터로 전문가처럼 말하기(칼 올친 저/이한호 역)"를 읽고 작성한 리뷰입니다.

표지


시각화와 의사소통을 중심으로 데이터의 표현과 커뮤니케이션 방법을 다룬 책이다.

책은 크게 세부분으로 나뉜다. 파트1에서는 소통 자체와 그 주제가 되는 데이터의 특성에 관해 다룬다.

소통의 주체는 물론 주요 이슈가 될만한 시장의 기대치, 경쟁사, 평가 외에도 감각, 단기, 장기 기억에 이르기까지 다양한 요소가 고려되어야 성공적인 데이터 커뮤니케이션이 가능해질 것이다.

그 중에서도 특히 주목할 만한 것은 사전주의 속성이라는 개념이었다.

사전주의 속성이란 쉽게 말해 의식적 노력없이도 직관적으로 시각적 특징이나 패턴을 인식할 수 있는 능력을 도출시키는 속성이다. 아래 그림과 같이 길이, 너비, 크기와 같은 속성에서 방향이나 색상, 그룹화와 같은 요소들이 해당된다. 사전주의속성

이 속성 덕분에 큰 노력을 들이지 않고도 복잡하고 거대한 데이터를 직관적으로 알아볼 수 있는 여지가 생긴 셈이며 이는 시각화가 데이터 소통에 있어 얼마나 중요한 요소인지를 설명하는 근거가 된다.

책에서는 데이터가 가진 속성에 대해서도 면밀히 뜯어본다. 제대로된 시각화를 위해서는 데이터가 가진 숨은 속성을 제대로 이해하려는 능력이 중요하다.

대부분 개념적으로 이해하는 데이터를 형상화하라면 도표를 떠올릴 것이다. 열, 행, 헤더, 속성이라는 표를 구성하는 기본적인 요소 외에도 데이터에는 고려해야 할 사항이 많다.

범주형이나 숫자형이라는 개념도 더 깊이 들어가면 명목, 서열, 등간, 비율 척도로 나뉠 수 있고 더 나아가면 각 척도별 적용할 수 있는 사칙연산의 종류도 다르다.

특히 척도로써의 개념을 가지지 않은 일반적 문자의 경우 대소문자, 문자열의 분리, 오타와 같은 변수가 있으며 그 외에도 날짜나 불리언과 같은 특성도 있다. 이러한 특성은 히스토그램, 히트맵 등 다양한 시각화 유형별로 표현하는데 한계를 갖게 만드는 요소이다.

그 외에도 데이터는 센서, 스마트기기, 운영 시스템 등 다양한 곳에서 생산되며 엑셀이나 DB와 같은 다양한 형태로 저장되고 조인과 같은 가공이나 전처리가 가능하다는 특성이 있다.

시각화는 이러한 데이터와 커뮤니케이션의 특성에 종속되기에 시각화나 표현에 앞서 기본기를 다지는 구성이 본 책이 가지는 장점 중 하나라는 생각이 들었다.

파트2는 본격적으로 데이터를 시각화하는 방법과 더불어 시각화를 완성시키는 맥락 그리고 나아가 최종 소통에 이르기까지 일련의 과정과 방법을 살펴본다.

눈으로 직접보며 고민해 볼 수 있어 가장 읽기에 흥미로운 파트이자 투자 시간대비 배울 것이 많은 부분이기도 하다.

인상적인 몇가지 조언들을 소개해보자면 여러 범주가 사용된 막대차트에서 범주의 순서를 변경하여 표현력을 높이는 예제가 좋은 예시가 될 것이다. 범주순서

얼핏 데이터를 표현하는데 각 범주의 순서가 있다는 것은 알지만 나아가 순서가 중요하다는 것을 알지라도 막상 데이터를 기반으로 무에서 유로 시각화를 진행하다보면 생각의 프레임에 갇혀 더 좋은 형태의 표현 방법을 뚫고 나오지 못한 채 우물안에 갇혀 버리는 경우가 허다하다.

위의 예시가 그런 흔한 경우로 자전거의 종류가 앞으로 나왔을 뿐인데 확연히 직관적으로 빠르게 이해할 수 있게 되었음은 물론 런던과 요크 매장의 확연한 대비가 돋보인다.

프로그래밍이나 수학 계산과 같은 속성과는 달리 왕도가 정해져 있지 않고 수많은 경우의 수가 존재하는 표현의 바다에서 어떻게 나와 청중 사이에 가장 빠르고 직관적인 길을 뚫어낼 수 있을까? 이는 분명 쉽게 익히기 어려운 일이고 감과 창의성의 영역이라는 생각이 든다.

이 경우의 수라는 바다에서 모든 길을 완벽하게 찾아낼 순 없겠지만 그래도 그 경우의 수를 최대한 좁혀주는 몇가지 기술적인 힌트가 있는데 이 책에서 그런 부분이 상당량 소개되고 있어 만족스러웠다.

앞서 언급한 사전주의 속성에 기반하여 아래 그림과 같이 색상을 과도하게 사용하는 것이 얼마나 부질없는 짓인지 이해할 필요가 있다. 과도한색상

흔히 화려해보이거나 있어보이는 효과 때문에 색상을 선택하는 경우가 적지 않은데 오히려 그림5-5와 같이 색이 제거된 막대 차트가 확연히 시각자료가 말하고자 하는 것이 무엇인지를 보여준다.

이렇듯 다양한 시각화 도구에 있어 데이터 특성과 더불어 어떤 부분을 유의해야 할지 이 책을 통해 쉽게 이해할 수 있다.

조금 더 나아가면 흔히 착안하기 어려운 고급 시각화 기법도 배울 수 있다. 아래의 예시가 그러한 경우일텐데 고정된 X, Y 축 외에도 시가별로 동적으로 움직이는 흐름을 느끼며 작성자가 말하고자하는 메시지를 분명히 느낄 수 있다. 고급기법

숙련된 경험이 없는 이라면 분명 하나의 그림으로 이 모든 것을 표현하기는 어려울 것이다. 최소 2가지 이상의 표현이 존재할 것이다.

파트3에서는 그동안 배운 스킬들을 기반으로 실무에서의 소통 방법을 포괄적으로 다룬다. 각 시각화 요소를 결합하여 한 차원 높은 단계인 인포그래픽으로 표현하는 방법을 배울 수 있다. 인포그래픽

특히 사내 각 부서 특성에 따른 커뮤니케이션 방법을 다룬 부분이 마음에 들었다. 대부분의 IT부서는 수익을 창출한다기보다는 비용을 소모하는 부서이기에 비즈니스와 관련된 성과를 표현하기 어려운데 아래 그림과 같이 지원 사례 분석을 훌륭히 표현함으로써 존재감을 드러낼 수 있겠다는 생각도 들었다. IT지원사례

더불어 책에 드러나지 않지만 숨은 또 하나의 특징이 있다. 저자가 태블로 엠버서더여서 인지 어떤 데이터가 주어져도 적용해 볼만한 시각화 자동화 아이디어가 군데군데 숨어있다.

각양각색의 데이터 입맛에 맞게 1:1 시각화를 입히는 것은 최고의 의사소통에 도움이 될진 모르겠지만 적어도 이를 위한 시간과 노력이 상당히 필요하다.

최소한의 시간과 노력을 투자하여 어떤 자료가 주어지더라도 일단 기본적인 시각화를 표현해 보는 것도 이 창의적인 세계에서는 의사 소통에 큰 도움을 준다 생각한다. 이 책에는 이런 공통으로 적용할 만한 기법에 대한 아이디어도 많이 등장한다.

아무튼 시각화와 표현에 문외한이었던 내게 이 책은 큰 힌트를 주었다. 화이트리스트 적인 접근법이 어려운 분야이지만 거꾸로 블랙리스트적으로 이런 데이터는 이런 시각화는 피해야 겠다는 정리도 가능했다.

별 것 아닌것 같아보이지만 이런 몇가지 힌트가 시각화에서 중대한 오류를 범할 수 있게 도와줌은 물론 망망대해 창의의 바다에서 어떻게 첫 단추를 꿰어야 할지 경우의 수를 상당히 줄여줘 표현의 첫 출발 마음가짐을 가볍게 해준다.

데이터 분석의 전문가라할지라도 표현은 또 다른 영역이다. 데이터 기반의 표현과 소통이 부족한 입문자라면 이 책이 큰 도움을 줄 수 있을거라 생각한다.







© 2019.04. by theorydb

Powered by theorydb