[리뷰] 파이썬을 활용한 머신러닝 쿡북

개요

본 리뷰는 한빛미디어 출판사 "파이썬을 활용한 머신러닝 쿡북(크리스 알본 저)"를 읽고 얻은 지식을 정리한 글입니다.

데이터사이언스의 8할은 전처리


자! 이제 난 제법 보스턴 주택가격 예측도 돌려봤고, MNIST 데이터셋 손글씨 인식도 해봤고, 또 Iris 붓꽃 분류도 능히 해냈다. 근데 왜 현실로 돌아오면 난 아무것도 할 수가 없지? 이 책에 관심있는 독자분이라면 다들 비슷한 고민을 한번쯤 해보셨거나 마주하고 있는 중일 것이다. 필자 역시 마찬가지였고 지금은 나아가긴 했지만 새로운 유형의 데이터 셋을 만날 때마다 비슷한 고민에 빠진다.

Continue reading

[리뷰] 파이썬 날코딩으로 알고짜는 딥러닝

개요

본 리뷰는 한빛미디어 출판사 "파이썬 날코딩으로 알고짜는 딥러닝(윤덕호 저)"를 읽고 얻은 지식을 정리한 글입니다.

논문을 구현하는 방법


데이터 사이언티스트는 비록 하나의 단어이지만 업무 특성에 따라 필요한 핵심 역량이 매우 다양하다. 통계, Quantitive, 금융분석 등의 분야에서는 주로 Tabular 형태의 데이터를 바탕으로 수리통계학 기반의 모델링 설계가 핵심 역량이다. 반면, 딥러닝의 경우 주로 영상, 음성, 텍스트 위주의 데이터를 다루며 예측, 설명에 있어 가급적 사람이 개입하지 않고 머신에게 맡긴다. 그러다보니 수리통계학도 중요하지만 엔지니어로서의 역량 즉, 플랫폼 설계, 최적화, 프로그래밍 스킬 또한 중요시된다.

최근 스프트웨어 2.0과 같은 트렌드가 이슈가 되고 있는 것은 그만큼 딥러닝 기술을 다룰 줄 아는 프로그래머에 대한 수요가 증가하고 있음을 반증하는 예이다. 덕분에 TensorFlow, Keras와 같은 플랫폼이 생겨나고, 범용 프로그래밍 언어인 Python의 점유율이 증가하고 있으며, 직관적인 통계 해석에 강점을 둔 R 진영에서 조차 Tidyverse가 등장하게 된다. 이것도 부족한것인지 보다 속도를 높이고자 Julia가 조명받고 있고, 나아가 구글에서는 Swift와 같은 데이터 사이언스에 최적화 된 언어를 개발하고 있다. 심지어 여전히 C언어로 딥러닝 개발을 고수하는 업체도 많다.

타 산업 및 학문 분야는 논문을 기본으로 한 연구분야와 개발분야가 전통적으로 명확한 경계선을 갖는 편이었으나, 데이터 사이언스 분야의 경우 그 경계가 굉장히 옅어졌다고 생각한다. 워낙 신생 학문이기에 논문 등 연구업적의 축적은 부족한데 반해 산업분야엔 엄청나게 핫한 인기를 끌고 있어 논문에 등장하는 아이디어가 빠른 속도로 구현되고 있다. 이런 연구업적의 소모는 타 분야에 비해 분명 기현상이다.

데이터 사이언티스트의 정의에서 보둣이 이들은 초특급 인재들이다. 수리통계학을 필두로 한 학문의 깊이가 남다르고, 전문가 수준의 프로그래밍 스킬도 보유하고 있으며, 데이터 분석능력 및 비지니스 감각도 탁월하다. 이런 천재들이 연구결과의 소비 속도를 더욱 가속시키고 있다. 그리고 이 현상의 중심에 논문의 아이디어를 구현할 수 있는 능력이 있다.

한때 나프다(나는 프로그래머다)라는 프로그래머들에게 굉장히 인기가 많았던 팟캐스트가 있었다. 애청자로써 나프다가 종료될 때 그렇게 슬플 수 없었는데 다행히도 당시 데이터 사이언스 중심의 싸이채널을 담당하신 김진영 님께서 데이터 지능 팟캐스트를 운영하시면서 당시 필자에게 나프다의 대체제로 큰 위안이 되었다.

Continue reading

Pagination


© 2019.04. by theorydb

Powered by theorydb