[리뷰] 파이썬을 활용한 머신러닝 쿡북

개요

본 리뷰는 한빛미디어 출판사 "파이썬을 활용한 머신러닝 쿡북(크리스 알본 저)"를 읽고 얻은 지식을 정리한 글입니다.

데이터사이언스의 8할은 전처리


자! 이제 난 제법 보스턴 주택가격 예측도 돌려봤고, MNIST 데이터셋 손글씨 인식도 해봤고, 또 Iris 붓꽃 분류도 능히 해냈다. 근데 왜 현실로 돌아오면 난 아무것도 할 수가 없지? 이 책에 관심있는 독자분이라면 다들 비슷한 고민을 한번쯤 해보셨거나 마주하고 있는 중일 것이다. 필자 역시 마찬가지였고 지금은 나아가긴 했지만 새로운 유형의 데이터 셋을 만날 때마다 비슷한 고민에 빠진다.

Continue reading

[부동산] 부(富)와 재테크를 위한 유용한 사이트 모음(부동산, 경제, 법률 등)

개요

돈을 법시다. 데이터 사이언스는 귀족 학문이니까…

내집마련 Site


데이터 사이언스는 귀족 학문입니다. 입력층에 투입된 시간과 장비빨이 실력이라는 출력층까지 도달하는데 엄청난 가중치를 차지합니다. 시간과 장비빨을 최대로 얻기 위해선 돈이 중요하더군요. 돈을벌기 위한 재테크에 유용한 사이트를 모아보았습니다. 열심히 돈벌고 데이터 수집도 해 봅시다. 우린 돈이 있어야 귀족 학문으로 신선 놀음을 할 수 있을테니깐요.

Continue reading

[커리어] 데이터 사이언티스트가 되기 위한 채용 및 조언 사이트 모음

개요

데이터 사이언티스트가 되기 위한 채용 사이트 및 선배들의 조언 등 유용한 사이트를 모았습니다.

Continue reading

[리뷰] 파이썬 날코딩으로 알고짜는 딥러닝

개요

본 리뷰는 한빛미디어 출판사 "파이썬 날코딩으로 알고짜는 딥러닝(윤덕호 저)"를 읽고 얻은 지식을 정리한 글입니다.

논문을 구현하는 방법


데이터 사이언티스트는 비록 하나의 단어이지만 업무 특성에 따라 필요한 핵심 역량이 매우 다양하다. 통계, Quantitive, 금융분석 등의 분야에서는 주로 Tabular 형태의 데이터를 바탕으로 수리통계학 기반의 모델링 설계가 핵심 역량이다. 반면, 딥러닝의 경우 주로 영상, 음성, 텍스트 위주의 데이터를 다루며 예측, 설명에 있어 가급적 사람이 개입하지 않고 머신에게 맡긴다. 그러다보니 수리통계학도 중요하지만 엔지니어로서의 역량 즉, 플랫폼 설계, 최적화, 프로그래밍 스킬 또한 중요시된다.

최근 스프트웨어 2.0과 같은 트렌드가 이슈가 되고 있는 것은 그만큼 딥러닝 기술을 다룰 줄 아는 프로그래머에 대한 수요가 증가하고 있음을 반증하는 예이다. 덕분에 TensorFlow, Keras와 같은 플랫폼이 생겨나고, 범용 프로그래밍 언어인 Python의 점유율이 증가하고 있으며, 직관적인 통계 해석에 강점을 둔 R 진영에서 조차 Tidyverse가 등장하게 된다. 이것도 부족한것인지 보다 속도를 높이고자 Julia가 조명받고 있고, 나아가 구글에서는 Swift와 같은 데이터 사이언스에 최적화 된 언어를 개발하고 있다. 심지어 여전히 C언어로 딥러닝 개발을 고수하는 업체도 많다.

타 산업 및 학문 분야는 논문을 기본으로 한 연구분야와 개발분야가 전통적으로 명확한 경계선을 갖는 편이었으나, 데이터 사이언스 분야의 경우 그 경계가 굉장히 옅어졌다고 생각한다. 워낙 신생 학문이기에 논문 등 연구업적의 축적은 부족한데 반해 산업분야엔 엄청나게 핫한 인기를 끌고 있어 논문에 등장하는 아이디어가 빠른 속도로 구현되고 있다. 이런 연구업적의 소모는 타 분야에 비해 분명 기현상이다.

데이터 사이언티스트의 정의에서 보둣이 이들은 초특급 인재들이다. 수리통계학을 필두로 한 학문의 깊이가 남다르고, 전문가 수준의 프로그래밍 스킬도 보유하고 있으며, 데이터 분석능력 및 비지니스 감각도 탁월하다. 이런 천재들이 연구결과의 소비 속도를 더욱 가속시키고 있다. 그리고 이 현상의 중심에 논문의 아이디어를 구현할 수 있는 능력이 있다.

한때 나프다(나는 프로그래머다)라는 프로그래머들에게 굉장히 인기가 많았던 팟캐스트가 있었다. 애청자로써 나프다가 종료될 때 그렇게 슬플 수 없었는데 다행히도 당시 데이터 사이언스 중심의 싸이채널을 담당하신 김진영 님께서 데이터 지능 팟캐스트를 운영하시면서 당시 필자에게 나프다의 대체제로 큰 위안이 되었다.

Continue reading

[Paper] 논문 읽는법, 쓰는법, 투고하는법

개요

논문과 연구에 거리가 멀어진 셀러던트 직장인이 저처럼 늦깍이 나이에 연구에 철이 들어 논문에 관심이 많아지셨다면 본 포스팅을 꼭 읽어주세요. 학사출신 실무자가 논문을 잙읽고, 잘쓰고, 잘투고할 수 있도록 보고 배운 노하우를 공유합니다.

Continue reading

[Data Science] 인사이트(Insight)! 다시 기본으로

개요

본 포스팅은 시리즈로 계획되어 있으며, 인사이트와 기본의 중요성을 다시금 새기고 긴 여정의 출발에 대한 각오를 다지는 글입니다. 차후 EDA, CDA 등 데이터 분석을 통해 인사이트를 도출하고 모델링을 거쳐 예측 및 설명의 자동화에 이르기까지 전체 과정을 실무에 즉시 적용할 수 있도록 기술해 나갈 예정입니다.

Continue reading

[Colab] Google Colab 환경설정 및 사용법

개요

파이썬을 활용한 머신러닝의 첫 관문! 구글 Colab의 환경구성 및 기본 사용법을 다룬 포스트입니다.

Colab이란 무엇인가?


구글 코랩(Colab)은 클라우드 기반의 무료 Jupyter 노트북 개발 환경이다. 내부적으로는 코랩 + 구글드라이브 + 도커 + 리눅스 + 구글클라우드의 기술스택으로 이루어진 것으로 알려져있다.

Continue reading

Pagination


© 2019.04. by theorydb

Powered by theorydb