통계학 vs 컴퓨터공학, 멋대로 써보는 Data Science 미래에 대한 소고(小考)



개요

통계학과 컴퓨터공학이 보이지 않는 곳에서 작은 다툼을 하고 있습니다. 현 시점만 놓고 봤을 때 이 작은 다툼은 양측 모두 일리를 가진 의미있는 싸움이라고 생각하는데요. 이 부분에 초점을 맞추어 정반합의 개념으로 데이터 과학의 미래가 어떻게 변화할지 추측해보려합니다. 그동안의 경험, 감(感), 약간의 공상과학(?)을 가미하여 다소 건방져 보일지 몰라도 소신있게 예측해 보겠습니다.

딥러닝의 약점은 무엇일까?


누가 감히 알파고 욕하는 소리를 하였는가? - feat.궁예

감히 나 따위가 어떻게 폄하하겠는가. 하지만 모두 다 Yes라고 할 때 No라고 말할 수 있는 습관은 꽤 의미있다고 생각한다. 최근 기업에서 나오는 우스개 소리로 결재가 반려될 경우 “AI, 딥러닝, 빅데이터”라는 마법의 단어를 사용하면 결재를 득할 수 있다는 풍자가 나올 정도로 A.I는 분명 핵심 트렌드이다.

그 중에서도 특히 인류가 쌓아온 지식의 분야에서 딥러닝이 강점을 보이는 분야는 “동영상, 이미지, 음성인식, NLP” 등의 분야일 것이다.이 분야의 공통점은 무엇일까? 대부분 비정형 데이터이면서 동시에 2차 가공을 거친 데이터들로 채워진 분야이다. 이 세상 그대로의 데이터를 컴퓨터가 이해할 수 있도록 전달할 방법이 없기에 아날로그를 디지털화 하는 등 일종의 “변환” 작업을 거친다.

그 과정에서 이 세상의 Real 데이터들은 Computing Vision, 신호처리, 푸리에 변환 등 인류가 장기간 축적해 온 지식들의 손바닥안에서 놀 수 있는 데이터의 형태로 변환된다. Min ~ Max의 유한한 범위를 갖는 일종의 해석가능한 범주 형태의 피처로 변환이 되고 축적된 지식으로 만든 모델의 Input값으로 최적화 되어있는 셈이다.

연산의 시간 복잡도 문제는 컴퓨팅 파워만 충분하다면 해결 가능해졌고, 이러한 가공을 통해 피처 선정 및 추출, 모델의 선택에 있어 경우의 수를 크게 좁혀준 셈이다. 그렇다면 가공을 거치지 않은 Tabular 성격의 일반 데이터는? 딥러닝의 단점을 누구보다 통계학자가 잘 말해준다.

통계학 : Data Science? AI? 모두 예전에 우리가 했던 일이다.


맞다. 통계학에서 보기에 딥러닝은 기존에 존재하던 Neural Net 모델이 여러 층으로 연결된 것일 뿐이고 덕분에 회귀를 여러번 실행 가능하게 하여 전처리를 내부에서 처리하는 정도에 지나지 않는다고 표현한다.

심지어 Logit의 결합일 뿐인데, 이것이 마케팅인가? 기술인가?라고 폄하하는 분도 있다. Science 측면에서 분명 일리가 있는 말이다.

“Tabular 기반의 데이터에서 - 즉, 2차 가공을 거치지 않은 세상의 진정한 의미가 담긴 데이터 - 가치있는 Insight를 추출하거나 미래를 예측하기 위해서는 모델링이 핵심인데 컴퓨터 공학도이 과연 그런것을 아느냐? 그런 수학적, 과학적 깊이가 있는가?”라고 다그치신다면 컴퓨터 공학 전공자로서 솔직히 좀 위축됨을 인정하며, 우리의 컴퓨터 공학 분야는 수학, 통계학, 타 분야의 공학의 금자탑이 쌓아놓은 위대한 업적 덕분에 빛나는 것이라고 감사를 표하고 싶다.

컴퓨터공학 : 수학, 통계학이든 Data든 전부 컴퓨터 안에 집어넣으면 그만이다.


컴퓨터 공학은 짧은 역사에도 불구하고 산업과 자본을 이끌어 온 저력이 숨어있다. 바로 컴퓨터를 만들고 그 위에 컴퓨터를 잘 다룰 줄 아는 또 다른 학문을 세워놓았기 때문이다.

  • NLP는 세상의 데이터 기본단위를 바꿀것이다.
    필자는 NLP가 현재의 RDB를 비롯한 세상의 대부분의 데이터(적어도 우리가 컴퓨터, 모바일을 사용하면서 생산하는 데이터 만큼은)의 저장 형태 및 기본 단위를 바꿀것이라 생각한다. 딥러닝의 자동화를 위해서 말이다.

    자연어를 TF-IDF 등 NLP 기술을 활용하여 Data-Meta 구조 형태의 기본단위를 확립하여 그에 적합하게 고안된 유한한 모델을 갖게 될 것이고, 그렇게 변환된 데이터와 모델들은 인공지능을 위한 가교 역할 일종의 중간 Layer를 담당하게 될 것이다.

    데이터는 대부분 이런 기본단위의 규칙을 갖는 반정형 형태로 축적될 것이고, 모든 자료는 Json, XML과 유사하게 Tree등의 자료구조를 활용한 Meta 정보를 쌍으로 가질 것이라 생각한다. Meta도 결국 피처로 쓰이게 될 것이고 세상의 거의 모든 자료는 서적부터 동영상에 이르기까지 이런 형태의 ‘Data-Meta’ 단위로 재편될 것이다.

    말도 안된다고? 그정도 데이터가 재편되는데는 사실 그리 오랜 시간이 걸리지 않을 것이다. 요즘 Tabular, Pad 등 글을 생산하는 플랫폼을 전부 컴퓨터 공학에서 주도하고 있기 때문이다. 그래서 Tabular 데이터도 결국은 이미 고안된 유한한 모델링의 일부에 활용될 것이다.

    기생산된 데이터의 재편이 어려울지도 모른다. 하지만 빠른 시일내에 원저자 혹은 관련 연구자들이 일종의 라벨링처럼 반정형 형태로의 변환을 가능하게끔 연구해 줄 것이라 생각한다.

    어려움에 봉착할지라도 신호처리, 푸리에 변환이 활용된 것처럼 다른 학문에 쌓인 축적된 지식을 가져와 모델링에 활용할 것이라 예측한다. 그 중심에 NLP가 있다.

  • 컴퓨터 공학이 주도해 온 실행력, 스피드, 실행가능성, 실용성, 자동화 그리고 논문
    타 학문이 이룩한 지식을 딥러닝이 이해할 수 있는 형태로 피처 형태를 정의하고 모델을 구성하는데 오랜 시간이 걸리리라 생각하는가? 컴퓨터 공학이 가진 “실행력, 스피드, 실행가능성, 실용성, 자동화”의 힘이라면 이미 100년에 가까운 역사동안 알려진 지식이 있다면 구현하여 활용하는데 그리 오랜 시간이 걸리지 않음을 입증해오고 있다.

    더욱이 모든 학문 분야는 "논문"이라는 일종의 공통된 언어를 사용한다. 논문에는 대부분 가설이 존재하고 검증을 위한 모델이 담겨있다. 딥러닝이 받아들이기 아주 쉬운 구조로 되어있다는 의미이다.

  • 컴퓨터 공학 자체의 축적된 Science
    컴퓨터 공학은 기초 Science와 동떨어져 그 깊이가 얕다고 비웃음을 당하곤 한다. 고상한 진리를 찾는데는 분명 뒤떨어진지도 모른다. 하지만 S/W공학 등 짧은 시간동안 빠른 구현 및 활용을 위한 철학을 기저로 한 고민과 무수한 시행착오를 녹인 강한 실행력을 가진 나름의 Science가 존재하기에 고도의 순수 사이언스를 쉽게 받아들이고, 결합하고, 그 과정에서 창조적인 지식이 재탄생한다. 그리고 그 지식을 누구보다도 빠르게 구현할 수 있는 학문 분야를 연구한다.(GAN이 출현하여 AI 트렌드를 지배하는 현 상황이 대표적인 예라고 할 수 있다.)

    더불어 언제나 누구든 쉽게 인사이트를 착상할 수 있게 고취시킬 수 있는 환경을 가지고 있다. 때문에 세상의 자본을 쥐락펴락할 수 있는 것이다.(물론 이러한 강점이 인문학적인 측면에서, 기초 과학 진리의 측면에서 사람이 살아가야 할 방향과 일치하느냐고 물으신다면 별개라고 답하고 싶다.)

개인이 생산한 데이터의 라벨링은 누가 해 줄 것인가?


공학분야의 앞으로의 가능성은 이즈음에서 각설하고, 각각의 개인들이 생산한 정보에 대한 라벨링 산업의 성장 가능성에 대해서 언급해보려한다. 예시를 하나 들겠다.

본인이 패드 또는 종이에 글을 쓰고 이를 딥러닝을 이용해 
텍스트로 자동 변환하는 솔루션을 개발한다고 가정하자.  
이때 [Space]는 어떻게 변환이 될까? 
단어 간 띄어쓰기가 1cm일 때 스페이스를 넣을 것인가? 아니면 1mm?  

이 애매한 기준을 가지고는 과적합 발생 시 한글자 한글자마다 스페이스가 생겨 사용자로 하여금 노가다를 유발시키는 저질 변환이 이루어질 것이고, 과소 적합시에는 아에 줄 글로 주욱 붙어있어 스페이스를 찾기 어려운 지경에 빠질지도 모른다.

그렇다면 이를 해결하기 위해 무엇이 필요할까? 당연히 데이터다. 더 정확하게 말하면 이 사람이 쓴 글의 이미지와 그에 기반한 텍스트로 변환된 라벨링이 필요하다. 피처가 단순히 이 사람의 라벨링에 기반한 스페이스 부분의 길이 정보 하나라면, 당연히 Min ~ Max의 띄어쓰기 길이가 존재할 것이고 한 글자 간 거리또한 유요한 범위가 존재할테니, 아주 간단한 경우에는 2개의 길이가 겹치는 지점에 대한 학습을 수행하여 정확도를 판별할 것이고, 더 나아간다면 특정 글자또는 단어가 들어가는 경우 스페이스의 길이가 줄어드는 특징을 잡아내어 정확도를 높일 수도 있을 것이다.

어쨌든 누군가는 라벨링을 해야한다. 물론 사람의 눈은 이미 타인의 글도 상당히 정확하게 읽어내는 능력이 있으므로 라벨링 대행업체가 존재하겠지만 결국 딥러닝의 품질을 향상시키기 위해서 글쓴이의 라벨링이 직접 필요해질 수 밖에 없다. 그런데 과연 사람들이 이 귀찮은 라벨링을 순순히 참여할까? 이 문제에 대한 몫은 솔루션을 개발하는 사업가의 몫이다. 바로 개인들의 데이터에 대한 라벨을 어떻게 자연스럽게 어렵지 않게 수집할 것인지 말이다.

이 예는 비단 NLP관련 극히 일부의 사례다. 앞으로 모바일을 통해서 더 많은 개인 데이터가 수집될 것이다. 개인화된 라벨을 마치 산소 마시듯이 편리하고 자연스럽게 축적시켜 기왕이면 개인정보 관련 본인의 동의여부 통제하에 제공될 수 있는 플랫폼을 가진 회사가 향후 딥러닝을 위시한 인공지능의 미래를 주도할 큰 축이 될 것임을 조심스럽게 예측해본다.

세상 모든 논문들을 딥러닝이 이해할 수 있게


딥러닝의 미래는 이 주제를 마지막으로 마치려한다. 위에서도 잠깐 언급한 바와 같이 타 학문의 축적된 기술과 이론을 피처 및 모델과 연동시키는 분야가 유망할 것으로 판단한다. 이 산업 분야는 상기의 과제 외에도 논문, 연구와 관련된 메카가 될 것이다.

더 나아가 특허청과 유사한 역할로 블록체인을 활용하여 최초 지식 생산자부터의 위변조 감지도 담당할 것이고, 축적된 기술을 피처와 연관짓는 과정의 산출물로 특허 지식의 실현가능성, 적합성 등을 판단하여 특허 등록에 대한 엄밀한 예행 판단을 서비스 할 수 있게 될지도 모른다. 뉴턴과 라이프니치의 미적분 발명 논쟁도 이젠 역사속으로 사라진다.

Review 논문의 역할과 유사한 Reference Map + 그 위에 핵심 아이디어(해당 논문이 전달하고자 하는)만 간략히 Graph형태로 배치될 것이고, 연구 지식이 가장 효율적인 형태로 축적된 신 인류의 지식 저장소 역할을 수행할 것이며, 사회적으로도 단일국가 탄생을 견인할 가능성도 까지 이어질지도 모르겠다고 한다면 너무 과도한 생각일까?

학문적 깊이와 연결되기 힘든 일반인들의 창의적인 발상을 기존 학문이 축적한 깊이에 연결시켜 줌으로써 인류 지식의 초고속 발전에 기여하게 될지도 모른다.

딥러닝은 사이언스가 아닌가? 또, 내부는 블랙박스인가?


흔히들 딥러닝은 Science가 아니라고 말한다. 딥러닝 관련 논문 중 전체 매커니즘에 관해 수식으로 표현하는 논문이 없다. 엄밀한 증명을 적용할 수식이 없고 더 나아가 알파고를 이길 수 있었던 규칙이 무엇이었는지, 어떤 알고리즘으로 승리한 것인건지 만든 창조자도 그 어떤 사람도 설명을 못한다. 그래서 블랙박스라고 표현하기도 한다.

개인적으로는 엄밀히 블랙박스는 아니라고 생각한다. 특정 은닉층의 값을 출력해보면 weight의 값이 0.32943.., bias가 0.324, .. 등 수치적으로 분명히 확인할 수 있으니 보이지 않는다고 표현할 수는 없다. 다만, 내부에 엄청나게 많은 노드와 가중치, 그리고 노드들의 활성 여부를 사람의 기억력으로는 전체를 바라볼 수 없어 수식과 같은 연역적 규칙으로 표현하지 못하는 것이다. 아직까지 사람이 가진 수식으로는 표현 못하는 거대함이 숨어있는 것이다. 사실 노드 하나하나의 활성화 과정은 Logit과 거의 유사하므로 부분만 놓고보면 수식으로 충분히 표현할 수 있음은 물론 매우 쉽다. 하지만 전체를 설명 못하는 것이다.

그렇다면 그냥 동작방식을 모른채로 살아가야 하는가? 원하는 결과만 얻으면 되는가? 그렇지 않다. 인류는 어떤 형태로든 항상 답을 구해왔으니 결국은 이뤄내지 않을까? 이미 내부를 들여다보기 위한 여러 시도들이 이루어 지고 있는것으로 알고있다. 특히 CNN과 같은 Vision 분야의 경우 피처 자체가 시각 데이터임에 착안하여 층별 시각화 이미지를 통해 내부를 들여다 보고 전체 로직을 설명하기 위한 연구가 이루어지는 것으로 알고 있다.

이와 관련하여 앞으로 개인적으로 해보고 싶은것이 있다. 전체 숲은 모를지언정 부분의 판단이 나오게 된 원인을 수식으로 찾아내는 시도를 해보고 싶다. 특정 결론이 나오기까지 영향을 미친 노드들은 전체노드는 아닐 것이다. 관련 노드들 N개만 추출하여 해당 노드간의 수식을 구한다면 전체를 추적하는 것보다는 분명 쉽게 수식을 도출할 수 있을것이라 생각한다.

물론 ReLU함수와 같이 구해도 별 의미도 없는 수식이 등장할지도 모르겠다. 하지만 회귀와 같은 유의미한 수식이 도출될 가능성도 있다. 학습이 부족하여 ReLU 형태의 수식이 등장한 것인지도 모른다. 데이터 사이언스의 고유 업무 중의 하나가 패턴을 찾아내는 일이므로 패턴속의 규칙을 찾아내려는 시도 및 연구 결과가 모여 이 무의미한 수식들을 유의미한 수식으로 바꿔갈 것으로 기대한다.

더 파격적으로 생각하면 수학에 새로운 방식의 표현이 등장할 것으로 예상한다. Sigma와 같이 동일 패턴의 묶음을 상징하는 기호가 많이 등장하여 천문학적인 IF의 갯수를 파격적으로 줄여주거나, 수없이 다양한 패턴이 표준 기호화되어 그 데이터 위의 패턴을 찾으려는 시도가 진행되지 않을까 예측해본다. 너무 어려운 분야의 이야기를 짧은 지식으로 표현하였기에 허무맹랑한 이야기가 되었는지 모르겠으나 일부 역사에서 그래왔듯이 이 허무맹랑함이 인류의 과학 문명을 업그레이드시키는 씨앗이 되었으면 좋겠다.

요약하며


위에서 언급한 크게 세가지의 예측을 보며 필자의 짧은 지식에 눈쌀이 찌푸려 지시거나, 논리적인 오류에 너만의 개똥철학에 경의를 표한다고 하실지 모르겠다. 하지만 개요에서 언급한 바와 같이 표현의 자유로 소신껏 포스팅한 자료이니 가급적 재미로 너그러이 봐주셨으면 감사하겠다.

개인적으로 위와 관련된 소재의 연구를 하고싶고 또는 유관 산업에서 일을 하고 싶다. 만에 하나라도 기회가 된다면 주도하고도 싶은 마음이다. 그 중에서도 ‘세상 모든 논문들을 딥러닝이 이해할 수 있게’라는 소제목으로 표현한 분야에 가장 관심이 많은데 네이처 논문지, 특허청 같은 유사 기관들이 이미 설립되어 있으므로 그 곳에 들어가서 위처럼 변화를 주도하던가, 아니면 꿈틀대는 태동기로 준비 중인 회사를 찾아 들어가던가, 아니면 새로 만들던가 하고 싶지만 당장 생업에 종사하느라 열심히 갈고 닦을 시간이 너무나도 부족함에 눈물이 난다. 하루종일 데이터 사이언스 분야만 할 수 있다면 정말 잘할 수 있을것 같은데 적지 않은 나이에 새로운 분야로 나아가는게 겁이나는 것도 사실이다. 하지만 나약한 자가 되어 핑계만 늘어놓고 싶지는 않다.

그래서 평소 http://arxiv.org/ 논문 중 NLP는 놓치지 않고 열심히 읽으며, 최신 지식에 뒤쳐지지 않도록 내 뉴런에 Core Incremental만 잘 연결시켜 나가고 이 논문을 인용하는 산업체, SNS 동향을 수집, 분석하며 예의주시하는 중이다.

아무쪼록 긴 글임에도 여기까지 읽어주심에 깊이 감사드린다.

주) 참고로, 필자가 블로그 이름을 TheoryDB라고 지은 이유는, 바로 이 논문들을 딥러닝(또는 또 다른 개념의 AI라고 표현해야 할지도 모르겠다.)이 이해할 수 있도록 ‘Data-Meta’ 구조의 데이터베이스로 재편하고 싶은 욕구 때문이다.






© 2019.04. by theorydb

Powered by theorydb