본문 바로가기
책 이야기

[에릭 시겔] 빅데이터의 다음 단계는 예측 분석이다

by manga0713 2016. 8. 18.

 

 

"진정한 파워는 ~ 미래에 영향을 주는 것으로부터 나온다." 본문의 대목처럼 "빅데이터의 다음 단계는 예측분석이다" "진정한 파워" 가져다 '예측분석' 그것을 가능하게 하는 기술인 기계 학습(Machine Learning), 기계를 학습 시켜 진정한 파워를 발휘하게 하는 알고리즘(모델) 대하여 흐르듯 설명하고 있다.

 

또한 "유전학이 아내의 불륜을 예견한다.", "배가 고픈 판사들은 부정적으로 판결한다." 예처럼 예측 변수를 하나씩 포함하고 있는 다양한 발견들을 소비자 행동 분야, 금융 보험 분야, 의료 분야, 범죄와 사법기관, 기타로 나누어 표로 정리 하였으며, 예측 분석의 사례 147가지를 산업별로 정리 제공하여 '예측 분석' 대한 지식의 전파뿐만 아니라 산업 실생활에의 적용을 완벽하게 이끌어 주고 있다.

 

다음은 책의 밑줄 부분이다.

 

서언

 

비행기를 격추시키려면 20 후의 비행 궤도를 예측해야

 

우리 사회는 예측 모델들을 어떤 식으로 사용해야 하는가.

 

예측 최적화 분석(Prescriptive analytics)

 

예측 분석의 핵심은 당신이 다루는 데이터의 상대적인 크기나 비규칙성이 아니라 당신이 그것으로 무엇을 하고자 하는가에 있다.

 

우리는 예측 사회에 살고 있다.

 

 

머리말

 

IT컨설턴트로서 컴퓨터로 하여금 예측하게 하고, 데이터로부터 학습하게 하고, 패턴을 찾아내어, 타기팅 있도록 도와줍니다.

 

경험으로부터 배우는 기계

 

 

들어가는

 

예측은 힘이다.

 

예측 기술(Predictive Technology)

 

예측하는 것을 '학습함'으로써 해결책을 찾는 '기계 학습'(Machine Learning)

 

지식의 유일한 원천은 경험이다. (알버트 아인슈타인)

 

예측의 효용성은 낮은 정확도에도 불구하고 유의미하다. 어렴풋하게라도 있는 것이 완전히 깜깜한 암흑 상태보다는 훨씬 우수한 결과를 낳는다.

 

예측효과(Prediction Effect): 데이터 효과, 귀납 효과, 앙상블 효과, 설득 효과

 

예측 분석은 과학의 분야를 넘어서서 현실 속에서 강력한 영향력을 행사하는 하나의 흐름이 되고 있다.

 

예측 분석은 '전망'(Forecasting)과는 완전히 다르다. 전망은 거시적 차원에서 집학적 예측을 한다.

 

네브래스카 주민들 어떤 '개인' 손에 아이스크림 콘을 들고 있게 가능성이 가장 높은가를 말해 주는 것은 예측 분석이다.

 

'폐인들의 '(Geek Power): 데이터 과학자

 

 

01 예측이 주는 소리 없는 혁명

 

이제 많은 사람들이 예측을 행동으로 옮기고 있다. 그렇게 하지 않으면 경쟁자를 이길 없을 것이다.

 

이제 사람들은 우주를 향해서가 아니라 '미래 예측'이라는 새로운 미지의 영토로 '과감하게 나아가고' 있다. 미지의 영토는 우주와 마찬가지로 흥분되는 탐험으로 가득하다.

 

데이터로부터 학습하는 것은 보편적으로 유용하다. 그것을 마스터하면 어디서나 환영 받을 것이다. ( 엘더)

 

예측에 경제적 가치를 매기는 것은 어려운 일이 아니다. 예측 자체는 정교한 수학적 계산을 통해서 나온 것이지만, 복잡다단한 예측 뒤에 가려져 있는 손익개선 효과는 간단한 산수를 해봄으로써 눈으로 확인할 있다. 이것은 추상적인 개념이 아니다. 예측 효과는 돈이다.

 

작은 예측에 의한 통찰, 선택을 올바른 방향으로 향하게 하는 작은 예지적(prognostic) 넛지(nudge)로부터 가치가 발생한다.

 

미래를 살짝 엿볼 있다는 것은 당신에게 선택권이 주어진다는

 

지난 10 내지는 15 동안 과학 분야에서 일어난 위대한 혁명은 무엇인가? 그것은 보편성의 추구로부터 다양성의 이해로 옮겨간 것이다.

 

나이브 베이즈(Naïve Bayes)모델: 나이브(Naïve 소박한)라는 용어는 매우 똑똑한 사람의 아이디어를 취하되 그것을 응용할 때는 아이디어를 단순화시켜 실제 적용 가능한 것으로 만드는 것을 의미한다. 그렇게 함으로써 예측 능력에 있어서 충분히 의미가 있으면서도 당면한 과제에 맞게 규모를 조절한 실질적인 방법을 만들 있게 된다.

 

실시간 예측 분석 솔루션은 웹사이트, 신용카드 처리 시스템과 같은 업무운영 시스템에 직접적으로 통합되어 있어야 한다.

 

예측은 빈틈없는 관찰로부터 나온다.

 

다양한 사실들을 통합하는 방법을 배워야 한다.

 

예측 모델(Predictive Model): 클릭, 구매, 거짓말, 사망과 같은 개인의 행위를 예측하는 메커니즘. 그것은 개인의 특성을 입력 받아서 '예측 점수' 출력한다. 점수가 높을수록 개인은 예측된 행위를 가능성이 높다.

 

(예측 모델 방법 ) 가지는 특성별로 가중치를 부여한 그것들을 모두 더하는 것이다. 이것은 '선형 모델'(Linear Model)…또 다른 모델은 '규칙들' 종합한 것이다.

 

모든 예측 모델들은 같은 목표, 사람의 다양한 요소들을 고려하고 공유한다.

 

어떤 모델을 사용하려면 먼저 모델을 만들어야 하는데 ~ 예측 모델은 학습 테크놀로지의 산물이며 자신이 바로 학습의 대상이기도 하다.

 

예측 분석의 산출물은 직접적으로 행동을 위한 정보를 주고, 기업들이 다음에는 무엇을 것인지를 지시한다.

 

과거회귀적 질문

 

예측 모델링은 일종의 역해부로부터 시작한다.

 

테스트하는 과거 데이터에는 언제나 상대적 의미에서의 미래가 포함되어 있어서 자칫하면 미래를 예측해야 하는 모델에 실수로 미래 자체를 포함시키는 잘못을 범하기 쉬운 것이다.

 

기계 학습 자체도 일종의 최적화 문제이다.

 

 

02 힘이 커질수록 책임도 커진다

 

타깃의 예측과 예측의 타깃

 

예측 모델링은 학습의 대상으로 이미 알려진 사례들을 필요로 한다. 반드시 긍정적 사례와 부정적 사례가 모두 포함되어 있어야만 한다.

 

그는 데이터에 기반한 마케팅을 고객들에 대한 '염탐'이라고 표현했다.

 

프라이버시에 대한 우려를 어떻게 명확하게 정의할 것인가?

 

데이터는 들불처럼 사방으로 번지고 싶어한다. 새로운 강력한 유통성(currency) 규제하기가 어렵다는 것이 증명되었다. 하지만 우리는 사력을 다해서 야생동물을 길들여야만 한다.

 

모든 기업과 조직은 데이터에 대해 누구, 무엇, 어디, 언제, 얼마나 오래, 왜를 결정해야만 한다. 또한 항목에 "어떤 상황에서 그리고 어떤 의도나 목적을 위해서"라는 조건을 덧붙여야 한다.

 

( 미첼 Tom Mitchell ) "이러한 (GPS 통해서 위치추적을 하는 휴대전화의) 데이터를 마이닝하는 데서 오는 잠재적 이득은 다양하다. 예를 들어 교통혼잡과 오염을 줄일 있고, 질병의 확산을 제한할 있고, 공원이나 버스, 구급차 서비스와 같은 공공자원을 효율적으로 사용할 있게 해준다. 그러나 이러한 데이터를 종합하는 데서 오는 사생활 노출 위험은 인간이 이제껏 번도 마주해 보지 못한 정도의 규모이다."

 

완전히 새로운 종류의 강력한 인적자원 데이터가 등장 ~ 추론(speculative) 데이터이다. ~ 미래에 대한 추정(estimation)이며, 사실상 직원의 마음, 태도, 의도에 대한 추정이다. 이적은 내적인 통찰력인가 아니면 내면에 대한 침범인가?

 

분석의 질은 데이터의 질에 달려 있다.

 

일반적으로 데이터에 에러가 많으면 아주 잘못된 결론이 도출되기보다는 데이터에서 도출될 있는 결론이 상대적으로 적어진다.

 

설사 많은 현상들이 명약관화하고 직관적으로 파악할 있다고 하더라도, 각각의 요소들이 가중치를 얼마나 갖는지, 그것들이 어떻게 결합되고 상호 작용하는지, 검증되지 않은 다른 직관적 판단들 어떤 것들이 제거되어야 하는지 미묘한 문제들에 있어서 참고할 모델이 없다면 결론에 접근할 수가 없다. 기계 학습 프로세스는 역사적 데이터를 분석하여 이러한 것들을 발견하는 과정, 그대로 역사적 데이터로부터 학습하는 과정을 자동화하는 것이다.

 

아직은 보편적으로 인정받는 윤리적 프레임워크가 없다.

 

만약 당신이 '감지하고 추측하고 반응한다' 기존의 보안정보 패러다임에서 '예측하고 계획하고 행동한다' 패러다임으로 바꿀 있다면 어떻겠는가?

 

범죄 예측 시스템: 범죄퇴치 모니터를 통해서 임박한 범죄 발생 리스크를 지도상에 표시해 주고 표시 지점이 속한 행정구역, 동네, 리스크 수준에 따른 범죄유형 등을 나열해 준다.

 

범죄 발생지에서 가까운 장소에서 재발 가능성이 오히려 높다는 트렌드를 발견

 

예측 분석의 도입이 우려를 낳기도 하지만 그것의 부재 또한 우려를 낳기도 한다.

 

정부예산 긴축에 따라 불필요한 지출을 축소하는 수단으로 사용

 

범죄자들 간의 사회적 관계망을 고려하는 방식으로 사기를 탐지하는 능력을 개선

 

사기 거래와 합법적 거래 모두를 포함하는 광범위한 역사적 데이터 집합들은 본능적으로 양자 사이의 내재적 차이점을 코드화한다. 예측 분석은 데이터로부터 바로 이러한 차이를 발견하는 쓰는 도구이다. ~ 이전에 관찰된 사례들을 일반화하여 향후 발생할 사기의 형태를 예측하는 것이다. 이것이 학습 시스템의 결정적 특징이다.

 

"당신은 번도 긍정 오류(false positive) 범한 적이 없는가?" ~ 긍정 오류는 '거짓 경보'

 

일이 반드시 발생하였을 것이라는 점을 어떻게 증명할 있겠는가? ~ 윤리적 딜레마

 

설사 통찰력 있는 의사결정을 하는 인간이라도 자신들이 깊이 이해하지 못하는 시스템이 제시하는 추천 내용에 대해서 상당히 믿음을 가질 있다.

 

의사결정을 형식화하고 계량화하게 되면 의도와는 달리 소수에 대한 편견을 심어줄 있다.

 

우편번호는 인종과 매우 높은 상관관계를 갖고 있다고 알려져 있다.

 

미래의 범죄를 예측하기 위해서 과거의 범죄기록을 고려 요소로 삼음으로써 "현재의 인종적 차별을 미래에도 새겨 넣게 되는 것이다." 그것은 편견이 이미 가지고 있는 자기실현적 예언을 확대 재생산하게 만든다.

 

범죄 예측은 '잘못' 예측하였을 문제가 생기지만, 임신과 같은 민감한 사실들을 예측하는 것은 '제대로' 예측하였을 문제가 된다. ~ 따라서 데이터 프라이버시에 관한 모든 근본적인 질문들을 다시 점검해야 한다.

 

"내가 기차에서 노인 또는 임산부에게 자리를 양보한 경우에 임신이나 나이와 같은 민감한 개인 데이터를 유추하려고 노력한 것인가? 아니면 그저 사람이 필요로 하는 바를 제공하려고 노력한 것인가?"

 

기업이 알게 내용이 중요한 것이 아니라 그것과 관련하여 어떤 '행위' 하는가가 중요하다. 새롭고 강력한 데이터로부터 추론하는 것은 자체로는 범죄가 아니지만 책임성이라는 부담을 지게 만든다.

 

 

03 데이터 효과

 

데이터를 통해 인류의 집단적 감정 상태를 판단할 있을까? ~ 그에 다른 경기의 오르내림도 예측할 있을까?

 

인간의 집단적 감정과 집단적 행위 사이에 놀랄 만한 관련이 있음을 발견

 

감정은 일반적으로 예측 분석의 영역에 해당되지 않는다.

 

"두려움은 사람들로 하여금 위험을 회피하게 만든다." 두려움은 행동을 억누르고, 사람들로 하여금 보수적으로 안전하게 행동하도록 만든다.

 

(불안 지수) 지수가 가치 있다는 것을 증명해 주지는 못했다.

 

데이터 쓰레기 더미에서 보물을 찾아라

 

정보화 혁명의 핵심은 '모든 것의 계측화' 있다.

 

데이터는 인간 행위를 벌거벗은 그대로 표현해 준다.

 

데이터 측정은 현대판 현미경이라고 있다. 과거에는 너무 작아서 보이던 것을 있게 반해서 이제는 너무 커서 보이던 것을 있게 되었다.

 

데이터와 관련하여 흥미로운 사실은 그것이 얼마나 많이 있는가가 아니라 그것이 '얼마나 빨리 증가하는가'이다.

 

마이닝의 목표는 데이터 자체가 아니라 데이터 안에 묻혀 있는 패턴이라는 뜻이다.

 

모든 것은 다른 모든 것에 (간접적으로라도) 연결되어 있으며 이것은 데이터에 반영되어 있다.

 

데이터에서 무엇을 발견할지 처음에는 모르지만 데이터가 말하는 것에 귀를 기울이면 분명히 가치 있는 연결고리를 발견할 있다. 이것을 한마디로 줄여 표현하면 '데이터 효과'이다.

 

데이터는 언제나 예측적이다.

 

데이터는 "새로운 석유", "디지털 세계의 새로운 화폐"

 

예측 분석의 목적은 직관의 영역 너머에 있는 잠재적 진실의 끝없는 영토를 탐색하는 것이다.

 

상관관계가 인과관계를 의미하지는 않는다: A B 사이에서 예측적 관계를 발견했다고 해서 A B 하나가 다른 하나의 원인 된다는 것을 의미하지는 않는다.

 

많은 예측 분석 프로젝트는 미래를 예측하는 목적이 있는 것이지 세상을 이해하고 무엇이 그렇게 작동하게 만드는지를 알아내는 것이 목적이 아니다.

 

만약 대중적 불안감의 바로미터가 실제로 주식시장을 예측할 있게 해준다면, ~ 경제에 영향을 미치기까지 며칠이나 걸릴 것인가? 바로 다음날 효과를 점검해야 하는가, 아니면 뒤에 효과를 점검해야 하는가?

 

"우리는 '감정 상태' 해외 주식시장, 채권, 금과 같은 다양화된 자산 하나로 간주한다." 알파지니어스는 "수많은 트윗과 인터넷 게시물을 분석하여 특정 주식 종목의 매도 또는 매입 시그널 여부를 결정한다.

 

그러나 주식시장에서 대성공을 거둘 만큼 대중의 기분을 통해 시장동향을 충분히 예측할 있는지에 대해서 공개적으로 알려진 결정적 증거는 아직 없다.

 

 

04 학습하는 기계

 

어떤 종류의 예측 모델이 모든 사람에게 이해될 있는가? 예측 분석은 글로벌 금융위기를 사전에 막지 못하였는가?

 

의사결정 나무가 커지고 복잡해질수록 예측의 성능은 증가하지만 증가폭은 갈수록 미세해진다. 수확체감의 법칙이 작용하는 것이다.

 

예측 모델의 성능을 비교하는 하나의 측정치(metric) 있다. 일명 '향상도(lift)'라고 한다. 향상도는 널리 쓰이는 측정기준으로 일종의 '예측승수(predictive multiplier)'라고 있는데, 모델을 적용하지 않았을 때와 비교해서 어떤 특정한 모델을 적용했을 얼마나 많은 목표(target) 고객을 파악해 있는지를 알려준다.

 

과잉학습: 너무나 많은 가정

 

학습을 죽이는 범인은 '과잉학습' ('과적합화' overfitting라고 불린다)이다. 과잉학습은 잡음을 정보로 잘못 간주하는 함정인데, 데이터로부터 너무 많은 것을 고려 요소에 포함시키는 것을 가리킨다. 당신이 너무나 많은 것들을 숫자로 읽어들이면 과잉학습을 하게 되어 잠재되어 있는 진실을 발견하는 것으로부터 오히려 멀어지게 된다.

 

학습과 과잉학습 사이에서 균형을 유지하는 것은 심오한 도전과제이다.

 

기계 학습의 목표는 '귀납'이다.

 

귀납(Induction): 구체적 사실들로부터 일반적 원칙을 논리적으로 이끌어내는 . 연역과 헷갈려서는 된다. 그것은 본질상 정반대의 것이다.

 

연역(Deduction): 일반적인 것으로부터 구체적인 것을 (또는 원인으로부터 결과를) 논리적으로 이끌어내는

 

연역은 비록 일종의 이성적 사고이기는 하지만 언제나 비이성적으로 작동한다. 그것은 연역이 언제나 지나치게 단순화된 가정(assumption)들에 근거하기 때문이다. 우리가 취하려고 하는 연역적 도약에서 가정은 핵심적 역할을 한다. 가정이 없다면 학습 방법을 설계할 수가 없다.

 

모델링 방법은 다양하지만 그것들은 모두 같은 도전과제를 안고 있다. 가능한 많이 학습하되 너무 많이 학습해서는 된다는 것이다.

 

'모델을 검증하기 위해서 일부 데이터를 떼어 놓아라.' ~ '테스트용 세트('검증용 세트'), '훈련용 세트

 

훈련용 데이터: 기계 학습이 예측 모델을 생성하기 위해서 사용된다.

 

테스트용 데이터: 예측 모델을 평가하기 위해서 사용된다.

 

예술작품을 조각하듯 섬세하게 조정하라.

 

확장이 뒤틀리는 지점을 드러내주는 검증용 데이터에 의존하여 가지를 쳐내야 한다.

 

오컴의 면도날(Occam's razor): 흔히 경제성의 원리(Principle of economy)라고도 한다. ①필요하지 않은 경우까지 많은 것을 가정하면 된다. ②더 적은 수의 논리로 설명이 가능한 경우 많은 수의 논리를 세우지 말라. '같은 현상을 설명하는 개의 주장이 있다면, 간단한 쪽을 선택하라.'

 

CART: Classification and Regression Trees

 

세계적인 변화를 탐지하기 위한 연구에는 새로운 변수들이 도입되어야 하며, 기존과는 다른 분석적 접근 방식이 요구된다. 왜냐하면, 블랙 스완 사건들이 풍부하게 포함된 훈련용 데이터 세트는 존재하지 않기 때문이다. 삶에서 드물게 발생하는 일들이야말로 가장 예측하기 힘든 것이다.

 

 

05 앙상블 효과

 

경쟁은 역설적으로 협력을 낳는다.

 

이상의 예측 모델을 결합하는 것은 간단하다. 그것들을 어떻게 결합하는 것이 좋을지에 대해서 학습하는 예측 모델링을 적용하면 된다. 모델 또한 기계 학습으로부터 나온 것이므로 이러한 행위는 '학습한 것을 토대로 학습하는', '메타 학습'(meta-learning)이라 있다.

 

앙상블 모델 == 메타 학습 ~ 기계도 '집단 지성' 발휘한다.

 

대개의 경우에 평균은 평범하다. 그러나 의사결정을 평균은 대체적으로 우월하다.

 

일반화의 역설: 많다고 좋은 것은 아니다.

 

앙상블 효과(The Ensemble Effect): 예측 모델들이 하나의 앙상블로 합쳐지면서 각자의 한계를 보완하게 되어 전체로서의 앙상블은 자신의 구성요소 모델들보다 정확하게 예측할 가능성이 높아진다.

 

 

06 인간을 이긴 기계 학습

 

모든 데이터의 80% 차지한다고 일컬어지는 텍스트 데이터 ~ 왜냐하면 그것은 인간의 지식을 전달할 목적으로 만들어진 것이기 때문이다.

 

질문을 이해할 없으면 대답하기 어렵다.

 

우리가 모든 책들을 스캐닝하는 것은 사람들이 읽을 있게 하기 위해서가 아니다. 우리는 인공지능이 읽을 있도록 하기 위해서 그것들을 스캐닝하고 있다.

 

'인공'이라는 부분은 별문제가 된다. 문제는 '지능'이다. 지능이란 완전히 주관적인 개념이기에 인공지능은 정의된 분야라고 말할 없다.

 

왓슨은 어떤 답안이 맞거나 틀리다는 판단을 하는 것이 아니라 제퍼디 질문에 대한 특정한 답안에 대해서 (과거 사례를 비추어) 인간 전문가들이 맞다고 확률이 얼마나 될까를 예측한다. ~ 이러한 접근 방식은 질문/답을 하나의 예측 분석 응용이라는 틀로 바라본다는 것이다.

 

왓슨은 미래를 예측하지 않는다. 대신 왓슨의 모델들은 대답의 정확성을 '예측'한다.

 

예측: 미지의 사물에 대해서 불완전하게 추론하는

 

왓슨은 어떻게 작동할까? 그것은 앙상블 모델로 이루어져 있다. 왓슨은 방법론들의 거대한 합체였다.

 

미래 예측을 뛰어넘어 대안 예측하기 ~ '우리는 무슨 일이 생길 것인지를 넘어선 어떤 것을 예측해야만 한다.'

 

 

07 숫자를 통한 설득

 

영향을 예측하는 것은 예측에 영향을 준다. 예측 분석은 행위를 예측하는 것으로부터 '행위에 대한 영향' 예측하는 것으로 대폭 변화한다.

 

향상(Uplift) 모델

 

반응 모델은 접촉에 '의해서' 일어난 반응을 예측하는 것이 아니라 고객을 접촉한 후의 구매를 예측한다.

 

측정 가능한 것을 중요하게 여기는 것보다는 중요한 것을 측정 가능하게 하는 방법을 찾아내야 한다.

 

진정한 파워는 ~ 미래에 영향을 주는 것으로부터 나온다.