본문 바로가기
책 이야기

[네이트 실버] 신호와 소음

by manga0713 2015. 2. 3.

 

 

 

 

 

데이터 분석을 가운 하나로 삼고 있는 저에게는 책의 제목과 같이 '신호와 소음' 분별은 무척이나 중요한 사항입니다. 그래서인지 자연스럽게 책에 손이 갔지요. 읽어 가면서 자연스레 나의 업을 윤택하게 하고 그를 통해서 나를 빛낼 있는 없나 하는 탐욕을 가지고 게걸스럽게 읽어 내려 갔습니다.

 

그런 내게 저자는 다음과 같이 먹입니다.

 

"완벽한 예측은 불가능하다는 것을 인정하라!"

 

알고는 있었지만 인정하기 싫었던 내용이지요. 그럼 어찌하란 말이지?

 

"베이즈주의적 방식으로 예측하라!" 합니다.

 

책의 역자께서 정리해 주신 말처럼 "네이트 실버가 독자에게 전하고 싶은 것을 요약하자면, 베이즈 정리, 베이즈주의, 베이즈주의적 세계관이다. 기존의 통계학이 멈춰 있는 과녁을 맞히는 것이라면 베이즈주의 통계학은 움직이는 과녁을 맞히는 것이다."

 

움직이는 과녁에의 적중을 위하여 지속적으로 정확성을 증진하고 지속적으로 정밀도를 높여가라는 입니다.

'지속성'에는 끈기뿐만 아니라 완벽한 예측의 중압에서 벗어난 자유도, 전문적 지식의 함양, 전문가들의 의견 정청(正聽) 대한 노력도 포함 되는 것이지요.

 

책은 내게 '의도성' 제거하라는 강력한 권고도 주었습니다.

의견을 전달하기 위해서 고객의 마음을 기쁘게 하기 위해서 '진실' 가까운 것이 아닌 '사실' 표현하는 것에만 급급했던 모습이 부끄러웠습니다.

 

두껍고 무겁지만 기간을 두고 천천히 읽어 보시길 합니다.

 

 

다음은 책의 밑줄 부분입니다.

 

 

온갖호가었다. 그런데국인은 그 신호들을전하게나로 못했다.

 

'빅 데이터'는 발전을는다. 하지만기에는 "궁극적으로 볼 때"라서가는다.

 

무런상도에서상을 다는 게 문

 

무작위의에서상을견하는

 

간의랍다. 무 3테라바이트의보를장할 수 있으니이다. 하지만 이 정보량은 전 세계에서산되는보량의 약 100만 분 1밖는다. 그리는리가해서억하는보를장히심스럽게별해야.

 

Nature지 한 논문은, 정념이람들이구온난화보를 더 많할수록 같은각으로치는향성은히려어든다는실을견하기도.

 

보의루에 2.5퀸틸리언(250경) 바이트씩어난다곤 유용한보의렇게도로는어나지는다. 이실하다. 정부분은음일이다. 소음은호보다르게어나고. 검증에원할설은 너무도 많고겨야 할 자무나. 하지만관적리의대적으로정하다.

 

수가나라도타나면 재생산 될 수 있 게 오늘날의황이다. 빠문에음을려하게된《부도덕성서》의 사례처럼이다.

 

터넷은보를산하는 데 믿없으리만큼  율성제라서, 좋각뿐니라뜨릴재력이. 나각들은균형dispropertionate effect를 유발할 수 있.

 

예측을, 선택된 전문가 집단이 수행하는 특정한 일이 아니라 여러 사람이 함께 참여하는 공동작업으로 바라본다.

 

예측이 중요한 이유는 주관적 실체와 객관적 실체를 이어주기 때문이다.

 

사례는 직접적이고 구체적인데 그래야 예측의 성공과 실패를 쉽게 구분할 있기 때문이다.

 

과거를 지침으로 활용하려는 우리의 욕구와, 미래는 다를 것이라는 우리의 인식을 어떻게 하면 하나로 엮을 있을까?

 

정보를 지식으로 변환하는 방식도 통찰할 있을 것이다.

 

 

I. 예측에 대한 근본적인 의문들

 

'감surveillance'는 ~ 투자자들한테신이찰하는용을속해서려준다는이지요.

 

'알려지지 unknown unknowns'의 위

 

어쩌면일하게협은리가제하고다고각하지만실은렇지험일지도른다.

 

"잘못될능성이 것과대로못될 수 없 것 사이의요한이는, 절대로못될 수 없못될에는황을해하거나제를로잡는가능하다는이다." -더글러스덤스

 

당신은분이울하다. 보드카에산수를 딱 한 잔다는 게 열 두잔이나신다. 당신은하고. 고주망태다. 자, 이신은동차를으로아가는가, 택시를르는가?

실히 이 문제는. 당신은시를르고, 이튿날의를소한다.

러나신은아서인이으로아갈. 당신은 2만 회 운전한운데서 딱 두 번 사소한촉사고를이다. 나머지 1만 9,998번 일 없전하게적지에착했다. 확률을자면, 당신에게리한률이다. 그러니거롭게시를 것 없 게 낫을까?

런데제는신은 그 20만 회 운운데 단 한 번주망태가적석에다는 데 있. 당신의주운전본의 2만 개니라 0개. 따라서신은거의험을지고신이고를 낼 위험을측할. 이거이 '표 외 out of sample' 문제의례다.

 

정보화대에리가 직면하고 또 우처에운데나는, 지식의무리쳐나더라도리가제로리가다고각하는 것 사이의차는어지고다는 데 있. 이상은으로는척이나확하게이지만제로는렇지측들과상이다.....이신이 쏜 총알이 과녁가운데에중하지았는데도제나체로슷한점을 맞혔다는실을, 다확하지는지만밀하다는지고서기가사수라고장하는슷하다. 금융위기들은 (그리고부분은) 이처럼못된신에서롯한다. 정밀한측이확한측으로장한다.

 

여우의 태도와 고슴도치의 태도

여우는 어떻게 생각하는가?

고슴도치는 어떻게 생각하는가?

여러 분야에 걸쳐서 생각한다:

정치적 스펙트럼의 기원과 상관없이 다양한 원리에서

비롯한 발상들을 통합한다.

구체적으로 생각한다:

커다란 한두 문제에 집중한다. '외부인' 의견을 회의적으로

바라보는 경향을 보인다.

적용할 있는 것을 생각한다:

새로운 접근법을 찾아 내거나 동시에 여러 접근법

추구한다. 최초의 접근법이 효과가 없어도

관하지 않는다.

대범하게 생각한다:

'올인' 접근법을 고수하며, 새로운 자료를 동원해 자신이

처음 설정한 모델을 다듬는다.

자기비판적으로 생각한다:

때로는 자기가 예측에서 잘못된 점이 있다는

것을 인정하고 그에 따른 비난을 (비록 행복한

마음으로는 아니라 할지라도) 주저 없이 받아들

인다.

고집스럽게 생각한다:

실수는 운이 나빴거나 환경과 조건이 특이했기 때문이라고

생각한다. 좋은 모델도 틀릴 때가 있다고 생각한다.

복잡성을 관대하게 받아들여서 생각한다:

우주는 복잡한 것이라고 바라본다. 그뿐 아니라

수많은 본질적 문제가 해결될 없다거나 근본

적으로 예측 불가능하다고까지 생각한다.

질서정연한 것을 생각한다:

일단 어떤 신호signal 소음noise 속에서 포착되면, 세상

상대적으로 단순한 중심적 원리에 따라 돌아간다는

실이 드러나길 기대한다.

조심스럽게 생각한다:

자기가 하는 예측을 확률적 용어로 표현하며

자기 의견에 단서를 여럿 단다.

자신만만하게 생각한다:

자기가 하는 예측이 잘못될 것에 대비하는 일이 거의 없으며

자기가 예측을 바꾸려 하지 않는다.

경험적으로 생각한다:

이론보다는 관찰에 많이 의존한다.

이론적으로 생각한다:

일상의 여러 문제에 대한 해결책들은 거대한 이론이나 투쟁

구체화한 것으로 생각한다.

여우는 나은 예측자다

고슴도치는 못한 예측자다

 

여우의1 - 확률적으로각하라

여우의2 - 날마다로운측을

여우의3 - 집단지성을용하라

 

예측가로서바른 태도는늘은 할 수 있선의측을겠다는음가짐이다.

 

정된보를대한으로용하려면 더 새롭고보가타날마다기가 한 예측을데이트해야.

 

상을라보는양한람들이단은러하듯이, 제각기형의보들을어모으는으로타난다.

 

보가적인지적인지는 그 정보를떻게용하는가보다 더 중요하지.

 

쟁이 곳보다열한로스포츠의계에서측을 수 있으려면, 그엇보다스로신가가어야.....적절한간에서로운상과보를 좀 더 자 수 있도록구와관을발하는 게 관건이다. 그 발상과보를착하고 '승'로 이끌어줄량을마하는심이라는이다.

 

 

II. 움직이는녁을혀라!

 

예측을비자에게 맞춰야다는요성문에 '매'는 어인지. '부분적으로름이'와 '대체로름이'를 가르는준은엇인지 등의 표현의미를히고                                        또 여기에요한칙을요가.

 

런데제는엇이 '더 나' 예측인가식의이에.

 

피의측의 3 가: 품(quality[정확성 accuracy]), 일관성(consistency[정직성 honesty]), 경제적(economic value)

 

람들은는다고는데우를다고는데우보다 더 예민하게아들인다. 전자는보관들을난하지만, 후자는밖의재로각하며볍게어간다.

 

질학에서의 Prediction과 예 Forecast:

1. 예: 지진이리고디에서어날인지체적이고시적으로하는이다. '대규모진이 6월 28일토를타할이다'가 예측이다.

2. 예: 확률적술이며개는기적원의상이다. '지진이 30년 안리포니아역에서어날률은 60% 다'가 예상이다.

진을측할어도상할는 게 미국지질조사소의장이다.

 

법론이공을두었다고가할 수 있으려면, 우 '현재의보를지고거의 판단을론하는 것'은 예위가님을인해야. 이 같으로 '과거를'하 그 자체가순이며, 따라서측이공했다고 말할 수 없.

 

잉적합overfitting: '일반적인' 문제를법으로 '지나치게수한' 해법을시한 (마합을법으로정한물쇠의호를으로시하는), 과잉적합은 더 나측을도한다.

 

료가정되어음이 때 그리고재하는계에해가족할 때, 사람들은잉적합의류를한다.

 

측이제로마나 잘 맞느냐와마나 잘 맞는다고식되느냐이에는청난극이.

 

예측이 행동을 바꾼다: 인간활동에 대해 예측을 많은 경우, 예측이라는 행위 자체가 예측 대상자들의 행동을 바꾸어놓을 있다. 때로, 행동의 이런 변화들은 경제 분야에서와 마찬가지로 예측 결과에 영향을 미칠 있다. 영향은 예측을 정확하게 수도 있고, 완전하게 빗나가게 수도 있다.

 

자기충족적 예측(self-fulfilling prediction) 사례: 패션업체들은 다음 시즌에 유행할 색을 예측한다. 예측은 전쯤에 이미 나와야 한다. 제품을 디자인하고 생산하는 데까지 그만큼 시간이 걸리기 때문이다. 만일 영향력 있는 디자이너들이 갈색이 내년을 지배할 유행 색이라고 판단해 갈색 옷을 제작하기 시작하고, 유명 모델이나 사회적으로 지명도가 높은 사람들에게 갈색 옷을 입치고 매장들에서 진열대나 카탈로그를 통해 갈색 옷을 사람들에게 지속적으로 노출한다면, 대중은 추세를 따라갈 것이다. 대중은 갈색 옷의 마케팅에 반응할 , 자신의 선호에 대해 표현하지는 않는다.

 

"우리가 목격한 정말 환상적일 만큼 놀라운 일입니다. 인과관계가 전혀 없는데도, 뉴스 보도가 많아지면 해당 질병 보고 건수가 거기에 따라 늘어납니다."

 

자기부정적 예측(self-canceling prediction, 자기소멸적 예측) 자기충족적 예측과 정반대다. , 예측이 자체로 예측 내용을 약화시킨다. 재미있는 관련 사례가 바로 GPS 이용한 내비게이션 장치다.

 

단순성이야말로 예측 모델이 갖추어야 미덕이다. 어떤 모델이든 적어도 '세련되게sophisticatedly' 단순할 필요가 있다.

 

행위자 기반 모델링 agent-based modeling

 

 

III. 미래를 손에 움켜쥐는

 

불가리스가 성공을 거둔 그만의 정보 처리 방식 때문이다. 그는 특정한 양상(패턴) 좇기만 하지 않았다. 그는 자료 속에 내재된 의미 있는 '관계' 찾아내려 노력했다. 농구 지식과 통계학 지식을 결합했다. 물론 엄청난 노력을 들였다. 때로는 직감을 동원하기도 했다. 대단히 크고 복잡한 형태의 도박을 셈이다.

 

불가리스는 신문의 칼럼니스트나 도박업자들은 많지 않은 표본 자료를 지나치게 강조하고 그림과 그림을 관통하는 맥락을 무시한다고 생각했다.

 

성공하는 도박사들은(그리고 성공하는 모든 분야의 예측가들은) 미래를 100퍼센트 확실하다는 식으로 보지 않는다. 성공한 도박사들은 미래를 확률의 점수판으로 바라본다. 새로운 재료가 등장할 때마다 등락을 거듭하는 주식시장 증권시세 표시기의 깜박거림 같은 것으로 생각한다. 이들은 자기가 여러 확률에 대한 추정치가 도박시장에 나온 추정치와 상당하게 차이가 비로소 돈을 건다.

 

자료가 풍부한 환경에서는 특정한 양상을 찾아내는 일이 쉽다. 핵심은 양상들에 신호와 소음이 얼마나 반영되었는지 판단하는 있다. 불가리스가 돈을 걸거나 걸지 않는 이유가 가지만은 아니지만, 그의 판단과 결정에 도움을 주는 사고의 틀은 분명 존재한다. 이것이(우리가 '예측' 우리 주변 세상을 이해하는 능력의 핵심으로 이해한다면) 예측과 긴밀 관계가 있는 것이다. '베이즈주의적 추론 Bayesian reasoning' 바로 그것이다.

 

확률 예측과 과학의 밀접한 연관성은 이처럼 18세기에 베이즈와 라플라스 덕분에 온전히 이해하게 되었다.

 

베이즈 정리는 조건부확률 conditional probability 관련 있다. , 어떤 사건이 일어났다는 전제 아래 이론이나 가설이 참이나 거짓일 확률을 따진다는 말이다.

 

우리는 일반적으로 가장 새롭고 가장 즉각적으로 활용할 있는 정보에 초점을 맞추며, 그림인 전체는 놓쳐버린다.

 

베이즈 정리를 적용한다고 때는 확률 추정치 업데이트를 차례만 하는 아니다. 새로운 증거가 나타날 때마다 계속해서 확률 추정치를 업데이트한다.

 

베이즈 정리에서 유용한 결과를 얻어내려면, 여기에 정보 특히 사전확률 추정치를 입력해야 한다.

 

인터넷 이후의 세상은 인터넷 이전의 세상과 비교해 많은 진리의 세계가 아니다. 인쇄술 등장 이전의 세상과 비교도 마찬가지다. 우주의 대부분이 공간이듯이, 자료의 대부분은 소음으로 채워져 있다.

 

어떤 편견으로부터도 오염이 되지 않게 해줄 통계적 방법론 개발에 나섰다. 이런 방향의 통계적 흐름은 오늘날 일반적으로 '빈도주의 frequentism'라고 일컬어진다. 빈도주의에 '피셔주의적인 Fisherian'이라는 용어가 붙어 '베이즈주의적인' 대립해 사용된다. 빈도주의에서는, 통계의 불확실성은 '전체 개체군이 아니라 모집단의 극히 작은 단위인 표본에서만 자료를 취합하는 ' 전적으로 기인한다고 본다.

 

하지만 아무리 유용한 자료를 많이 모은다 해도 자료를 올바른 방식으로 사용하지 않는다면 전혀 소용이 없다.

 

베이즈주의적 관점의 멋진 특성 하나는, 우리 앞에 제시되는 새로운 증거를 해석하는 영향을 미치는 경험적(사전적) 믿음들prior beliefs 우리가 가지고 있음을 명쾌하게 인정할 , 세상의 변화에 우리가 반응하는 방식을 아주 자세하게 묘사한다는 점이다.

 

피셔가 놀라운 수를 찾아낼 있었던 바로 그가 어렸기 때문이다. 어린 만큼 상상력을 최대한 발동할 있었던 것이다. 우리 머릿속에 자리를 틀고 있는 맹점들은 보통 우리 스스로 만들어낸 것이다. 그리고 맹점들은 우리가 나이를 먹으면서 점점 많아진다. 컴퓨터 역시 맹점을 가질 있긴 하지만, 컴퓨터는 적어도 가능한 모든 수를 고려함으로써 상상력의 부족을 면할 있다.

 

우리가 저지르는 추정의 실수는 현실 세상에는 실제보다 높은 확실성이 존재한다고 잘못 생각하는 데서 비롯한다.

 

우리가 해결책에 가장 가까이 다가서는 어림값은, 신호와 소음 모두 우리 우주에서 없는 요소임을 깨닫고서 신호와 소음에 대해 전혀 흔들림 없는 마음의 평정 상태를 유지하며, 각각의 실체를 파악하고 평가하는 힘을 기울이는 것이다.

 

우리 인간의 두뇌는 크다. 그러나 우리는 우리가 이해할 없을 정도로 광대한 우주 속에 살고 있다. 확률적으로 생각하는 것의 미덕은, 확률적으로 생각하면 무조건 앞으로만 나아가는 아니라 잠시 걸음을 멈추고 서서 자료를 살펴보게 된다는 있다. , 자신의 믿음에 잘못된 없는지 생각할 있다는 말이다. 이런 과정이 오랜 시간에 걸쳐 반복되면, 당신은 자신이 내리는 판단의 질이 점점 좋아진다는 사실을 깨닫게 것이다.

 

정보는 맥락에 놓일 때만 비로소 지식이 된다. 맥락을 전제하지 않고서는 신호와 소음을 구분할 없다. 경우에 진리를 좇는 탐색은 온갖 가짜 '' 파묻혀버린다.

 

예측은 아주 중요하고, 때문에 더욱 어렵다. 소음에서 신호를 분리하려면 과학적 지식과 자기 인식을 동시에 갖추어야 한다. , 객관적 실체와 주관적 실체를 교차시켜야 한다. 우리가 예측할 없는 것에 대한 겸손함과 예측할 있는 것을 예측할 있는 용기, 그리고 사이의 차이를 아는 지혜가 필요하다.

 

책의 목적은 정확하게 미래를 예측하는 것이다.

 

책의 저자인 네이트 실버가 독자에게 전하고 싶은 것을 요약하자면, 베이즈 정리, 베이즈주의, 베이즈주의적 세계관이다. 기존의 통계학이 멈춰 있는 과녁을 맞히는 것이라면 베이즈주의 통계학은 움직이는 과녁을 맞히는 것이다.