데이터 분석을 업 가운 데 하나로 삼고 있는 저에게는 이 책의 제목과 같이 '신호와 소음'의 분별은 무척이나 중요한 사항입니다. 그래서인지 자연스럽게 이 책에 손이 갔지요. 읽어 가면서 자연스레 나의 업을 더 윤택하게 하고 그를 통해서 나를 빛낼 수 있는 거 뭐 없나 하는 탐욕을 가지고 게걸스럽게 읽어 내려 갔습니다.
그런 내게 저자는 다음과 같이 한 방 먹입니다.
"완벽한 예측은 불가능하다는 것을 인정하라!"
알고는 있었지만 인정하기 싫었던 내용이지요. 그럼 어찌하란 말이지?
"베이즈주의적 방식으로 예측하라!"고 합니다.
이 책의 역자께서 잘 정리해 주신 말처럼 "네이트 실버가 독자에게 전하고 싶은 것을 요약하자면, 베이즈 정리, 베이즈주의, 베이즈주의적 세계관이다. 기존의 통계학이 멈춰 있는 과녁을 맞히는 것이라면 베이즈주의 통계학은 움직이는 과녁을 맞히는 것이다."
움직이는 과녁에의 적중을 위하여 지속적으로 정확성을 증진하고 지속적으로 정밀도를 높여가라는 말 입니다.
이 '지속성'에는 끈기뿐만 아니라 완벽한 예측의 중압에서 벗어난 자유도, 전문적 지식의 함양, 타 전문가들의 의견 정청(正聽)에 대한 노력도 포함 되는 것이지요.
이 책은 내게 '의도성'을 제거하라는 강력한 권고도 주었습니다.
내 의견을 전달하기 위해서 고객의 마음을 기쁘게 하기 위해서 '진실'에 가까운 것이 아닌 '사실'을 표현하는 것에만 급급했던 내 모습이 부끄러웠습니다.
두껍고 무겁지만 기간을 두고 천천히 읽어 보시길 권 합니다.
다음은 이 책의 밑줄 친 부분입니다.
온갖 신호가 분명 있었다. 그런데 미국인은 그 신호들을 온전하게 하나로 꿰지 못했다.
'빅 데이터'는 발전을 낳는다. 하지만 여기에는 "궁극적으로 볼 때"라는 단서가 붙는다.
아무런 양상도 없는 곳에서 양상을 본다는 게 문제
무작위의 소음 속에서 양상을 발견하는 일
인간의 뇌는 정말 놀랍다. 무려 3테라바이트의 정보를 저장할 수 있으니 말이다. 하지만 이 정보량은 지금 전 세계에서 매일 생산되는 정보량의 약 100만 분의 1밖에 되지 않는다. 그런 만큼 우리는 우리가 취해서 기억하는 정보를 굉장히 조심스럽게 선별해야 한다.
최근 Nature지에 실린 한 논문은, 정치 신념이 강한 사람들이 지구온난화 정보를 더 많이 접할수록 같은 생각으로 뭉치는 경향성은 오히려 줄어든다는 사실을 발견하기도 했다.
정보의 양이 하루에 2.5퀸틸리언(250경) 바이트씩 늘어난다곤 해도 유용한 정보의 양은 그렇게 빠른 속도로는 늘어나지 않는다. 이는 거의 확실하다. 정보 대부분은 그저 소음일 뿐이다. 소음은 신호보다 점점 빠르게 늘어나고 있다. 검증에 동원할 가설은 너무도 많고 챙겨야 할 자료 또한 너무나 많다. 하지만 객관적 진리의 양은 상대적으로 일정하다.
실수가 하나라도 나타나면 쉽게 재생산 될 수 있는 게 오늘날의 상황이다. 빠진 글자 때문에 간음을 독려하게된《부도덕성서》의 사례처럼 말이다.
인터넷은 정보를 확산하는 데 믿을 수 없으리만큼 효율성 있는 기제라서, 좋은 생각뿐 아니라 나쁜 생각 또한 퍼뜨릴 잠재력이 있다. 나쁜 생각들은 불균형 효과dispropertionate effect를 유발할 수 있다.
예측을, 선택된 전문가 집단이 수행하는 특정한 일이 아니라 여러 사람이 함께 참여하는 공동작업으로 바라본다.
예측이 중요한 이유는 주관적 실체와 객관적 실체를 이어주기 때문이다.
사례는 좀 더 직접적이고 구체적인데 그래야 예측의 성공과 실패를 좀 더 쉽게 구분할 수 있기 때문이다.
과거를 지침으로 활용하려는 우리의 욕구와, 미래는 다를 것이라는 우리의 인식을 어떻게 하면 하나로 엮을 수 있을까?
정보를 지식으로 변환하는 방식도 통찰할 수 있을 것이다.
I. 예측에 대한 근본적인 의문들
'감시surveillance'는 ~ 투자자들한테 당신이 관찰하는 내용을 지속해서 알려준다는 뜻이지요.
'알려지지 않은 미지 unknown unknowns'의 위험
어쩌면 유일하게 더 큰 위협은 우리가 어떤 것을 통제하고 있다고 생각하지만 사실은 전혀 그렇지 않은 위험일지도 모른다.
"잘못될 가능성이 있는 것과 절대로 잘못될 수 없는 것 사이의 중요한 차이는, 절대로 잘못될 수 없는 것이 잘못될 때에는 그런 상황을 이해하거나 문제를 바로잡는 일이 불가능하다는 점이다." -더글러스 애덤스
당신은 기분이 몹시 우울하다. 보드카에 탄산수를 넣어 딱 한 잔만 한다는 게 열 두잔이나 마신다. 당신은 엄청 취하고 만다. 고주망태다. 자, 이때 당신은 자동차를 몰고 집으로 돌아가는가, 택시를 부르는가?
확실히 이 문제는 너무 쉽다. 당신은 택시를 부르고, 이튿날 아침 회의를 취소한다.
그러나 당신은 재미 삼아서 본인이 직접 차를 몰아 집으로 돌아갈 수도 있다. 당신은 2만 회 운전한 표본 가운데서 딱 두 번 사소한 접촉사고를 냈을 뿐이다. 나머지 1만 9,998번은 아무 일 없이 안전하게 목적지에 도착했다. 확률을 보자면, 당신에게 유리한 승률이다. 그러니 번거롭게 택시를 부를 것 없이 직접 차를 몰고 가는 게 낫지 않을까?
그런데 문제는 당신은 그 20만 회 운전 가운데 단 한 번도 고주망태가 되어 운적석에 앉은 적이 없다는 데 있다. 당신의 음주운전 표본의 수는 2만 개가 아니라 0개다. 따라서 당신은 과거의 경험을 가지고 당신이 사고를 낼 위험을 예측할 수가 없다. 이거이 바로 '표본 외 out of sample' 문제의 사례다.
정보화 시대에 우리가 직면하고 또 우리 도처에 스며 있는 위험 가운데 하나는, 지식의 양이 아무리 넘쳐나더라도 우리가 실제로 아는 것과 우리가 안다고 생각하는 것 사이의 격차는 점점 벌어지고 있다는 데 있다. 이런 현상은 겉으로는 무척이나 정확하게 보이지만 실제로는 전혀 그렇지 않은 예측들과 연관 있기 십상이다.....이는 당신이 쏜 총알이 과녁 한가운데에 적중하지 않았는데도 언제나 대체로 비슷한 지점을 맞혔다는 사실을 들어, 다시 말해 정확하지는 않지만 정밀하다는 점만 가지고서 자기가 명사수라고 주장하는 일과 비슷하다. 금융위기들은 (그리고 예측 실패 대부분은) 이처럼 잘못된 확신에서 비롯한다. 정밀한 예측이 정확한 예측으로 가장한다.
여우의 태도와 고슴도치의 태도
여우는 어떻게 생각하는가? |
고슴도치는 어떻게 생각하는가? |
여러 분야에 걸쳐서 생각한다: 정치적 스펙트럼의 기원과 상관없이 다양한 원리에서 비롯한 발상들을 통합한다. |
구체적으로 생각한다: 커다란 한두 문제에 집중한다. '외부인'의 의견을 회의적으로 바라보는 경향을 보인다. |
적용할 수 있는 것을 생각한다: 새로운 접근법을 찾아 내거나 동시에 여러 개 접근법 을 추구한다. 최초의 접근법이 효과가 없어도 상 관하지 않는다. |
대범하게 생각한다: '올인' 접근법을 고수하며, 새로운 자료를 동원해 자신이 맨 처음 설정한 모델을 다듬는다. |
자기비판적으로 생각한다: 때로는 자기가 한 예측에서 잘못된 점이 있다는 것을 인정하고 그에 따른 비난을 (비록 행복한 마음으로는 아니라 할지라도) 주저 없이 받아들 인다. |
고집스럽게 생각한다: 실수는 운이 나빴거나 환경과 조건이 특이했기 때문이라고 생각한다. 좋은 모델도 틀릴 때가 있다고 생각한다. |
복잡성을 관대하게 받아들여서 생각한다: 우주는 복잡한 것이라고 바라본다. 그뿐 아니라 수많은 본질적 문제가 해결될 수 없다거나 근본 적으로 예측 불가능하다고까지 생각한다. |
질서정연한 것을 생각한다: 일단 어떤 신호signal가 소음noise 속에서 포착되면, 세상 은 상대적으로 단순한 중심적 원리에 따라 돌아간다는 사 실이 드러나길 기대한다. |
조심스럽게 생각한다: 자기가 하는 예측을 확률적 용어로 표현하며 자기 의견에 단서를 여럿 단다. |
자신만만하게 생각한다: 자기가 하는 예측이 잘못될 것에 대비하는 일이 거의 없으며 자기가 한 예측을 바꾸려 하지 않는다. |
경험적으로 생각한다: 이론보다는 관찰에 더 많이 의존한다. |
이론적으로 생각한다: 일상의 여러 문제에 대한 해결책들은 거대한 이론이나 투쟁 이 구체화한 것으로 생각한다. |
여우는 더 나은 예측자다 |
고슴도치는 더 못한 예측자다 |
여우의 원칙1 - 확률적으로 생각하라
여우의 원칙2 - 날마다 새로운 예측을 하라
여우의 원칙3 - 집단지성을 활용하라
예측가로서 올바른 태도는 오늘은 오늘 할 수 있는 최선의 예측을 하겠다는 마음가짐이다.
한정된 정보를 최대한으로 활용하려면 더 새롭고 나은 정보가 나타날 때마다 자기가 한 예측을 업데이트해야 한다.
세상을 바라보는 눈이 다양한 사람들이 모인 집단은 으레 그러하듯이, 제각기 다른 유형의 정보들을 긁어모으는 것으로 나타난다.
정보가 양적인지 질적인지는 그 정보를 어떻게 사용하는가보다 결코 더 중요하지 않다.
경쟁이 어떤 곳보다 치열한 프로스포츠의 세계에서 예측을 가장 잘할 수 있으려면, 그는 무엇보다 스스로 혁신가가 되어야 한다.....적절한 공간에서 새로운 발상과 정보를 좀 더 자주 찾을 수 있도록 여러 도구와 습관을 개발하는 게 관건이다. 그 발상과 정보를 일단 포착하고 나면 이를 '승리 또는 패배'로 이끌어줄 기량을 연마하는 일이 핵심이라는 말이다.
II. 움직이는 과녁을 맞혀라!
예측을 소비자에게 맞춰야 한다는 필요성 때문에 '매우 춥다'는 어느 정도 추운 것인지. '부분적으로 구름이 낀다'와 '대체로 구름이 낀다'를 가르는 기준은 무엇인지 등의 표현의 의미를 밝히고 또 여기에 필요한 공식 규칙을 만들 필요가 있다.
그런데 문제는 무엇이 '더 나은' 예측인가 하는 인식의 차이에 있다.
앨런 머피의 예측의 3 가지 정의: 품질(quality[정확성 accuracy]), 일관성(consistency[정직성 honesty]), 경제적 가치(economic value)
사람들은 비가 오지 않는다고 했는데 비가 오는 경우를 비가 온다고 했는데 오지 않는 경우보다 더 예민하게 받아들인다. 전자는 예보관들을 비난하지만, 후자는 뜻밖의 횡재로 생각하며 가볍게 넘어간다.
지질학에서의 예측 Prediction과 예상 Forecast:
1. 예측: 지진이 언제 그리고 어디에서 일어날 것인지 구체적이고 명시적으로 말하는 것이다. '대규모 지진이 6월 28일에 일본 교토를 강타할 것이다'가 예측이다.
2. 예상: 확률적 진술이며 대개는 장기적 차원의 발상이다. '지진이 30년 안에 캘리포니아 남부 지역에서 일어날 확률은 60% 다'가 예상이다.
지진을 예측할 수는 없어도 예상할 수는 있다는 게 미국지질조사소의 공식 입장이다.
어느 예측 방법론이 성공을 거두었다고 평가할 수 있으려면, 우선 '현재의 정보를 가지고 과거의 판단을 추론하는 것'은 예측 행위가 아님을 확인해야 한다. 이 같은 식으로 '과거를 예측'하는 것은 그 자체가 모순이며, 따라서 예측이 성공했다고 말할 수 없다.
과잉적합overfitting: '일반적인' 문제를 푸는 방법으로 '지나치게 특수한' 해법을 제시한 경우 (마치 번호 자물쇠의 조합을 푸는 방법으로 특정한 자물쇠의 번호를 답으로 제시하는), 과잉적합은 더 나쁜 예측을 유도한다.
자료가 한정되어 있고 소음이 많을 때 그리고 자료 안에 내재하는 근본 관계에 대해 이해가 부족할 때, 사람들은 대개 과잉적합의 오류를 범한다.
예측이 실제로 얼마나 잘 맞느냐와 얼마나 잘 맞는다고 인식되느냐 사이에는 실로 엄청난 간극이 있다.
예측이 행동을 바꾼다: 인간활동에 대해 예측을 할 때 많은 경우, 예측이라는 행위 자체가 예측 대상자들의 행동을 바꾸어놓을 수 있다. 때로, 행동의 이런 변화들은 경제 분야에서와 마찬가지로 예측 결과에 영향을 미칠 수 있다. 이 영향은 예측을 더 정확하게 할 수도 있고, 완전하게 빗나가게 할 수도 있다.
자기충족적 예측(self-fulfilling prediction)의 사례: 패션업체들은 다음 시즌에 유행할 색을 예측한다. 이 예측은 한 해 전쯤에 이미 나와야 한다. 제품을 디자인하고 생산하는 데까지 그만큼 시간이 걸리기 때문이다. 만일 영향력 있는 디자이너들이 갈색이 내년을 지배할 유행 색이라고 판단해 갈색 옷을 제작하기 시작하고, 유명 모델이나 사회적으로 지명도가 높은 사람들에게 갈색 옷을 입치고 또 매장들에서 진열대나 카탈로그를 통해 갈색 옷을 사람들에게 지속적으로 노출한다면, 대중은 이 추세를 따라갈 것이다. 대중은 갈색 옷의 마케팅에 반응할 뿐, 자신의 선호에 대해 표현하지는 않는다.
"우리가 목격한 건 정말 환상적일 만큼 놀라운 일입니다. 인과관계가 전혀 없는데도, 뉴스 보도가 많아지면 해당 질병 보고 건수가 거기에 따라 늘어납니다."
자기부정적 예측(self-canceling prediction, 자기소멸적 예측)은 자기충족적 예측과 정반대다. 즉, 예측이 그 자체로 예측 내용을 약화시킨다. 재미있는 관련 사례가 바로 GPS를 이용한 내비게이션 장치다.
단순성이야말로 예측 모델이 갖추어야 할 미덕이다. 어떤 모델이든 적어도 '세련되게sophisticatedly' 단순할 필요가 있다.
행위자 기반 모델링 agent-based modeling
III. 미래를 내 손에 움켜쥐는 법
불가리스가 성공을 거둔 건 그만의 정보 처리 방식 때문이다. 그는 특정한 양상(패턴)을 좇기만 하지 않았다. 그는 자료 속에 내재된 의미 있는 '관계'를 찾아내려 노력했다. 농구 지식과 통계학 지식을 결합했다. 물론 엄청난 노력을 들였다. 때로는 직감을 동원하기도 했다. 대단히 크고 또 복잡한 형태의 도박을 한 셈이다.
불가리스는 신문의 칼럼니스트나 도박업자들은 많지 않은 표본 자료를 지나치게 강조하고 큰 그림과 또 이 그림을 관통하는 맥락을 무시한다고 생각했다.
성공하는 도박사들은(그리고 성공하는 모든 분야의 예측가들은) 미래를 100퍼센트 확실하다는 식으로 보지 않는다. 성공한 도박사들은 미래를 확률의 점수판으로 바라본다. 새로운 재료가 등장할 때마다 등락을 거듭하는 주식시장 증권시세 표시기의 깜박거림 같은 것으로 생각한다. 이들은 자기가 낸 여러 확률에 대한 추정치가 도박시장에 나온 추정치와 상당하게 차이가 날 때 비로소 돈을 건다.
자료가 풍부한 환경에서는 특정한 양상을 찾아내는 일이 쉽다. 핵심은 그 양상들에 신호와 소음이 얼마나 반영되었는지 판단하는 데 있다. 불가리스가 돈을 걸거나 걸지 않는 이유가 한 가지만은 아니지만, 그의 판단과 결정에 도움을 주는 사고의 틀은 분명 존재한다. 이것이(우리가 '예측'을 우리 주변 세상을 이해하는 능력의 핵심으로 이해한다면) 예측과 긴밀한 관계가 있는 것이다. '베이즈주의적 추론 Bayesian reasoning'이 바로 그것이다.
확률 및 예측과 과학의 밀접한 연관성은 이처럼 18세기에 베이즈와 라플라스 덕분에 온전히 이해하게 되었다.
베이즈 정리는 조건부확률 conditional probability과 관련 있다. 즉, 어떤 사건이 일어났다는 전제 아래 이론이나 가설이 참이나 거짓일 확률을 따진다는 말이다.
우리는 일반적으로 가장 새롭고 또 가장 즉각적으로 활용할 수 있는 정보에 초점을 맞추며, 더 큰 그림인 전체는 놓쳐버린다.
베이즈 정리를 적용한다고 할 때는 확률 추정치 업데이트를 한 차례만 하는 게 아니다. 새로운 증거가 나타날 때마다 계속해서 확률 추정치를 업데이트한다.
베이즈 정리에서 유용한 결과를 얻어내려면, 여기에 정보 특히 사전확률 추정치를 입력해야 한다.
인터넷 이후의 세상은 인터넷 이전의 세상과 비교해 더 많은 진리의 세계가 아니다. 인쇄술 등장 이전의 세상과 비교도 마찬가지다. 우주의 대부분이 텅 빈 공간이듯이, 자료의 대부분은 소음으로 채워져 있다.
어떤 편견으로부터도 오염이 되지 않게 해줄 통계적 방법론 개발에 나섰다. 이런 방향의 통계적 흐름은 오늘날 일반적으로 '빈도주의 frequentism'라고 일컬어진다. 이 빈도주의에 '피셔주의적인 Fisherian'이라는 용어가 붙어 '베이즈주의적인'에 대립해 사용된다. 빈도주의에서는, 통계의 불확실성은 '전체 개체군이 아니라 모집단의 극히 작은 단위인 표본에서만 자료를 취합하는 데'서 전적으로 기인한다고 본다.
하지만 아무리 유용한 자료를 많이 모은다 해도 이 자료를 올바른 방식으로 사용하지 않는다면 전혀 소용이 없다.
베이즈주의적 관점의 멋진 특성 하나는, 우리 앞에 제시되는 새로운 증거를 해석하는 데 영향을 미치는 경험적(사전적) 믿음들prior beliefs을 우리가 가지고 있음을 명쾌하게 인정할 때, 세상의 변화에 우리가 반응하는 방식을 아주 자세하게 묘사한다는 점이다.
피셔가 그 놀라운 수를 찾아낼 수 있었던 건 바로 그가 어렸기 때문이다. 어린 만큼 상상력을 최대한 발동할 수 있었던 것이다. 우리 머릿속에 자리를 틀고 있는 맹점들은 보통 우리 스스로 만들어낸 것이다. 그리고 이 맹점들은 우리가 나이를 먹으면서 점점 더 많아진다. 컴퓨터 역시 맹점을 가질 수 있긴 하지만, 컴퓨터는 적어도 가능한 모든 수를 고려함으로써 상상력의 부족을 면할 수 있다.
우리가 저지르는 추정의 실수는 현실 세상에는 실제보다 더 높은 확실성이 존재한다고 잘못 생각하는 데서 비롯한다.
우리가 해결책에 가장 가까이 다가서는 어림값은, 신호와 소음 모두 우리 우주에서 뺄 수 없는 요소임을 깨닫고서 이 신호와 소음에 대해 전혀 흔들림 없는 마음의 평정 상태를 유지하며, 각각의 실체를 파악하고 평가하는 데 온 힘을 기울이는 것이다.
우리 인간의 두뇌는 크다. 그러나 우리는 우리가 이해할 수 없을 정도로 광대한 우주 속에 살고 있다. 확률적으로 생각하는 것의 미덕은, 확률적으로 생각하면 무조건 앞으로만 나아가는 게 아니라 잠시 걸음을 멈추고 서서 자료를 살펴보게 된다는 데 있다. 즉, 자신의 믿음에 잘못된 게 없는지 생각할 수 있다는 말이다. 이런 과정이 오랜 시간에 걸쳐 반복되면, 당신은 자신이 내리는 판단의 질이 점점 더 좋아진다는 사실을 깨닫게 될 것이다.
정보는 맥락에 놓일 때만 비로소 지식이 된다. 맥락을 전제하지 않고서는 신호와 소음을 구분할 수 없다. 이 경우에 진리를 좇는 탐색은 온갖 가짜 '참'에 파묻혀버린다.
예측은 아주 중요하고, 그 때문에 더욱 어렵다. 소음에서 신호를 분리하려면 과학적 지식과 자기 인식을 동시에 갖추어야 한다. 즉, 객관적 실체와 주관적 실체를 교차시켜야 한다. 우리가 예측할 수 없는 것에 대한 겸손함과 예측할 수 있는 것을 예측할 수 있는 용기, 그리고 이 둘 사이의 차이를 아는 지혜가 필요하다.
이 책의 목적은 더 정확하게 미래를 예측하는 것이다.
이 책의 저자인 네이트 실버가 독자에게 전하고 싶은 것을 요약하자면, 베이즈 정리, 베이즈주의, 베이즈주의적 세계관이다. 기존의 통계학이 멈춰 있는 과녁을 맞히는 것이라면 베이즈주의 통계학은 움직이는 과녁을 맞히는 것이다.
'책 이야기' 카테고리의 다른 글
[이지웅] 말씀을 읽다 (0) | 2015.03.06 |
---|---|
[조나단 스위프트] 걸리버 여행기 (0) | 2015.02.10 |
[김정운] 에디톨로지 창조는 편집이다 (2) | 2015.01.29 |
[헨리 클라우드] 크리스천을 위한 마음코칭 (0) | 2015.01.26 |
[조엘 오스틴] 긍정의 힘 (0) | 2014.09.29 |