본문 바로가기
책 이야기

[니시우치 히로무] 빅데이터를 지배하는 통계의 힘

by manga0713 2015. 3. 20.

 

 

 

 

데이터든 스몰 데이터든 데이터의 중요성에 대한 인식이 넓어져 가고 깊어져 가는 것은 데이터 분석이 가운데 하나인 제게는 무척이나 반가운 소식입니다.

 

그러나 여전히 아쉬움으로 남는 부분은 놓여진 데이터를 어떻게 것이냐. 데이터를 보고 어떤 판단을 내리며 어떤 행동을 이끌어 있는가. 하는 부분입니다.

 

저자는 바로 부분에 필요한 것이 '통계학적 리터러시'라고 다음과 같이 주장 합니다.

 

"읽고 쓰는 능력을 리터러시(Literacy)라고 하는데 통계학적 리터러시, '통계 리터러시' 없으면 사업적으로, 개인적으로 제대로 결정을 내리지 못할 위험이 크다. ~ 통계 리터러시가 없으면 확률이나 데이터를 이해할 없기 때문이다."

 

저도 주장에 전적으로 동의합니다.

 

통계 리터러시, 통계에 대한 유연한 활용 지식은 집계 데이터만 가지고 어찌할 몰라 주저주저 하던 분들에게 데이터의 이해를 통한 인사이트의 확보, 데이터를 증거로 하는 실천 동력의 확보라는 커다란 힘이 된다고 생각 합니다.

 

책은 통계의 세밀한 이론이나 활용 기법을 설명하지는 않습니다.

통계에 대한 전반적인 이야기를 가볍게 전하면서 통계 지식의 필요성, 통계 리터러시 필요성을 주장 합니다.

출퇴근 길에 가볍게 읽어 보시기를 추천 합니다.

 

 

다음은 책의 밑줄 부분입니다.

 

 

빅데이터, 통계학에서부터 시작하라

 

읽고 쓰는 능력을 리터러시(Literacy)라고 하는데 통계학적 리터러시, '통계 리터러시' 없으면 사업적으로, 개인적으로 제대로 결정을 내리지 못할 위험이 크다. ~ 통계 리터러시가 없으면 확률이나 데이터를 이해할 없기 때문이다.

 

'역학의 아버지' 불리는 스노(John Snow, 1813~1858) 행동은 아주 단순했다. ①콜레라로 목숨을 잃은 환자의 집을 가가호호 방문해 이것저것 묻고 주변 환경을 관찰한다. ②똑 같은 상황 아래서 콜레라에 걸린 사람과 걸리지 않은 사람의 차이를 비교한다. ③가설이 세워졌으면 대규로모 데이터를 모아 콜레라의 발병과 관련돼 있을 것처럼 보이는 '차이' 어느 정도 확실성이 있는지 검증한다.

 

통계해석: 조사를 통해 밝혀낸 수치가 어느 정도의 신뢰성과 유의미성을 갖고 있으며 인과관계의 방향은 어떠한지, 어떤 사실관계를 있는지 등을 밝혀내는

 

바라든 바라지 않든 어떤 학문에 종사하는 학자라도 통계학을 사용해야 하는 시대가 이미 도래했으며 통계 리터러시만 갖추고 있으면 경험과 이상의 실제적인 무기를 손에 넣은 것이다.

 

 

정보비용을 대폭 줄여주는 통계

 

빅데이터가 무의미하다는 이야기가 아니다. '우선은 올바른 판단에 필요한 최소의 데이터를 다룰 ' 추천하는 것이다.

 

해석은 자체에 가치가 있는 것이 아니라 활용을 통해 있는 일이 무엇이고 어떤 가치를 얻는지에 따라 달라지기 때문이다.

 

 

오차와 인과관계가 통계학의 핵심이다

 

(분석 또는 해석을 통해) 구체적인 행동을 이끌어내려면 적어도 다음 ' 가지 질문' 답할 있어야 한다. ①어떤 요인을 변화시켜야 이익이 향상될까? ②그런 변화를 일으키는 행동이 실제로 가능한가? ③그에 따르는 비용이 이익을 상회할까?

 

자사 브랜드에 호감이 있든 말든 비즈니스에서 중요한 것은 '브랜드 호감도가 높은 사람일수록 구매력이 클까?'하는 점이다.

 

아무것도 대답해주지 않는 단순집계는 별다른 도움이 되지 않는다.

 

대다수 사람들은 ' 시청자 ', '캠페인 사이트의 접속자 ', '호감도' 각종 프로모션 평가에 이용되는 지표가 실제로 매출을 일으키는지 어떤지도 모르면서 수치에만 집착하는 경향이 있다.

 

무턱대고 빅데이터만을 주장할 필요도 없지만 의미 있는 해석이 가능한 최소 표본의 수는 알고 있어야 한다.

 

오차를 이해하고 고려한 상태에서도 의미 있는 결과인지 아닌지 알려면 통계학적인 사고방식을 생활화해야 한다.

 

'어떤 데이터를 수집하고 해석할까' ~ 비결은 간단하다. '지향하는 목적을 달성한 ' '그렇지 않은 ' 차이를 비교하면 된다. ~ 비즈니스맨이라면 무엇을 목적으로 삼아야 할지 명확하다. 바로 '이익을 극대화하는 '이다.

 

이익과 직결되는 요소들을 수집해 통계 해석한다.

 

비즈니스에서 마땅히 해석해야 지표는 직접적인 이익이 생기는가, 혹은 거기에 도달하는 인과관계의 과정이 확실한가 하는 점이다. 관계자 사이에 '이것은 분명 이익으로 이어질 지표이다' 같은 함의가 생긴다면 마땅히 지표는 비교할 가치가 있다.

 

많은 데이터 무엇이 어떤 관계성을 갖고 이익으로 이어지는가.

 

인과관계의 방향을 생각하면 (하나의 결과는) 반대의 설명도 가능해진다. 따라서 '광고를 봐서 상품을 구매' 것인지 '상품을 사서 광고를 후에도 기억하고 있는지' 확실히 규정할 없다. 이처럼 시점의 조사 데이터의 해석 결과는 p- 값이 아무리 적더라도 어느 가설이 올바른지 완전한 정보를 제공하지 않기 때문이다.

 

 

'임의화'라는 최강의 무기 활용하기

 

가지 방식(홍차가 먼저, 우유가 먼저) 밀크티를 임의로 마시게 하고 어느 정도 맞히는지를 검증하는 것이 임의화 비교실험의 기본적인 사고방식이다.

 

'관찰'이란 대상을 자세히 보고 측정해 그로부터 어떤 진실을 밝히는 행위이다. '실험' 다양하게 조건을 바꾼 상태에서 대상을 보고 측정해 그로부터 어떤 진실을 밝히는 행위이다. [앙리 푸앵카레]

 

바로 관찰과 실험 분야에서 통계학이 힘을 발휘한다. 또한 임의화 비교실험이라는 방법론은 '실험이란 무엇인가'라는 생각에서 한걸음 앞서 나아간 개념이다.

 

모든 조건을 임의화하면 평균적으로 비교하려는 그룹이 동일한 조건에 놓이게 된다.

 

통계학적 근거도 없이 반드시 옳다고 판단하는 것이 어리석은 만큼, 무조건 잘못이라고 여기는 또한 잘못이다.

 

사내에 수없이 산적해 있는 문제에 대해, 정답이 없으면 우선 임의로 정해놓고 실험해보는 것의 가치는 생각 이상으로 크다. 다만 지속적으로 데이터를 수집하는 일은 절대로 소홀히 해서는 된다. 그래야만 나중에 정확하게 ' 방법이 좋았는지', '어느 정도 이익으로 이어졌는지' 등의 부분을 평가할 있기 때문이다.

 

임의를 '적당히, 대충' 의미로 받아들이는 사람도 있는데 그보다는 '무작위' 풀이하는 것이 타당하다. 무작위란 인간의 의사가 포함되지 않도록 한다는 뜻으로, 달리 말하면 '확률적'이라 있다. 주의해야 것은 우리가 '무작위로' 혹은 '대충' 끄집어낸 숫자는 종종 '임의' 되지 않을 수도 있다는 점이다.

 

세상에는 임의화를 하는 자체가 불가능한 경우, 임의화가 허용되지 않는 경우 그리고 하는 자체는 아무 문제가 없는데 하면 손해를 입는 경우 가지의 벽이 있다. 번째 벽은 '현실', 번째 벽은 '윤리', 그리고 번째 벽은 '감정'이다.

 

 

통계학은 계속 발전하고 있다

 

데이터의 관계성을 기술하는 , 다시 말해 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 것을 회귀분석이라하며 수식의 직선을 회귀직선이라 부른다. 중요한 의미를 갖는 것은 실제의 조사결과를 보여주는 실선인데, 이를 통해 점선(가정한 이론상의 관계)으로 그려진 이론상의 관계성과의 차이를 있다.

 

평균값으로의 회귀. 실제 데이터는 이론상으로 추측한 값보다 '평균값에 가까워진다' 의미이다.

 

불규칙성이 생기는 현상에 대해서는 이론적인 예측을 제대로 못한다. 따라서 올바른 데이터를 모아 회귀분석을 필요가 있다.

 

심슨의 패러독스. 전체 집단 간의 단순비교는 구성요소가 되는 소집단 간의 비교 결과와 모순되는 경우도 있다는 지적.

 

 

통계학의 여섯 가지 활용 분야

 

예측 자체가 최종 목적이라면 데이터마이닝은 유효하다. 예측모델을 통해 앞으로 무엇을 해야 하는지 논의하고 싶다면, 회귀모델이 도움이 된다. 이러한 차이를 이해한 상태에서 적절한 기법을 선택하는 능력이 21세기의 통계학자에게 중요하다.

 

한정된 정보와 가정을 조합하는 '효율성' 요구된다면 베이즈론을 사용하면 되고, '잘못될 가능성을 줄이고 싶다'거나 '충분한 데이터가 확보되어 있다' 빈도론으로 p- 값을 구하는 편이 낫다.

 

 

에비던스 활용하기

 

계통적 리뷰와 메타 분석