본문 바로가기
책 이야기

[크리스티안 루더] 빅데이터 인간을 해석하다

by manga0713 2016. 11. 11.

[이미지 출처: 인터넷 교보문고]

 

 

 

"데이터의 시대는 이미 시작됐다. 현재 우리는 기록되고 있으며 우리의 삶에 관한 데이터는 자체로 살아 있는 존재이며 언제나 변한다." 그렇게 우리가 "눈치채지 못하는 사이에 빅데이터라는 데이터베이스 안에는 " 치의 갈망, 의견, 혼돈이 쌓여" 있으며 쌓여 가고 있는 것이다. 이렇게 쌓인 우리와 개인의 종단 데이터는 인간의 인간에 대한 앎의 욕구를 충족할 있는 때가 왔다고 저자는 말한다.

 

또한 자신의 주장을 자체로 살아 있는 존재이며 언제나 변하는 데이터, 알고리즘이라는 인간의 갈망을 통해 생성되어지는 숫자 자체를 우리, 인간의 서술이라 받아들이며 '무엇이 우리를 연결하는지', '무엇이 우리를 분열 시키는지', '무엇이 우리를 만들어 가는지' 실증적 데이터를 기반한 도표와 그래프로 알려준다.

 

쌓여진 데이터의 가능성을 귀에 못이 박히도록 들었으나 잠재력의 실제를 확인하지 못해 목말라 했던 모든 이들에게 책을 추천한다.

 

다음은 책의 밑줄 부분이다.

 

트위터, 레딧, 텀블러, 인스타그램은 물론 기업체이지만, 동시에 규모와 완전성과 중요성 면에서 이제껏 존재한적 없는 수준의 인구 통계 기구이기도 하다.

 

서술에서 벗어나 숫자를 통해 우리 자신을 알아보자는 아이디어다. 아니, 숫자 '자체' 서술로 생각하자는 것이 옳은 표현일지도 모르겠다.

 

인터넷이란 극도로 섬세한 눈속임이다.

 

사랑하려면 눈이 멀어야 같지만, 사실 사랑에는 눈이 달려 있다.

 

사실 트위터, 페이스북, 구글 같은 웹사이트는 이미 생활규범이 돼버렸기 때문에 사용자층은 평범할 수밖에 없다.

 

눈치채지 못하는 사이에 사람들은 독특한 아카이브를 만들어 냈다. 현재 세계 데이터베이스에는 치의 갈망, 의견, 혼돈이 쌓여 있다. 게다가 무척 정밀하게 보관되어 있다. 시간뿐 아니라 범위, 유연성 모든 면에서 불과 10 전까지만 해도 상상할 없었던 완전한 분석이 가능해졌다.

 

무엇보다도 지금까지는 전설적인 인물과 마주친 없는 보통 사람의 존재에 기록 가치란 없었다. 하지만 나머지 사람들이 내는 소곤거리고 바스락거리는 작은 목소리가 마침내 기록되기 시작하면서 이런 불균형의 시대는 막을 내리고 있다.

 

나는 데이터가 내연 기관이나 철강처럼 인류 역사의 방향을 바꿀 거라는 말은 하고 싶지 않다. 하지만 역사가 '무엇'인지는 데이터에 의해 바뀔 거라 믿는다.

 

 

1 무엇이 우리를 연결하는가

 

'종단자료' 일정 기간 같은 사람을 추적하여 기록한 자료를 말한다. ~ 지금 우리는 종단 정보를 그야말로 하루하루 조금씩 쌓는 단계에 있다.

 

데이터 시각화에서는 물리적 공간 자체가 관계 정보를 전달한다.

 

분산이 장점이 된다는 개념은 일부 학문에서는 이미 정설처럼 여겨지고 있다. 사회 심리학자들은 이런 현상을 '실수 효과 pratfall effect'라고 부른다. 전반적으로 경쟁력이 높은 사람이 가끔 사소한 실수를 저지르면 사람들은 그의 경쟁력을 높이 평가한다. 실수는 장점을 돋보이게 한다.

 

남들과 똑같아지기 위해 자신을 맞추려 하는 행위는 확실한 역효과를 낳는다.

 

글은 그대로 , 이야기다. 글은 여전히 사람의 감정을 전달하고 사람과 사람 사이를 잇는 도구다.

 

내가 언제나 생각하는 좋은 하나는 인터넷이 쓰는 사람의 세상이라는 것이다.

 

온라인 생활은 글을 통해 이뤄진다.

 

요즘 사람들, 그러니까 우리는 전과는 다른 방식으로 아름답고 풍성한 글을 남기고 있다. 우리의 글은 서정적 문장이 아닌 지식의 문장으로 쓰인다. 우리의 글은 인간의 소통에 대한 지식과 인간의 소통을 통해 형성된 개인 집단 연결에 대한 지식을 크게 변화시킬 것이다.

 

트위터는 사용자의 글쓰기 방식을 바꾸지 않는다. ~ , 어떤 사람의 문체가 매체에 따라 변해 '수준이 낮아지는' 문제는 일어나지 않았다.

 

트위터는 잘린 나무 그루터기가 뒹구는 황무지가 아닌 가꿔진 분재의 숲이었다.

 

트위터 덕분에 우리는 생각을 구성하는 글뿐만 아니라 사회적 연결 기능을 하는 글도 연구할 있게 되었다.

 

구를 북스의 방대한 데이터는 문화를 정량적으로 연구하는 새로운 학문, 컬처로믹스 culturomics 탄생으로 이어졌다. ~ 컬처로믹스 연구 기법을 사용하면 훨씬 심층적인 집단 심리 분석도 가능하다.

 

요즘 응답을 받을 확률이 가장 높은 메시지의 길이는 40에서 60 사이다.

 

정해진 양식은 먹힌다. ( 페이스트는 투입 대비 효율이 높다.) --> 단축키 몇 개로 시간을 절약하는 혁신

 

인간의 감정이 존재하는 , 글은 계속될 것이다.

 

아이디어의 우연한 결합이 혁신으로 이어지는 경우가 많다는 결과를 접한 본사 건물을 지을 화장실을 중앙에 하나만 설치해 부서 소통을 장려한 일화는 유명하다. 여기서 픽사가 적용한 네트워크 이론은 '약한 유대 관계의 '이라는 이론으로 ~ 이론은 아이디어, 특히 새로운 아이디어를 확산시키려면 평소 모르던 사람의 역할이 중요하다는 사실을 알려 준다.

 

착근성 embeddendness 사람의 소셜 그래프가 중첩된 정도, 사람이 공유하는 인간관계의 비율로 나타낼 있다.

 

자기 계량화 시대가 오고 있음을 피부로 느낄 있다.

 

사용자들이 사이트에 올라온 정보를 보고 판단을 내리는 까닭은 이런 정보가 필요해서가 아니라 단지 정보를 ' 있기' 때문이다.

 

 

2 무엇이 우리를 분열시키는가

 

교란 요인은 결과에 영향을 미치는데도 분석에 고려되지 않는 요인을 일컫는 기술 용어다.

 

우리가 친구를 대하는 방식은 당연히 타인을 대하는 방식과 다르다. 페이스북에는 이미 외부에서 맺은 친구 관계만 등록되므로 타인을 대하는 모습을 수가 없다. 더군다나 아는 사람이 보고 있을 사람들은 행동을 조심한다.

 

인종 차별은 소수의 '못생긴' 흑인 사용자나 계몽되지 않은 인종 차별주의자가 물을 흐려서 생긴 문제가 아니다.

 

데이트 사이트에서 흑인이 받은 평점이 다른 인종의 4분의 3 수준이라는 사실은 의도적 범죄가 아닌 우연한 사고에 가깝다. ~ 어떤 별점을 줄지는 사소하고 의미 없어 보이는 이유로 인해 순간적으로 결정된다.

 

오사기 오바소기 교수는 ~ 선천적 맹인을 인터뷰해 인종에 대한 이들의 태도가 눈이 보이는 사람들과 다르지 않다는 사실을 발견한 것이다. 오바소기 교수는 인종에 대한 맹인의 태도가 실제로 보고 겪은 사실이 아닌 평생에 걸쳐 흡수한 문화를 반영한다고 주장한다.

 

연애는 모든 인종이 지닌 뼈대, 근육, 살갗의 장단점으로만 이뤄지지 않는다. 문화와 기대치와 조건이 연애에 관여한다.

 

미모의 영향력은 리히터 지진 규모를 따른다고 있다.

 

사진을 중시하는 풍조는 더욱 가속화되고 있다. 최근 2~3 동안 디자인 기준은 개방적이고 사진 중심으로 변했다.

~ 늘어난 픽셀 수만큼 예쁜 사람들은 다른 사람들보다 빛났다. 부자가 부자가 것이다.

 

데이터에는 진심이 담겨 있다. 타인에 대한 속마음은 물론 내가 모르는 나에 대한 생각도 데이터에 담긴다. 데이터가 우리의 문화, 정치, 취미, 집단 속에서 분열을 감지해 있다면, 우리 내부의 분열을 발견하지 못하리란 법도 없다. 나는 데이터를 통해 이런 분열이 발견되길 바란다. 무언가를 하나로 만들기 위해 가장 먼저 일은 무엇이 빠졌는지 알아내는 것이기 때문이다.

 

설문 응답자들이 보이기 위한 응답을 하는 경향은 세계적으로 나타나기 때문에 '사회적 선망 편향 social desirability bias' 대한 기록은 많이 있다. ~ 질문하는 행동 자체가 피험자의 자기 검열을 유도하는 것이다. ~ 하지만 사용자에게 아무것도 묻지 않음으로써 이런 문제로부터 자유로운 데이터를 얻을 있는 사이트가 하나 있다. 바로 검색 사이트다. 검색에는 질문이 없다. 사용자만 말할 뿐이다. ~ 사람이 찾는 것은 종종 사람 자체에 대해 알려 준다.

 

단어가 사용된 맥락을 알고 싶다면 구글의 자동 완성 기능을 사용해 연구하는 것이 좋다. 자동 완성 검색어는 단어가 아니라 생각 전체를 보여 주기 때문이다.

 

데이터는 주장이 아니라 우리가 직면해야 사실을 보여 준다.

 

계획적으로 루머를 퍼뜨리는 사람의 관심은 루머의 대상이 아닌 듣는 사람에게 있다. 인터넷에는 어느 때보다 듣는 사람이 많다.

 

인터넷이 모두를 공인으로 만들었다. ~ 하지만 이는 양날의 검이다. 누구나 하룻밤 만에 유명 인사가 있는 세상에서는 누구든 하룻밤 만에 버림받을 수도 있다.

 

 

3 무엇이 우리를 만드는가

 

민족과 성별과 성적 성향에 따라 나타나는 고유한 특징을 알아내기 위해서는 연구자인 '우리' 없애고 '그들' 남기는 알고리즘을 개발해야 한다.

 

디지털 데이터에도 물리적 차원과 정신적 차원이 모두 존재한다.

 

이런 지문화적 geocultural 지식은 트위터가 아닌 다른 디지털 데이터를 통해서도 얻을 있다. 트위터 같은 동시성은 없지만 대신 다른 면에서 깊이 있는 분석을 있는 데이터가 많다.

 

지리상의 공동체뿐만 아니라 지리를 '초월한' 공동체를 발견할 있는 것이다.

 

오프라인에서 원하는 것을 찾지 못하는 사람들은 대신 디지털 세상에 공동체를 형성한다.

 

(레딧 사용자) 이들을 보면 세상에서 제일 친구 집단이 세상에서 가장 소파에 앉아 있는 모습이 떠오른다.

 

삶이 브랜드가

 

고고학자들은 5000 봉인된 사막의 무덤에서 브랜드명이 적힌 기름과 와인을 발굴했다.

 

기독교가 인쇄 기술을 만나고 프로 축구가 텔레비전을 만나 번창한 것과 마찬가지로 퍼스널 브랜딩은 소셜 미디어를 만나 세계로 뻗어 나갔다.

 

전체 모습은 정보를 합해야 있다.

 

국민이 아무것도 몰라도 된다고 생각하는 기관에서 '알아야 한다고' 내놓은 정보를 믿기는 힘들다. 우리의 관심은 그들이 무엇을 말하는지가 아닌 말해 주는지에 쏠린다.

 

알고리즘은 데이터를 먹고 자란다.

 

데이터 과학은 이미 사람들의 삶의 방식을 설명하는 수준에서 나아가 자체를 바꿀 있는 깊이 있는 연구 결과를 내놓고 있다.

 

알고리즘은 별것 아닌 정보를 가지고 어떤 사람의 많은 부분을 추론해 낸다. '개인 정보 설정, 관리' 메뉴 같은 어중간한 조치로는 아무런 보호도 없게 것이다. 드러나 있는 다른 정보로 사생활을 캐낼 있기 때문이다.

 

모든 도표에 전달하고자 하는 명확한 이야기를 부여하라. 데이터의 붉은 심장을 드러내 색깔을 사용하라. 여백을 버리는 공간이 아닌 축으로 활용하라.

 

데이터의 시대는 이미 시작됐다. 현재 우리는 기록되고 있다.

 

우리의 삶에 관한 데이터는 자체로 살아 있는 존재이며 언제나 변한다.