Thursday, June 13, 2013

통계로 바라보는 시선 ─ 빅데이터의 패러다임

Leave a Comment
계는 참 매력적인 도구이다. 일상 생활에서 여론 조사 뿐만 아니라 다양한 학문에서도 통계는 세상을 이해하는 가장 합리적인 도구로 자리잡고 있다. 예를 들어 유전학의 경우 유전자 결함에 의한 질환의 원인을 찾아내기 위해서 동일 질환 환자 집단과 결함이 없는 집단을 통계적으로 비교하여 어떤 부분에 문제가 있는지 찾아내는 연구 방법은 대표적이다. (comparative analysis of a genetic disorder) 이 경우 개인 vs. 개인 이 아닌 집단 vs. 집단 으로 분석하고 평가하는 이유는 특정 개인만이 가지는 특정 변이 (variants) 를 제거하기 위한 이유도 있지만 통계는 개별이 가지는 공통의 특징을 추출해 일반적 특징을 만들어내는 과정이기 때문이다. 통계의 아름다움은 세상의 복잡한 현상을 내가 이해할 수 있는 언어로 해석해 주는데 있지만 그 아름다움의 이면에는 우리가 생각해 봐야 할 내용도 있다.

어는 생각을 시작하게 하지만 한편으로 생각을 멈추게 한다. 

우리의 사고(thoughts)가 무엇을 통해 시작되는지 정확히 알 수 없지만 사고의 과정과 표현은 결국 언어를 통해 이루어진다는 것은 어느 정도 공감할 수 있다. 그리고 우리가 가지는 사고의 시작은 소위 화두(topic)를 통해 시작된다. 그렇기 때문에 언어가 존재하지 않는다면 사고를 위해서 언어를 개발하거나, 사고의 범위는 의사 소통의 범위에서 이루어 지지 않을까 하는 상상을 하게 된다. 그러나 다른 한편으로 언어는 우리의 생각을 멈추게도 한다.


예를 들어 누군가 "최선의 선택입니다." 라고 표현하는 순간 인간은 "최선"이 가지는 그 이상적 값어치에 빠져들어 선택은 최선이었다고 생각하게 된다. 물론 최선인지 아닌지 검증하고 판단할 수 있지만 우선 최선이 가지는 그 기대치에 어느 정도 긍정적 판단 위치에 서게 된다. 다른 예로 "착한 소비"라고 이름 지으면 소비가 비록 가치 중립적 행동이라고 해도 착한 소비를 통해 소비의 성격을 착하게 만들어 버리고 우리는 일단 착하다... 라는 언어에 대해서 대체로 호의적인 태도를 가질 것이다. 그러나 이런 단어의 사용은 무엇이 착한지 무엇이 최선인지에 대한 판단보다는 일단 최선이고 착하다 라고 생각하라고 하는 더 이상의 가치 판단을 방해하는 요소가 된다. 즉, 명확한 성격 규정이지만 이처럼 모호한 표현이 없는 것이다.

'좋은', '최선', '많은', '적당' ... 등 의 표현들이 가지는 이런 모호성 때문에 학술 논문이나 대외적 보고서에는 이와 같은 표현을 사용하지 않는 것이 하나의 암묵적 원칙이다. 예를 들어 학술 논문에 '최선의 결과는...', '많은(다양한) 방법으로...', '적당량의 표본을 조사하여...' 와 같이 some, a lot, several, best 등과 같은 표현은 검색해서 모조리 지우는 것이 좋은 논문을 위한 효과적인 방법이다. 그 대신 정확한 숫자와 명확한 범위를 제시하는 것이 가장 기본이 된다.

관적 신뢰 vs. 관적 신뢰 

모든 과학은 모호함을 제거하고 명확한 원리를 찾아내는 것이 하나의 임무 (mission) 같지만 통계는 오히려 그 반대의 성격같다. 수많은 데이터와 분석을 통해서 단순한 결론과 함께 자신이 연구 주제로 세운 가설이 '믿을 만 하다' 와 같은 가장 과학적인 모호함을 표현으로 결론을 내린다. 사실 인간은 복잡한 것을 좋아하지 않는다. 복잡해 보이는 수많은 집단의 원 데이터 (raw data)를 뿌려놓고 인간이 판단하기도 분석하기도 힘든 정보를 보여주면 대부분 거기에서 가치있는 원리를 찾아내기란 불가능이다. "나는 당신을 82.53% 좋아합니다" 라는 표현보다는 "나는 당신을 많이 좋아합니다." 와 같이 좋아한다는 표현이 강조되기를 바랄 뿐이지 82.53%란 수치를 보여주어 좋아하는지 아닌지에 대한 모호함은 더 증가하게 된다. 역설적으로 모호한 표현을 제거하기 위해서 그리고 객관적 신뢰를 주기 위해 도입되는 통계는 실제 우리가 사고하고 생활하는데 오히려 더 큰 모호함을 줄 수 있다는 것이다.


개인적으로 통계의 이런 속성을 객관적 신뢰와 함께 주관적 (인간적) 신뢰 라는 표현을 통해서 설명하고 싶다. 즉, 우리는 수치를 통해 객관성을 유지하고 모호함을 제거한다고 하지만 반대로 우리가 그 수치를 통해 어떤 선택, 판단을 해야 하는지는 더 복잡하게 만든다. 결국 객관적 신뢰는 증가할 수 있지만 그 통계의 결과가 나의 개인적 선택에 영향을 준다면 그 모호함은 더 증가할 것이다.

계는 나에게 무엇을 이야기 해주는가?

이런 심리적 편안함과 과학적 객관성을 잘 균형 잡는 학문을 통계라고 생각하는 것이 통계의 성격을 잘 설명한다고 본다. 통계는 집단의 대표성을 원하고 개별의 특징이나 형태 행동 등에 관심을 가지기에는 너무 복잡한 상황에서 집단의 대표성을 한마디로 표현해줄 수 있는 값을 바라는 희망의 산물이 되어준다. 예를 들어 특정 질환에 걸리면 약 80%의 환자가 7개월 안에 죽게 된다 란 통계학적 결과를 들었을 때 사람들의 반응은 대부분 그 통계적 수치가 무엇을 의미하는지보다는 그 질환이 얼마나 심각한지에 대한 일종의 정량화 (quantitified) 된 느낌을 가질 수 있다. 그러나 이런 느낌이 그 질환에 직접 걸린 사람에게도 동일하게 느껴질지에 대해서는 한번 심각하게 생각해야 할 것이다.

현대 생물학의 대가인 스티븐 제이 굴드(Stephen Jay Gould, 1941-2002)가 복막에 악성 중피종(mesothelioma) 에 걸렸을 때 의사에게 평균 생존 기간이 8개월이란 얘기를 들었다. 그는 "인간은 중앙값은 메세지가 아니다 - Median isn't the message" 란 말을 통해 통계의 맹점을 이야기하고 스스로도 그 맹점을 증명하였다. (그는 잘 치료 받고 잘 살았다.) 통계는 집단의 대표성을 표현하지만 개별의 문제로 회귀될 때는 전혀 다른 문제가 될 수 있다는 것이다.  또 다른 예로 미국의 사망률이 가장 높은 병원으로 시카고 의대 병원이란 통계가 나왔다고 해서 해당 병원이 치료를 제대로 못하는 병원이라고 판단할지 모르지만 오히려 중증 환자나 말기 환자 (terminal) 들이 많이 찾아오면 자연스럽게 사망률은 증가할 것이다.


이처럼 통계는 개별의 문제로 회귀할 때 뿐만 아니라 집단이 가지는 특수한 상황을 고려하지 않으면 전혀 엉뚱한 혹은 전혀 사실과 다른 가치 판단을 하게 될 수 있다. 화이트헤드 (Alfred. N. Whitehead)단순화 (simplication) 는 논리적인 과정이 아닌 '심리적 과정'이라고 이야기했다. 우리가 어떤 대상의 특징을 통계적으로 처리해 알지 못한다면 대상 집단을 어떻게 다루어야 하는지, 어떻게 대해야 하는지에 대한 사전 정보를 얻지 못하기 때문에 개별적 특징보다 일단 단순화 시킨 통게적 사실을 정보로 받아들이는 것은 지극히 심리적인 과정이다.

그런데 이 단순화 과정은 집단 구성원의 개별성보다는 집단 자체의 통계처리된 값을 의미있는 내용으로 받아들이게 되는 것이다. 어느 정도 이 부분에 대해서 공감할 수 있으나 개인의 문제, 개인의 활동으로 들어가게 되면 이는 쓸모없거나 때로는 방해가 되는 자료가 될 수 있다는 것이다. 실생활에서 접할 수 있는 예는 일기예보이다. 강우 확률이 60% 라면 비가 온다는 것일까 아니면 오지 않는다는 것일까? 50%를 넘긴다면 비가 온다고 봐야 하는 것인가? 만약 강우 확률이 50%라면 어떻게 해석해야 하는가. 강우 확률이 어떻게 되든, 나에게 정말 중요한 것은 내가 우산을 챙겨야 하는가 말아야 하는가의 실질적 문제이다.


[ 안젤리나 졸리의 의학적 선택 ] 처럼 자신이 유전자 검사를 통해 위험 요소가 되는 유전자를 가지고 있다면 (혹은 가지고 있지 않다면) 해당 질환에 걸릴 확률이 70% 라는 의미는 어떻게 받아들여야 하는 것인가? 70% 의 확률을 줄이기 위해 예방적 치료를 받는다고 하면 걸릴 확률이 0%가 될 수 있는가? 결국 통계가 제시하는 숫자는 우리에게 심리적 안정감 혹은 불안감을 만든다. 여기에서 많은 학자들은 고민에 빠지게 되었다. 내가 속한 집단의 통계적 숫자가 나에게 얼만큼 영향을 가지고 나에게 의미를 가질 수 있는지, 혹은 내가 가치 판단을 해야하는 대상의 경우 어떤 요소들을 모아야 나에게 의미있는 통계가 만들어 질 수 있는가이다.

데이터는 우리에게 무엇을 전해주는가 

요즘 유행처럼 빅 데이터 (big data) 가 많이 나타난다. 그리고 빅 데이터의 특징을 '기존에 처리가 안되던 데이터가 컴퓨터 기술의 발달로 처리되기 시작한...', '비정형 데이터...', '개인 맞춤형 통계 분석...' 등으로 주요 내용을 정리한다. 그리고 그 개념으로 빅 데이터를 어떻게 응용할지에 대해서 고민한다. 빅 데이터가 가장 이슈가 되었던 실질적 계기는 아마도 오바마 대통령의 재선 과정에서 빅 데이터가 유권자들에게 개인 맞춤형 정보를 제공해 주어 승리의 주요 변수였다는 내용인 것 같다. 그러나 근본적으로 기존 통계와 빅 데이터가 다른 점이 무엇인지 그리고 그 개념의 차이가 우리에게 어떤 새로운 가능성을 줄 수 있는지에 대한 논의는 그리 많이 보이지 않는다. 그리고 발 빠른 경영 마케팅의 개념화 (agile conceptual makeup)은 우리에게 필요성보다는 유행을 만들었다. 그러나 빅 데이터를 통해 우리에게 어떤 삶의 변화를 줄 수 있는지에 대한 구체적인 이미지를 제시하지 못하는 것은 왜 빅 데이터가 출연하고 그 출연을 통해 근본적으로 우리에게 어떤 사고의 변화를 줄 수 있는지에 대해서 별로 고민하지 않은 것은 아닌지 생각해보고 싶다.

통계를 떠나 존재를 생각하다. 

통계는 우리에게 상당히 의미있는 값을 제시해준다. 그리고 그 통계 결과를 통해서 관련 의사 결정의 근거가 되어준다. 그러나 앞서 설명한 통계가 개인적 문제로 회귀할 때 (스티브 제이 굴드와 안젤리나 졸리의 경우) 그리고 집단이 가지는 특수한 상황을 고의적으로 제외하거나 혹은 부각시켜 통계를 여론을 만드는 수단으로 악용될 수 있다는 점도 인정해야 한다. 이런 한계점을 가지고 생각해봐야 할 문제가 있다. 바로 존재론에 대한 사유(speculation)이다.

인간은 하나의 존재로 인식된다. 본인을 생각하자. '나'라는 존재를 생각하면 하나의 단일체로 보이지만 유물론(materalism) 관점에서 바라보면 (생)화학적 구성으로 각종 단백질, 지방 등 다양한 구성 물질로 이루어진 존재이고 더 세분화 해서 들어가면 원자, 아원자 등과 같은 소립자로 이루어져 있다. 나를 구성하는 구성 요소가 원자핵이라고 해서 원자핵 (중성자, 양성자) 의 물리학적 특징이 나를 설명하는 특징이 될 수 없다. 그렇다면 어느 순간부터 어떤 구성 단계까지 올라가면 나라는 존재를 설명할 수 있는 구성이 될 것인가? 원자핵과 전자는 분명 나를 구성하는 물질적 구성이지만 나를 설명하기에는 충분하지 않기 때문에 단백질, 지방 정도의 물질 단계로 설명을 한다면 나를 설명할 수 있는 것인가? 그리고 나를 구성하는 요소이지만 생략해도 나를 설명하는데 충분한 요소는 없는 것인가? 예를 들어 내 몸에는 있지만 꼭 필요하지 않는 대장의 배설물이나 방광의 소변, 그리고 원하지 않게 들어온 중금속 등은 생략해도 나를 설명할 수 있는가?


나를 구성하고 있는 요소들이지만 나란 존재를 설명하는데 필요한 요소와 필요하지 않은 요소를 구별하고 나를 설명하는데 필요한 '최소한의 구성 요소 (minimum span of sets ; ms3) 를 찾는 것은 중요한 작업이 될 수 있다는 문제 인식을 한다면 빅 데이터가 가지는 필요성을 어느 정도 느낄 수 있다고 생각한다. 즉, 빅 데이터는 데이터의 크기가 크거나 기존의 데이터 처리 방식으로 저장되기 어려웠던 데이터를 이제는 처리할 수 있다는 기술의 발전이 아니라 통계가 가지는 한계점 - 개별 개체로 회귀할 때 문제점 - 을 극복하기 위해서 개별에게도 의미있는 통계의 형태와 구조를 찾았고 그 과정에서 우리가 기존에 다루던 데이터의 범위 뿐만 아니라 확장된 범위의 데이터도 다루어야 할 필요성을 느꼈던 것이다. 그렇기 때문에 빅 데이터란 단순히 통계의 기법이나 개인화 방법을 개발하는 것이 아니라 개별에게 의미있는 통계가 되기 위해 어떤 데이터 집단 (data set)이 필요한가를 위한 방법론적 접근이 필요하다.

개별에게 의미있는 데이터 집단을 찾기 위해서는 개별이 가지는 존재론적 범위와 정의가 필요하다. 앞서 설명한 것처럼 나를 설명하기 위해 원자 수준의 설명이 필요하지 않다면 그 수준의 데이터 집단은 의미를 제거하고 나를 설명하기 위한 생화학 물질 수준 정도의 데이터 집단을 찾는다면 그 수준의 데이터 집단을 모아서 나를 설명하는 것이 필요하다. 즉, 내가 설정할 목표 존재를 생각해 볼 필요가 있다. 실질적 예를 들어 만약 맞춤형 의학 (personalized medicine)을 구현하기 위한 존재를 개인이라고 설정을 한다면 개인이 가지는 질환을 평가하고 설명하기 위해서 어떤 단계의 데이터 집단이 필요한지 고려하는 것은 상당히 중요하다. 즉, DNA 수준의 인간 게놈 수준이 한 개별 인간을 설명할 수 있는 수준의 데이터 집단이라고 생각한다면 그 수준에 맞는 데이터 수집이 이루어져 야하고, 만약 생리학적 대사 물질이 실제 개별 인간을 설명하는데 충분하다면 대사 물질 수준의 데이터 수집을 해야하는 것이다.

데이터의 새로운 패러다임을 생각하다.

워낙 많은 사람들이 빅 데이터에 대한 연구를 하기 때문에 구체적 내용을 설명할 필요는 없을 것이다. 개인적인 의견으로 대한민국에서 가장 빠르게 그리고 효과적으로 빅 데이터를 적용할 수 있는 분야는 '복지 분야'가 아닐까 생각한다. 각자의 형편, 상황, 그리고 다양한 외부적 변수가 많이 존재하는 상황에서 각 개인에게 필요한 복지의 양을 계산한다는 것은 기존 통계 기법으로는 거의 불가능하다. 그렇기 때문에 정부는 기존 통계가 가지는 값을 통해서 일반적 기준에 맞추어 국민의 복지 정책을 수립한다. 이는 국민이란 존재가 국가 안에서 복지 수혜자로 어떤 존재인지에 대한 정의가 명확하지 않기 때문이다. 즉, 한 개인이 국가로 부터 받는 복지 혜택, 개인이 국가에 내는 세금 등의 요소를 통해서 이 사람이 존재하기 위해 필요한 복지 혜택이 무엇인지를 평가할 수 없게 된다.

이 때문에 실제로 부자인데 세금을 통해서 복지 수혜를 받는 경우도 존재한다. 호화로운 생활을 하지만 평가할 수 있는 재산이 없는 경우를 생각할 수 있다. 반대로 정말 생활을 위해 복지 수혜를 받아야 하는데 예상하지 못한 재산이나 의도하지 않는 기준에 부합되지 못해 해당자가 안되는 경우도 볼 수 있다. 이런 문제점은 개별의 복지 수준을 설명할 수 있는 충분한 데이터 집단이 정의되지 않았기 때문이다. 따라서 기존의 통계는 이런 개별의 어려움이나 불평등을 쉽게 찾아내기 보다는 이런 맹점을 통해서 불필요한 사회 불균형만 더욱 가중시킬 수 있는 도구가 될 수도 있는 것이다.


복지 국가를 지향하면서 우리는 복지 국가에 존재하는 국민은 어떤 사람이다 라고 제대로 정의내리는 것을 별로 보지 못했다. 결국 복지 혜택으로 국민들에게 돌아가는 총량의 자본과 혜택의 내용만이 하나의 국가 흥보의 차원에서 보여지고 실제로 한 개별 국민이 살아가는데 필요한 최소한의 복지적 요소가 무엇인지에 대한 심각한 고민을 얼마나 했는지 묻고 싶다. 오바마 대통령이 빅 데이터를 통해 선거에 이겼다는 내용을 통해 우리는 대부분 '성공을 위한 도구'로 관심을 가지고 바라본다. 그래서 빅 데이터가 어떤 의미를 가질 수 있고 어떤 가치를 만들어 낼 수 있는지 보다는, 오바마 캠프에서 유권자의 표를 얻어 내듯이 어떻게 소비자의 자본을 모을 수 있는지에 더 큰 관심을 보인다. 그래서 빅 데이터를 설명하는 세미나는 대부분 그 가치보다는 어떻게 이윤을 창출할 수 있다는 기능적 설명을 벗어나지 못하는 것은 아닌지 의문이다.

문은 인간을 향하기 때문에 아름답다

항상 연구 주제를 토론하는 친구들과 빅 데이터에 대한 이야기를 하면서 공감대를 형성한 부분은 바로 빅 데이터는 데이터를 어떻게 처리하는가의 문제가 아니라 이제 데이터 중심에서 존재론 중심으로 (data to ontology) 의 패러다임이 변화하는 시작을 알리는 신호탄이란 부분이었다. 그리고 유전학과 유전학을 데이터로 처리하는 과정에서 인간이 정말 A T G C 로 설명될 수 있는 존재인가. 즉, 4가지 코드를 통해 인간을 모두 설명할 수 있는 최소의 데이터 집단인가에 대한 의문을 시작했다. 그리고 그 의문의 시작은 인간의 존재를 설명할 수 있는, 더 구체적으로 나를 설명할 수 있는 최소의 데이터 집단은 무엇인지 그리고 그 최소의 데이터 집단을 어떻게 표현하고 구체화 시킬 수 있는가? 이 문제를 풀기 위한 평생의 과제라는 것을 느끼게 된다.


이제 학문의 패러다임은 학문 자체가 가지는 이윤적 배경을 벗어나 인간의 존재를 설명하기 위한 다양한 해석적 도구를 제시하는 방향으로 바뀌어 간다고 생각한다. 빅 데이터를 이용한 복지 모델도 그런 하나의 작은 출발이 될 수 있다고 생각한다. 괜찮은 외국의 복지 모델을 찾는 것이 아니라 대한민국에서 살아가는 한 국민이 복지 국가의 일원이다 라는 명제가 참이기 위해 필요한 요소가 무엇인지 찾아내는 작업은 장기적으로 그리고 창조적으로 해야 한다.

통계를 통해 성장하고 통계가 기본인 유전학을 공부하면서 느끼는 가장 큰 의문은 정말 우리는 통계 안에서 의미가 있는 존재인가? 라는 질문이다. 내가 유전적으로 특정 질환에 취약하다는 확률적 결정론은 있는 그대로의 존재보다는 가능성이 만드는 전혀 새로운 존재로 두려워하며 살아갈 수 밖에 없다는 것이다. 통계는 세상을 바라보는 충분히 좋은 도구가 될 수 있지만 개별의 구성을 쉽게 판단할 수 있는 편견의 도구가 될 수 있다는 것도 기억해야 할 것이다.

0 comments:

Post a Comment