Wednesday, December 4, 2013

빅데이터의 거품과 희망 ─ 개인 정보 & 공적 정보

Leave a Comment
군가 자신의 사진을 올리는 웹서비스에 자신에게 도착한 택배 사진을 올렸다. 개인 정보이기 때문에 보낸이의 주소, 받는이의 주소를 모자이크 처리했지만 그외 부분은 모두 공개되었다. 해당 계정 사용자을 팔로우 following 하는데 특별한 허락이 필요한 계정이 아니었기 때문에 현실적으로 누구나 볼 수 있는 사진이다. 그런데 올린 이는 생각하지 못한 가리지 못한 많은 개인 정보들이 있다. 가장 먼저 택배에 붙은 송장 번호이다. 실제로 해당 사진의 경우 13자리 글자 중 3글자 정도가 사진기의 구석에 잡혀 있었지만 글자 하나는 보이는 부분만으로 무엇인지 알 수 있고 2글자는 6 아니면 8 과 같이 둘 중 하나로 확인할 수 있는 글자들이었다. 해당 송장 번호를 가지고 인터넷에서 화물 추적을 하면 충분히 사용자 집주소가 어디고 누가 보낸 택배인지 알 수 있게 된다. 혹시 운송장 번호를 확인할 수 없어도 다른 부분에 나온 바코드로 충분히 인식해서 알아낼 수도 있을 것이다.


요즘은 개인 정보 Personal Information 혹은 Personal Data 는 상당히 민감한 문제가 된다. 그런데 막상 그 심각성만큼 충분히 대처하면서 살고 있는 것인지 아니면 어차피 노력해도 소용이 없으니 그냥 포기하자는 마음인지 모르지만 개인 정보에 대한 막연한 위험성은 인지하고 기분 나빠하지만 정작 그 실체에 대한 정확한 인식은 충분하지 않은 것은 아닌지 느껴질 때가 많기 때문이다. 특별히 어떤 대책을 제시하고 어떻게 하면 개인 정보를 지킬 수 있다는 이야기를 하고 싶은 것은 아니다. 오히려 얼마나 위험할 수 있는지를 통해 우리가 어떻게 깨어 지킬 수 있는지에 대한 인식과 대비책이 얼마나 다른 결과를 만들 수 있는지를 제시하고 그보다는 막연히 개인 정보라고 불리는 대상에 대한 현실적인 모습을 생각해고 싶은 것이다. 소위 빅데이터라는 이슈가 소개되면서 마치 수집된 개인정보들이 공적 목적 혹은 기업적 이익을 위해서 사용될 수 있다는 의미처럼 소개되어 무분별한 개인 정보의 수집이 괜찮을 수 있다고 의식이 바뀌지 않았으면 하는 바람으로 빅데이터가 가지는 거품과 그와 반대로 공적 목적으로 어떤 도움을 줄 수 있는지에 대한 허와 실의 가능성을 보이고 싶다.


Personal Information 

많은 사람들이 개인 정보라고 이야기하지만 개인 정보라는 용어에는 내가 공개했는가 하지 않았는가의 다른 이가 볼 수 있는 허가권 permissions 을 포함하는 내용이 아니다. 즉, 개인적인 목적으로 타인에게 보여주고 싶지 않지만 나중에 다시 보기 위한 목적으로 기록한 것이라면 다른 이는 볼 수 없는 비공개 정보가 될 것이다. 이에 앞서 데이터와 정보의 영역을 생각하면, 데이터란 기록된 모든 형태를 데이터라고 부른다. 그러나 정보란 특정 목적을 가진 데이터의 집합이라고 부를 수 있을 것이다. 넓은 의미에서 고대 시대 동굴에 그려진 벽화도 분명 데이터이다. 그런데 이 벽화가 특정 목적 (대부분은 전달의 목적 등) 을 가질 때 벽화의 그림 형태 등은 정보가 된다. 연대측정을 위한 탄소동위원소 연대 측정을 하게 되어 나온 반감기는 데이터지만 해당 데이터가 벽화와 결합이 되어 벽화를 그린 추정 연대는 정보가 된다. 이처럼 데이터와 정보는 실질적으로 동일하다고 볼 수 있지만 아주 간단하게 데이터는 가치 중립적이다. 그러나 정보는 가치 중립적이라고 말하기 힘들다. 일단 정보란 제공하는 inform 하는 것이 기본적 목적인 경우가 많기 때문이다. 데이터를 특정 목적을 위해 전달하고 알린다는 것 자체가 결국 골라서 선택하는 과정이 들어가기 때문이다. 그런 이유로 분석 analysis 이란 데이터를 가공해서 우리에게 정보로 의미가 있는 과정을 만들어 내는 모든 과정을 분석이라 부를 수 있다.


그렇다면 Personal Information (개인 정보) 라는 말은 상당히 역설적인 표현이다. Information 자체가 전달과 알리기 위한 목적을 가진 행동인데 개인 정보를 보호해야 한다는 말은 알리기 위해 만들어진 정보를 감춰야 한다는 말이다. 그런 의미에서 흔히 보안과 관련되어 회자되는 개인 정보는 사적 정보 Private Information 가 더 정확한 표현이다. 그리고 사생활 Privacy 이란 개인이 알리고 싶지 않은 개인적인 활동을 이야기하게 된다. 따라서 엄밀한 의미에서 혼동되어 사용되는 개인 정보란 말과 사적 정보에 대한 구별이 필요하다는 생각이 든다. 개인이 가지고 있는 공유하고 싶은 정보도 개인 정보이기 때문이다. 문제는 인터넷이 확장되고 많은 사람들이 개인의 정보를 인터넷에 공개하게 되고 개인 정보도 공개된 정보 public information 와 구별이 안되는 것이다. 그런데 또 용어상 혼란이 올 수 있는데 공개된 정보는 개인이 온 세상에 알리고 싶은 공개된 정보 information publicly 와 공공의 이익을 목적으로 많은 사람들에게 공개된 공적 정보 public information 와 혼동되기도 한다. 인터넷이 발달하지 않은 시절에는 공적으로 알릴 수 있는 능력을 가진 기관이 대부분 공공적 목적을 가진 경우였기 때문이다. 따라서 인터넷의 보급으로 개인도 전달력과는 관계없이 공적인 정보를 전달할 수 있다는 점에서 기존의 공정 정보와 구별해서 생각할 필요가 있다. 이런 경우 구분해서 공유(된) 정보 shared information 이라 표현하려 한다. 내용을 정리하면...



인터넷이 보급되기 이전 시대 before era of internet

Private Information : 본인만 간직하고 싶은 사적인 정보. 전달 목적은 없지만 공권력 등 (경찰 법원 등) 과 같은 상위 권력 기관의 요청에 의해 제공될 경우가 있기에 유효하다. ; 사적 정보

Private Data : 본인만 간직하고 싶은 사적인 데이터 ; 사적 데이터

Public Information : 공공성을 가지고 많은 사람들에게 알리는 정보 ; 공적 정보

Public Data : 공적 정보가 가지고 있는 가치 중립적 데이터


인터넷이 보급된 이후 시대 after era of internet

Private Information : 위와 동일

Private Data : 위와 동일

Public Information : 위와 동일

Public Data : 위와 동일

Shared Information : 개인이 공개한 정보 = shared (Private Information) publicly ; 공유 정보


Information & Domains 

현재 소셜 네트워크는 특별한 경우가 아니면 공유 정보를 기본으로 하게 된다. 공개의 형태에 따라서 다양하지만 트위터나 인스타그램과 같이 기본적으로 팔로우 follow 를 통해 상대방의 동의없이 상대방의 정보를 '구독 subscribe' 하는 것만으로 상대방의 정보를 볼 수 있지만 트위터의 경우에도 자신이 원하는 사람에게만 정보를 공개할 수 있도록 허가 Approval; Authorization 을 통해 원하는 상대에게만 정보를 공개할 수 있다. 페이스북과 같이 친구 관계 Friend 를 맺는 것을 기본으로 설정할 수 있는 소셜 네트워크가 있다. 상대방의 허가 정도 a degree of authorization 과 상호 관계도 depth of mutual relationship 에 따라서 생각하면 좋을 것 같다. 예를 들어 페이스북의 경우 친구를 맺기 위해서는 상호 허가가 이루어져야 한다. 물론 공개된 정보를 위한 팔로우 following 을 허용할 수 있지만 이 또한 설정으로 막을 수 있다. 이 뿐만 아니라 구글플러스, 페이스북의 경우에는 상대방을 별도의 그룹 형태로 (페이스북은 Lists , 구글플러스는 Circle) 관리할 수 있다. 업데이트 된 내용들이 있지만 각 소셜 네트워크에서 친구를 맺는 형태와 특징에 대해서 설명한 예전 블로그를 링크한다.

[ SNS: Publish or Protect Yours (1편 트위터) ]

[ SNS: Publish or Protect Yours (2편 페이스북)  ] 

[ SNS: Publish or Protect Yours (3편 구글플러스) ]

어떤 서비스를 사용하더라도 자신의 정보를 보여주고 싶은 사람들이 있고 보여주고 싶지 않은 사람들이 있다. 또한 이는 항상 정해진 것이 아니라 정보에 따라서 달라지게 된다. 이런 이유로 정보를 단순히 사적 정보, 공적 정보, 공유 정보로 구분할 수 있지만 정보에 따라서 보여주고 싶은 대상이 달라진다. 관점을 바꾸어서 정보에 따라서 정보의 형태를 구별하지 않고 보여주고 싶은 대상에 따라서 정보의 영역을 구별하는 것이 더 편리할 듯 싶다.


친구 대상을 정하고 나면 자신의 정보 중 공개하는 정보와 공개 하지 않는 정보로 자연스럽게 나누어지게 된다. 이 경우 친구에 대한 사적 영역 Private Domains 과 공유 영역 Public Domains 으로 구별할 수 있다. 특별히 공유 영역이지만 Shared 가 아닌 Public 을 사용한 이유는 기능과 형태상 Public 과 Shared 는 동일하게 변하기 때문이다. 공적 영역이라고 부를 수 있지만 공적 영역은 앞서 언급한 것처럼 공공의 성격이 있기 때문에 보다 개인적인 느낌의 공유 영역이라 부르게 되었다. 특정 상대를 정하게 되면 내가 가지고 있는 정보는 사적 영역과 공유 영역으로 구별될 수 있게 된다. (Mutually Exclusive and Collectively Exhaustive; MECE) 수학적으로 자신의 데이터로 이루어진 집합의 경우 교집합은 존재하지 않지만 두 집합은 전체를 이루는 형태를 가지게 된다.

이런 설정이 개념적으로 중요한 이유는 아주 간단한 예를 통해서 설명할 수 있다. 자신의 소셜 네트워크 관계를 정보를 중심으로 살피게 되면 자신의 정보 (혹은 데이터) 는 때로는 사적 정보이지만 때로는 공유 정보가 되기도 한다. 이는 상대방 친구가 다양한 그룹에 속할 수 있기 때문이다. 따라서 관계를 중심으로 생각할 때 정보는 양분될 수 있게 된다. 이 경우 가상의 상대방 virtual friend 를 설정한다. 그 친구의 이름은 익명 anonymous 이다. 즉, 익명이란 내가 맺은 친구 중에서 극한 limit 으로 보내어 나와 전혀 상관없는 상대방이다. 이 경우에도 정보는 사적 영역과 공유 영역으로 나누어질 수 있다. 극한으로 보낸 상대방에게 보여지는 영역은 완전 개방된 영역이고 일반적으로 '전체 공개'와 동일하다고 볼 수 있다. 그러나 사적 영역은 조금 상황이 다르게 된다.


Private Domains & Privacy Domains

기본적으로 '극한으로 보내진 익명'의 사용자에게 보이지 않는 영역은 '사적 영역 Private Domains 이다. 기술의 발달때문에 사적 영역이란 그리 쉽게 정의될 수 있는 영역이 아니라는 것을 알게 된다. 가장 현실적으로 우리가 사용하는 핸드폰만 해도 우리도 모르는 정보들이 존재하고 있다. 아무리 서비스에 동의한다고 해도 자세한 내용을 모르고 있는 사이에 핸드폰은 우리의 정보를 수집하고 기록하고 있다. (개인 데이터도 수집된다는 말이다.) 극한으로 보내진 익명이란 단순히 전체 공개를 이야기하는 것이 아니라 내가 미처 인지하지 못하는 내용의 정보조차도 알아낼 수 있는 모든 첨단 기술을 숙지하고 있는 최고의 엘리트라고 생각해보자. 본인은 모르지만 본인이 찍은 사진들 속에는 사진을 찍은 위치 정보 Geo Tag 가 존재한다. 즉, '극한으로 보내진 익명'은 당신이 알지 못하는 사진들의 위치 정보를 수집해 당신의 동선과 주요 위치를 확인할 수 있게 된다. 이 정보를 사적 영역이라고 부를 수 있는가? 오히려 익명이라는 상대방이 알 수 있기 때문에 이는 사적 영역이 아니라 공유 영역이 되어버린다.

즉, '극한으로 보내진 익명 (the limit of domains of x, as x approaches anonymous)' 란 알 수 있는 가능성이 조금이라도 있다면 더이상 사적 영역이 될 수 없는 영역을 이야기한다. 예를 들어 만약 당신이 특정 그룹에 올린 글을 그 글을 볼 수 있는 사람이 그대로 복사하여 자신의 블로그에 전체 공개로 올렸다면 당신의 원글 (정보 및 데이터) 은 사적 정보인가 공적 정보인가? 이에 대해서 결정하기 힘든 가장 큰 이유는 당신의 원글과 복사된 글은 전혀 별개의 데이터가 될 수 있기 때문이다. 즉, 아무리 복사되었다고 해도 복사된 글이 널리 퍼지고 원본 글은 공개되지 않아서 널리 퍼지지 않게 되는 상황에서는 오히려 복사 글이 원본이 되어버릴 수 있기 때문이다. 따라서 엄격한 기준으로 두개의 글이 원본, 복사 글이라고 결정을 내리는 것은 인간이 판단하고 가치를 부여했기 때문에 가능한 일이다. 따라서 극한으로 보내진 익명은 다양한 형태의 개인 데이터를 본인도 모르게 공개될 수 있다는 점을 인지해야 한다.


기술의 발달에 의해 개인 정보가 보호될 수 있는 방법도 많이 개발되었지만 그만큼 개인 정보고 노출될 가능성도 높아지게 되었다. 특히 개인 정보를 디지털 형태로 저장하는 비율이 높아질 수록 그 위험성은 높아지게 된다. 결국 아무리 자신이 개인 정보를 사적 영역으로 두고 자신만 이용하기 위해서 온라인에 올리거나 최소한 컴퓨터에 올리는 순간부터 공개될 수 있는 위험성을 가지고 있게 되는 것이다. 따라서 개인 정보에서 사적 영역이란 단순히 기술만으로 지킨다는 것은 불가능하다. 따라서 이를 위해서 정책적 규제와 사적 영역에 대한 대중적 인식이 보급되어야 할 필요가 있다. 이런 환경에서는 비록 기술적 취약점으로 자신의 데이터가 공개되거나 타인에 의해 남용될 때도 법적 규제를 통해서 그에 대한 책임을 강화시켜 쉽게 사용할 수 없도록 하는 방법이나 혹은 사적 영역에 있는 데이터를 통해 이득을 얻었을 때 이를 회수하고 피해자에게 적절하게 보상할 수 있도록 해주어야 할 것이다. 문제는 이런 인식이 얼마나 걸릴 것인가이다. 그동안 발생하는 피해는 어쩔 수 없이 인정해야 하는 것인지 아니면 사적 영역에 대한 범위 체계적인 접근을 통해 다양한 시나리오 경우 발생할 수 있는 사적 영역의 피해에 대해서 고민할 수 있을 것이다.


BIG DATA through data domains 

빅데이터에 대한 인기는 높지만 개인적으로 빅데이터에 대한 기대도 크고 이를 이용해서 연구 방법을 모색하고 있어도 현재의 빅데이터는 거품이 많이 맥주같다. 그렇다고 전혀 쓸모가 없다는 이야기는 아니다. 거품이 많은 맥주이지만 거품을 제거하면 맥주가 나오기 때문이다. 다만 눈에 보이는 효과가 있을 것이라는 환상을 버려야 한다고 본다. 또한 기존의 통계 분석을 빅데이터라고 부르는 것은 지양해야 할 것이다. 그런데 가장 중요한 질문을 해야 한다. 왜 빅인포메이션 Big information 이 아닌 빅데이터인가? 왜 LARGE DATA 가 아닌 BIG DATA 인가?

빅데이터를 이해하기 위해서는 기존 통계 분석의 과정을 먼저 생각해봐야 할 것이다. 기존에는 통계 분석을 위한 설계와 계획이 있어 원하는 연구 research ─ 과학기술의 연구뿐만 아니라 모든 통계 분석에 관련된... ─ 방향에 따라 어떤 데이터를 수집해서 이용할 것인지 모아진 데이터의 선별 과정이 필요하게 된다. 그러나 빅데이터는 관계 있는지 아닌지에 대한 평가를 먼저 하는 것이 아니라 사용될지 아닐지 관계 없이 가능한 데이터를 모두 수집 gathering; crawling 하는 것이다. 분석에 사용될 데이터를 선별하는 과정이 의도하지 않지만 연구 수행자의 의식적, 무의식적 판단이 들어갈 가능성도 있지만 어떤 현상을 만들어 내는 모든 데이터를 수집해서 데이터들의 그룹화 categorical analysis 및 다양한 과정을 통해서 우리가 미처 알지 못했던 관계와 연관성을 찾아내기 위한 과정이 된다. 여기서 개인 정보 (데이터) 와 관계된 부분은 데이터 수집 과정이다. 데이터를 수집하는데 개인의 사적 영역에 놓인 데이터를 포함하여 수집해도 괜찮은 것인가? 즉, 빅데이터라는 이유로 아무리 인류에 큰 기여를 한다는 목적이 있다고 해도 개인들이 공개하기 싫은 데이터를 수집해서 이를 통해 분석하는 것은 괜찮은 일인가를 묻는 것이다.


결국 항상 다량의 데이터 분석을 통한 가치가 있는 분석 결과를 내 놓는 것도 중요하고 공공성이 보장되어 다수의 공익을 보장하는 분석 결과라고 해도 개별의 개인 정보가 수집되어 이용되는 것이 옳을 일인지 묻고 싶은 것이다. 원칙적으로 개인 정보, 특히 사적 영역에 놓은 정보는 수집되지 않는 것이 옳은 것이다. 비록 개인이 동의를 해서 개인의 정보, 특히 사생활에 관련된 정보들이 수집될 수 있다고 해도 이렇게 수집된 정보가 특정한 목적을 위해 사용되는 것이 옳은 것인가? 너무도 다양한 경우에 대해서 개인 정보의 수집과 사적 영역의 보호는 항상 충돌이 일어날 수 밖에 없는 상황이다. 사실 나와 밀접한 사생활에 관련된 개인 정보를 제공하여 얻어지는 편리성도 존재한다. 예를 들어 자신의 위치를 정확하게 파악하여 현재 위치에서 집까지 (집의 위치 조차도 미리 기록되어 있다.) 가는 교통편을 편리하게 알려주거나 막히지 않는 도로를 알려주기도 한다. 매주 일요일 아침에는 스파게티를 해먹는다는 사실을 수집했다면 색다른 스파게티 요리법을 일요일 아침에 제공해줄 수 있다. 이런 기능들에 편리함을 느끼는 개인들은 개인 정보, 특히 사생활을 포함한 사적 영역의 데이터가 제공되어도 [정보 제공하는 개인] - [정보 수집하는 회사] 간의 철저한 보안으로 잘 지켜지고 있기 때문에 문제 없다고 생각할 수 있다. 그러나 이미 언급했지만 어떤 데이터도 완변한 보안이 되는 데이터는 없다. 앞서 설명한 개념으로 '극한으로 보내진 익명' 에게는 노출될 수 있는 정보가 되어버린다.

기술적 보안 수준이 높아 일반인들이 별로 걱정할 필요가 없다고 해도 항상 문제는 발생한다. 많은 데이터를 보유하고 있는 거대 데이터 회사 (구글, 애플, 야후 등 ...) 가 해킹당해 데이터가 노출되는 경우도 존재하지만, 그보다 사용자 수준에서 사용자의 부주의와 무신경에 의해 노출되는 사생활 정보도 생각보다 많다는 것도 생각해야 한다. 아무 생각없이 올리는 사진들 속에 녹아 들어 있는 위치 정보를 모아서 주로 다니는 동선을 파악할 수 있다. 언젠가 주기적으로 싱가포르 - 미국을 왔다갔다 하는 어떤 사람의 사진 정보를 본적이 있다. 이런 경우 정말 악의적인 생각을 가진다면 상대방의 예상되는 여행 정보에 맞춰 상대방의 가방에 마약을 넣어 싱가포르에서 마약 소지범으로 잡히게 할 수 있는 내용으로 소설을 써볼까 생각한 적 있었다. 이외에도 악용될 소지가 있어 소개하기 어렵지만 다양한 방법으로 개인 정보를 취득하고 이를 악용할 수 있는 방법은 생각보다 다양하다. 사생활에 관련된 사적 영역의 데이터가 수집되면 분석을 통해 특정 지역의 소비 형태, 소비되는 물건 등을 관리하여 각자에게 맞는 소위 개인 맞춤화된 마켓팅이 가능하다. 즉, 예전에는 개인 특성을 파악할 수 있는 다양한 방법이 없었지만 사생활을 기록한 개인 정보 (공개 혹은 비공개 여부를 다 포함하여) 는 개인이 어떤 성향을 가지는지 마치 마음을 꽤 뚫는 타겟 마켓팅을 할 수 있게 된다.


빅데이터의 실질적 이득을 보여준 버락 오바마의 재선 기간동안의 개인 맞춤형 선거 캠페인은 각자의 정치적 관심사, 지역 현안 중 개인이 얼마나 관심을 보이는가에 따라서 개인들이 관심을 가질 정보를 제공하여 적극적으로 선거에 참여하도록 했다. 즉, 개인에게서 수집된 다양한 데이터가 분석을 통해서 다시 개인에게 필요한 정보가 무엇인지 분석 내용과 연결이 되는 과정이 이루어졌기 때문에 기존에 보여주던 방식으로 전체 이야기만 하던 방법에서 개인들에게 필요한 내용만 뽑아 보여줄 수 있게 되었다. 반대로 개인화된 연결 고리를 제공해준다는 것은 개인 데이터를 바탕으로 분석되지만 개인이 식별 (ID) 된다는 점이다. 기존 통계 분석이 전체에 대한 이야기만 할 수 밖에 없는 이유는 오히려 수집된 데이터가 분석을 위해 개인은 식별되지 않는 익명성으로 가공되었기 때문이다. 따라서 빅데이터의 최종적 목표가 개인 맞춤형 Personalized 라면 여기에는 필연적으로 식별된 데이터가 계속 유지된다는 내용을 생각해야 한다. 이 부분이 문제점이라고 단정할 수 없지만 악용되는 경우 단순 사생활 데이터와는 차원이 다른 위협또한 될 수 있다는 가능성도 무시할 수는 없을 것이다.


Big Data throughout Public Information 

여러가지 이유로 엄청난 규모로 이루어지는 데이터 수집이 개인 정보, 특히 사적 영역까지 침투하게 된다면 정보는 심각한 무기가 될 수 있다. 이 부분에 대한 해결책을 제시하지는 못한다. 다만 이런 매력이 크게 작용해서 빅데이터는 마치 인간의 마음을 읽고 인간의 행동을 예측하여 원하는 결과를 얻을 수 있는 도구처럼 인간에게 허황된 꿈을 만들고 있다는 점도 사실이다. 그렇다면 이런 빅데이터의 문제점때문에 강력하게 규제하고 사용을 금지해야 하는가? 혹은 사적 영역에 대한 데이터 수집에 대한 강력한 처벌 규정을 수립해야 하는가... 아니면 기술을 좀더 발전시켜 인간이 풀어 낼 수 없는 보안 체계를 만들어야 하는가... 그 어떤 시도도 모두 다 필요하지만 모두 한계를 가지게 된다. 따라서 지금 시점에서 빅데이터가 제시할 수 있는 가능성을 좀 더 다른 방향에서 제시하는 것도 필요하다고 생각한다.

최근 미국 뉴욕에서는 기차가 탈선하는 사고 derailment 가 발생했다. 전세계의 뉴스가 빠르게 수집되기도 하지만 최근 들어 열차 사고는 분명 점점 빈번해지는 사고라는 느낌이 든다. 느낌만으로 할 수 없는 것이 과학이다. 그러나 느낌이 있어야 과학을 시작할 수 있다. 가설은 다음과 같다. "최근 열차사고는 점점 빈번해진다. 그리고 이 열차사고의 원인은 기계적 결함에서 오는 것이다." 이런 가설을 바탕으로 열차 사고에 관련된 가능한 모든 정보를 수집 crawling 하는 것이다. 수집을 하는 방식은 수작업으로 인터넷에서 검색해서 모으는 것이 아니라 정보 수집을 목적으로 만들어진 일종의 가상 사용자인 봇 bot 을 통해서 수집을 하게 된다. 봇은 검색에 필요한 검색어와 조건은 존재하지만 가능한 광범위한 검색 범위에서 시도한다. 이렇게 정보를 모을 때 생각해야 할 것은 바로 언어 문제이다. 검색되는 정보는 꼭 영어로만 되어 있을 수 없다. 많은 수의 정보가 영어이긴 하지만 그래도 영어에 한정하여 정보를 수집할 수 없기 때문에 다양한 언어로 해당 검색 내용을 번역을 도와주는 번역 API 를 이용하여 검색의 범위를 확장할 수 있다.


이렇게 수집된 정보 안에는 다양한 데이터가 존재한다. 기본적으로 어떤 형식의 기차인지 기차의 사고 원인이 무엇인지에 대한 보고서, 기사 내용이 존재하고 일차적으로 수집된 내용만으로는 해당 내용을 분석해서 의미있는 결과를 얻어내기 어렵다. 예를 들어 특정 기차 모델이 주기적으로 사고가 난다고 하면 해당 기차의 제조사로 연결하고 제조사가 만든 다른 모델도 살펴봐야 한다. 즉, 일차적으로 수집된 정보 안에서 의미있는 데이터를 뽑아내고 이 데이터가 또 어떤 정보를 가지고 있는지 수집하는 과정을 반복하게 된다. 즉, 기존의 통계 분석은 한정된 데이터, 한정된 조건에서 의미를 찾아내는 과정이라면 빅데이터의 방법은 데이터 수집의 기능이 있기 때문에 오히려 데이터와 조건을 확장해 나가며 의미있는 결과를 얻어 보는 것이다. 따라서 기존의 통계 분석 방법을 가지고 빅데이터라고 표현하는 것은 무리가 있고 [ 통계로 바라보는 시선 - 빅 데이터의 패러다임 ] 에서 이야기한 것처럼 어떤 '존재'가 의미를 가지기 위한 '최소한의 구성 요소 (minimum span of sets)' 를 찾는 것이 중요하다고 했다. 이런 확장 과정을 통해서 기차 사고에서 발생하는 기계적인 문제점, 특히 선로 탈선에 관련된 기여도 등과 같은 '기차 사고' 라는 존재 (사건) 가 가능하게 되는 구성 요소가 무엇인지 데이터를 수집하며 확장해 가는 것이다. 이렇게 기차 사고에는 어떤 요인이 기여하고 어느정도 기여하는지, 그리고 기계적 결함의 가능성 등을 생각해보는 것이다.

이렇게 수집, 확장, 분석 의 반복적인 작업을 통해서 의미있는 결과를 얻어내면 이제 다시 개별화 작업을 수행할 수 있다. 기차 사고의 경우 기차가 사고가 일어나는 원인에 기여하는 다양한 요인들을 분석하여 운영적 문제인지, 기차의 기계적 문제인지와 같은 기여도와 상관 관계를 생각할 수 있게 된다. 이를 통해 현재 운행되고 있는 기차에 역으로 적용하여 특정 지역에 운행 중인 특정 기차 모델은 어느정도의 사고 위험성이 있는지를 개별적으로 알려주게 된다. 마치 오바마 캠프에서 선거기간동안 유권자에게 개별적으로 관심사에 관련된 내용을 제공해주는 것과 같은 것이다. 만약 이런 연구 방향이 유용하다고 느껴진다면 기차 회사나 운영 회사의 입장에서 공개하기 어려운 내용의 데이터이지만 사고 감소를 위해서 제공될 수도 있을 것이다. 점점 데이터의 공개 영역이 증가하게 되고 이에 따라 더 양질의 분석이 가능하게 될 수 있을 것이라 기대한다. 기차 사고에 대한 빅데이터 분석은 몇명의 동료들과 아이디어가 나온지 한시간만에 수행하기로 시작했다. 왜냐하면 사실 빅데이터의 영역이 너무 부풀려지고 과장되어서 일반 대중이 이를 이해하고 접근하는 방식이 너무 거창하기 때문이다. 단지 문제를 해결하기 위한 하나의 방법인데 마법같은 도구로 인식되기 때문이다.

예를 들어 유전자 검사를 통해 유전적 취약성을 검사해주어 개인 맞춤형 DNA 분석이 유행하기 시작한다 - Personalized DNA Analysis. 문제는 이런 유전자 검사를 통해 무엇이 취약하단 분석 결과를 너무 쉽게 이야기한다는 것이다. "당신의 유전자 어디에는 문제가 있다." 란 분석 결과는 적절하지 않다. 더 정확한 표현은 "지금까지 수집되고 확장된 영역에서의 결과로 비교하여 다수에서 보이는 유전자가 몇 % 의 비율로 당신에게는 존재하지 않거나 다른 형태로 존재합니다." 란 표현이 더 적절하다. 즉, 아직 빅데이터의 기법을 통해 특정 질병과 어느정도 연관성이 있는지 수집하고 확장하는 과정이다. 같은 이유로 많은 환자들이 자신의 사적 영역에 해당할 수 있는 의료 정보 및 DNA 분석 데이터까지 제공한다면 분석의 영역은 확장되고 더 의미있는 결과들이 만들어 질 것이다. 이런 방식으로 루틴 routine 을 이루는 연구 방식을 빅데이터라고 생각하는 것이 가장 합리적이라 생각이 든다.


연구적 가치로 그리고 방법론적 가치로 빅데이터는 새로운 방법을 제공해준다. 그리고 상당 부분 의미있는 결과를 지속적으로 만들어내는 분야이기도 하다. 그러나 너무 지나치게 개인의 사적 영역을 넘어서는 문제를 만들거나 또는 그렇게 해야 좋은 결과를 얻을 수 있다는 지나친 흥분 속에 개인들의 사적 영역을 보호하지 않는다면 데이터와 정보로 먹고사는 것이 빅데이터 분야임을 잊고 지나친 남용을 하고 있는지 모른다. 그래서 빅데이터를 공적 정보, 공개 정보의 영역에서 시작해서 조심스럽게 확장하는 지혜를 가져야 하지 않을까 생각한다. 무분별하게 사적 영역까지 침범하고 개인의 부주의로 얻어진 개인 정보, 아무리 개인이 동의했다고 해도 지나친 사생활의 영역까지도 수집하는 것은 데이터 수집이 아니라 데이터 스캐빈저 data scavenger 일 것이다. 따라서 선결 조건은 사적 영역과 공개 영역 (공적 영역) 에 대한 개념적 인식을 합의 consensus 하여 빅데이터 연구에 있어서도 공공적 성격의 데이터에서 시작하는 연구의 방향이 정립될 필요가 있다고 본다.


with conclusion... 

조금은 도전같은 개념을 정리하게 되었다. 빅데이터의 큰 기대가 무엇인가를 해결할 수 있다고 믿지만 어떤 방법이든 좋은 결과를 얻어내는 것에 앞서 그 과정에서 발생할 수 있는 부작용에 대해서 세심하게 고려하는 것도 과학 기술을 위한 부분이라 믿는다. 많은 경우 과학 기술의 발전은 인류의 발전이나 진보를 보장하지 않는다. 오히려 과학 기술의 다양한 결과물은 인간을 작게 만드는 것은 아닌지 의문이 들때가 많다. 자연의 원리를 알아내고 싶은 과학의 영역과 인간에게 그 원리가 어떻게 이용되면 좋겠다는 기술의 영역은 분명히 다르다. 예를 들어 어떤 과학자가 자연색에 완벽하게 가까운 발광 물질을 발견했다고 하자. 그리고 기술자들은 이 물질이 모든 전자기기에 적용될 수 있는 뛰어난 화면을 만드는 재료로 양산했다고 했을 때 인류는 발전한다고 말할 수 있는가? 뜻밖에 그 물질이 인간에게 심각한 질병을 유발할 수 있거나 혹은 양산하는 과정에서 특정 광물을 사용해야 하는데 그 광물을 채취하는 과정에서 저소득 국가의 노동력 착취에 연결된다면 진정 인류의 발전이라 말할 수 있는가 묻고 싶은 것이다.


상당히 가치 중립적이라 믿었던 연구 방법론, 빅데이터 같은 내용도 때로는 개인 정보라는 인간의 민감한 영역과 연결될 때 뜻하지 않는 문제들을 많이 가지고 있을 수 있다는 점을 항상 지적하고 싶다. 결과에 눈이 멀어 어떤 데이터를 수집하는지, 그 수집에 개인의 사생활을 침해하지 않는지, 수집의 과정에서 필요하다면 정당한 대가를 치뤘는지 등 우리가 고민해야 할 문제들은 많고 그 고민은 연구를 더디게 하거나 귀찮게 만드는 부분이 아니라 오히려 부작용없이 발전할 수 있는 방향을 제시해주는 좋은 가이드라인이 되어준다. 빅데이터를 바라보며 가장 안타가운 것은 정치적 마켓팅, 경영적 기법이란 이름으로 단기간에 빠르게 결과를 낼 수 있는 것처럼 포장해서 팔아먹는 것이다. 그렇게 당장은 이익이 되어 돌아오겠지만 정작 빅데이터의 많은 가치와 중요성을 훼손시키는 역할을 하게 된다.


좋은 방법론에 대한 지속적인 담론 discourse 을 기대한다.


0 comments:

Post a Comment