Thursday, August 2, 2018

개인정보를 대하는 우리의 자세 ─ 인공지능 시대 개인정보란 무엇인가?

Leave a Comment

"데이터가 살인을 할 수 있는가?"

살인이라고 하면 '사람을 죽이다'란 뜻을 가지는 광범위한 뜻을 가지고 있지만 영어로 살인은 여러가지로 표현된다. 먼저 살인하고자 하는 의도를 가지지 않았지만 결과적으로 죽음에 이르게 된 과실치사는 manslaughter 이고, 사람을 계획적으로 죽이는 것은 murder 라고 부른다. 사람의 죽음을 다루는 경찰이나 수사기관에서는 피의자의 살인의도를 제대로 파악하기 힘들기 때문에 일반적 살인을 다루는 homicide 라고 표현한다. 다시 처음 질문으로 돌아와서 "데이터가 살인을 할 수 있는가?"라고 물으면 데이터가 과실치사 혹은 계획된 살인을 만들 수 있는지 묻는 것이다. 거의 대부분의 사람들은 그럴 수 있을까? 라는 의문보다는 그럴리가 하면서 부정적인 반응을 보이기 쉽다. 기본적으로 살인이 주는 구체적인 모습은 흉기로 사람을 찌르는 것과 같은 구체적인 행동과 우선 연결이 되기 때문이다.


그러나 만약 '데이터가 누군가를 죽음에 이르게 할 수 있는가?' 로 질문을 바꾼다면 많은 이들은 그 가능성에 대해서 크게 부정하지 않을 것이다. 개인적으로 쓰는 소설에서는 각국의 사형제도를 통해서 특정 인물을 살해하는 내용을 그리고 있다. 예를 들어 싱가포르에서 소량의 마약을 가지고 입국하다 적발되면 사형이다. 만약 내가 죽이고 싶은 사람에게 경품으로 싱가포르 여행권이 당첨되었다고 하고 그 사람의 짐에 몰래 마약을 넣고 입국하는 과정에서 잡히도록 해서 사형을 당하게 된다면 계획된 치밀한 살인으로 볼 수 있는지 궁금해진다. 결국 사람을 죽음으로 이르게 하는 과정 안에는 수많은 우연들의 결과일 수 있지만 치밀한 계획에 의해서 만들어진 죽음이라고 해도 그 계획의 자세한 내용을 알지 못한다면 우연의 죽음으로 보일 것이다.

싱가포르 입국신고서

사실 우연과 계획의 경계선상에서 우리가 주의깊게 살펴봐야 하는 요소가 있다. 바로 개인정보 privacy 라는 측면이다. 개인정보 그냥 프라이버시라는 것은 종종 '보여주고 싶지 않은 것을 보여주지 않을 권리'로 생각된다.

"그건 내 프라이버시야"

출처: Consumer Reports

라는 말에는 정보 자체가 사실이 아니라는 말이 아니라 누군가 아는 것이 불편하다는 뜻이다. 불편함에는 여러가지 이유가 있을 수 있다. 알려지는 내용이 부끄러울 수도 있고 알려지면 곤란해질 수도 있고 다양한 이유지만 기본적으로 불편하기 때문에 가급적 나만이 알고 있으면 좋겠다는 뜻이다. 그 중에는 알려지면 악용될 가능성이 있는 개인정보들도 분명 있다. 대표적인 것이 바로 대한민국의 주민등록번호일 것이다. 주민등록번호를 안다는 것은 태어난 년도 생일 뿐만 아니라 성별 그리고 더 관심있게 본다면 출생신고를 한 지역까지도 알 수 있다. 꽤 많은 정보들을 포함있지만 대한민국에서 금융을 포함한 다양한 활동을 하는데 주민등록번호를 공유하지 않으면 할 수 없는 것이 많다는 것은 그동안 개인정보를 노출되도록 강요받았는지 생각해봐야 한다.


Material privacy ...

정보 자체가 그대로 개인정보가 되는 경우를 생각할 수 있다. 주민등록번호의 생년월일 뿐만 아니라 남/녀 를 나타내는 숫자를 보고 바로 알 수 있다. 정보가 그대로 개인정보가 되는 경우이다. 법정에서 판결에 중요한 영향을 줄 수 있는 증인은 material witness 라고 부른다. 증인이면 증인이지 material 이 붙는 이유는 무엇일까? 판결에 큰 영향이란 판결의 유무죄를 바로 뒤집을 수 있는 증인이란 뜻이다. 그런 증인 witness 앞에 material 이 붙는 것은 '있는 그대로 바로' 의미를 가진다는 뜻이다. 그런 의미에서 생년월일, 성별과 같은 정보는 바로 개인정보가 되고 이런 성격의 개인정보를 본연적 개인정보 material privacy 라 부르려 한다. [ 데이터와 개인정보의 시대 ─ 인간이란 무엇인가 ] 에서

"개인정보 privacy 란 데이터와 조건, 상황이 포함된 결과물이다."

이라고 소개했지만 본연적 개인정보는 조건 혹은 상황이 포함되지 않아도 그대로 개인정보인 경우이다. 그러나 자신의 생년월일이나 성별은 대상에 따라서 알리고 싶은 경우도 있고 그렇지 않은 경우가 있다. 즉, 본연적 개인정보지만 누군가에게는 성별조차도 알리고 싶지 않을 때도 있다. 개인정보는 정보의 성격뿐만 아니라 대상이 중요한 경우이다. 결과적으로 개인정보란 알리고 싶은 대상에게만 적절하게 in control 알려지기를 바라는 정보라고 생각하게 된다. 그러나 현실적으로 모든 정보를 제어할 수 있다고 생각하는 것은 거의 불가능에 가깝다. 더 정확한 표현은 자신이 통제할 필요가 없다고 생각하는 많은 본연적 개인정보들이 원하지 않는 이들에게 알려지거나 혹은 전혀 알 수 없을 것이라고 생각하는 정보들도 개인정보로 만들어지는 경우도 생각하게 된다.


Manufactured privacy ...

소셜네트워크 SNS 에서 전혀 모르는 이의 계정을 들어가 공개된 정보만으로 계정의 주인이 어떤 사람이고 어디에 살고 어떤 일을 하는지 얼마나 알아낼 수 있는지 살펴보면 상당히 많은 정보들을 알아낼 수 있는 경우가 많다. 물론 본인이 공개한 정보들도 많다. 직장 정보, 지역 등 알리기 원해서 알리는 경우도 있지만 공개하지 않은 개인정보라고 즉, 본연적 개인정보 material privacy 가 아니라고 해도 사진, 글 등을 통해서 어디에 사는지 직업이 무엇인지 알아낼 수 있는 방법도 있다. 즉, 본인이 직접 알린 개인정보가 아니지만 사진 속에 입고 있는 옷이나 주변 건물 등을 통해서도 유추할 수 있는 방법이 없는 것은 아니다. 몇가지 예를 통해서 생각해보자.

ID 카드: 신기한 현상이지만 한국에서 ID 카드란 자신의 직업 혹은 직장을 인증하기 위한 방법으로사용된다. 그래서 사진을 올리는 소셜네트워크인 인스타그램 Instagram 에서 #사원증 태그 수는 2018년 7월 30일 현재 18,780여개가 올라와 있다. 물론 공개된 개수이다. 많은 이들은 사원증의 형태나 모양은 그리 중요한 것이 아니고 자신의 직장을 알리기 위한 좋은 도구라는 생각을 하는 이들이 많은 것 같다. 그래서 특정 기업의 사원증은 거의 동일하게 위변조 할 수 있을 정도로 형태와 구조를 보여주고 있고 같이 찍은 물건을 통해서 사원증의 거의 정확한 크기도 알아낼 수 있다. 역시나 모양을 안다고 해도 카드 내부 정보를 통해서 위변조하기 어렵다고 생각할 수 있지만 그런 생각이 보안에서 가장 취약한 태도라고 볼 수 있다. 많은 경우 출입 허가증의 형태에서 문제가 되는 경우가 가장 일차적인 보안이다. 심지어 ID카드의 형태를 보면 제조회사를 알아내고 어떤 방식의 보안을 사용하는지 알아내는 것도 어려운 일은 아니다. 기본적으로 자신의 중요한 신분증을 공개하는 것에 대해서 수많은 기업들 그리고 관리자들이 가지는 생각을 유추할 수 있게 된다. 비슷한 검색어 태그로 #idcard 를 입력해보면 156,000 여개 공개 게시물을 볼 수 있는데 내용을 들어가서 살펴보면 세계곳곳에 진출한 한국인들의 ID 카드를 볼 수 있다. 많은 기관의 경우 신분증을 공개해서 올리는 것에 대해서 일종의 범죄 혹은 중요 정보에 대한 공개로 자격 박탈할 수 있는 이유가 된다. 그러나 대한민국 사람들은 그런 교육을 받았는지 아닌지 몰라도 자랑하고 싶은 곳일수록 적극적으로 올리는 것을 어렵지 않게 볼 수 있다.


배경이 더 중요한 정보를 주는 경우도 많다. 사진의 배경을 통해서 사진을 찍은 장소가 어디인지 알아낼 수 있다. 물론 친절하게 어디라는 태그 혹은 위치 태그를 붙여주기 때문에 어렵지 않게 알 수 있기도 한다. 그래서 그런 정보를 통해서 계정의 주인의 주요 동선이 어디이고 어디를 가면 볼 수 있는지 어떤 소지품을 가지고 다니기 때문에 아무리 얼굴이 화사하게 처리가 되었다고 해도 진짜 주인을 알아낼 수 있는 많은 방법들이 있다. 계정에서 나타나는 위치 정보들을 모아보면 계정 주인의 동선이나 어느 지점을 중심으로 이동하는지 그리고 시간대와 거리등을 통해서 계정 주인의 주거지가 어디쯤인지 추정할 수 있다. 눈 내리는 모습이 너무 좋아서 집에서 나오자 마자 찍어 올린 동영상에는 주변 아파트의 동 호수가 보일 때가 있다. 많은 사람들은 눈 내리는 장면에 집중하지만 개인정보의 민감함을 생각한다면 이웃 아파트가 보이고 이미 알아낸 동선과 비교해서 주변에 해당 동수가 있는 아파트 단지를 알아내는 것도 어렵지 않다. 사진 혹은 영상에서 나온 물체의 크기를 통해서 몇층에서 찍었는지 알아내는 것도 그렇게 어렵지 않다.


사용자는 절대로 자신이 사는 위치까지는 알리고 싶지 않았을 것이라고 생각한다. 그리고 이 정도면 사는 곳을 알아내는 것은 어려운 것이라고 생각했을 것이다. 그러나 주어진 정보에서 유추할 수 있는 많은 다른 정보들을 통해서 알리고 싶지 않았던 개인정보까지도 알려질 수 있다는 것은 한번쯤 개인정보를 다루는 직업을 가진 사람들이라면 생각해봐야 할 내용이다. 이처럼 자신은 알리고 싶은 개인정보가 아니고 직접 들어난 정보는 아니지만 다른 정보들을 통해서 알아낼 수 있는 개인정보도 있다는 것이다. 그리고 이를 본연적 개인정보 material privacy 와 구별하기 위해서 가공된 개인정보 manufactured privacy 라고 부르려 한다.


A being of analogy ...

인간이 동물과 구별되는 특징이 무엇인지 논의할 때 몇가지는 항상 빠지지 않고 나온다. 언어를 가지고 있다. 이성을 가지고 있다 등과 같이 설명을 하지만 막상 동물의 한 종류인 인간이 다른 동물들과 달리 어떤 특징을 가지고 있는지는 그 동물이 되어보지 않거나 동물들의 능력을 제대로 살펴보지 않고서는 알 수 없다. 그럼에도 불구하고 인간은 뭔가 특별한 능력을 가지고 있다고 항상 믿어오고 있다. 인간만의 특별한 능력인지 알 수 없지만 인간의 언어 능력 분석 능력 등이 종합적으로 나타나는 것으로 '유추하는 능력'을 볼 수 있다. 유추하다는 infer 를 주로 사용하지만 '유추'라는 것은 보통 'analogy' 라고 말한다. analogy 는 서로 다른 대상 사이에서 유사한 점을 찾아내서 그 유사점을 통해서 비슷한 성격 혹은 비슷한 반응을 나타내는 대상이지 않을까 미루어 짐작하는 것이다. 유추를 할 수 있는 것은 수많은 경험을 통해서가 아니라 기존에 경험한 내용 혹은 경험하지 않았지만 배운 내용만으로 미루어 짐작할 수 있는 방법들을 알고 있다는 뜻이다.


예를 들어 사진의 배경 안에 있는 나무와 나무의 그림자를 통해서 사진을 찍었을 때 몇시였고 어느 높이에서 찍었는지 와 같은 내용을 유추할 수 있는 이유는 광학과 기본적인 기하학을 이해하고 있기 때문에 가능하다. 그래서 많은 학문을 배우는 이유는 시험 점수로 경쟁하기 위해서가 아니라 삶에서 유추할 수 있는 능력을 증가시킬 수 있는 도구들을 가지기 위함일 것이다. 사용자의 사진들의 위치를 통해서 거주지를 유추하는 것도 특별한 의도를 가지지 않는다면 거주지를 중심으로 사용자가 움직일 것이라고 생각했기 때문이다. 범죄 심리학에서 피의자가 범죄를 일으키는 패턴의 모습과도 유사함을 생각할 수도 있고 다양한 이유로 한 사용자의 계정이 보여주는 위치를 통해서 사용자의 거주지를 추정할 수 있다는 것은 합리적인 생각이 될 수 있을 것이다.

이처럼 좋은 의도를 가진다면 인간이 가지는 유추란 세상의 원리를 알아내고 세상이 움직이는 모습을 이해할 수 있는 좋은 도구가 될 수 있지만 나쁜 의도를 가지고 어떤 사용자가 어디에서 살고 어디에서 움직이고 그래서 어디에 가면 만날 수 있는지와 같은 용도로 사용된다면 결국 인간의 유추 능력은 스토킹을 위한 도구가 되는 것이다. 사용자는 의도하지 않았지만 결국 유추된 개인정보들을 앞서 표현한 것처럼 가공된 개인정보 manufactured privacy 라고 불렀고 이런 개인정보는 한가지 정보를 통해서 유추할 수 있기도 하지만 여러가지 정보들을 모아서 한가지의 결정적인 정보를 찾아낼 수 있다. 그리고 많은 경우 인간의 선한 의도만을 믿는 세상이 아니라면 이런 가공된 개인정보는 더욱 더 위험한 형태의 개인정보가 되어서 사용자를 힘들게 할 수도 있을 것이다.


A machine of analogy ...

이런 인간이 유추해 알아낼 수 있는 개인정보를 인간이 아닌 기계 machine 에게 맡긴다면 더 잘 할 수 있을까? 물론 기본적으로 유추할 수 있는 기본이 되는 원리들은 이해하고 있어야 한다. 빛의 직진성 등과 같은 물리학의 원리 뿐만 아니라 사진에서 나오는 배경에 나오는 간판 혹은 특정한 배경을 통해서 어디에 있는 것인지 찾아낼 수 있는 능력과 같은 것이다. 아주 짧은 그리고 거의 보이지 않는 정보를 통해서 위치를 알아내는 방법도 인간의 집요함만큼이나 기계가 수행할 수 있는지 생각해봐야 한다. 그러나 기계는 기본적으로 짜증을 내지 않는다. 인간처럼 유추하는 과정에서 궁극적인 결과를 알아내는데 실패해도 짜증내지 않을 것이고 다시 다른 정보를 통해서 다른 정보들을 알아내려고 할 것이다. 어떤 면에서는 사진 정보를 확대해서 더 정확하게 인식할 수 있는, 예를 들어 인간이 확대해서 눈으로 확인하기 어려운 간판을 기계가 확대할 때 좀 더 선명하게 구분할 수 있는 사진 확대 방법을 적용한다면 인간보다 더 정확한 그리고 더 빠른 정보를 얻어낼 수도 있다.


결국 기계학습 machine learning 에 대한 다양한 설명을 할 때 막연하게 기계에게 인간의 지식 정도를 학습시킨다고 설명할 때가 많지만 실질적으로 기계 학습에서는 기계가 알아내려고 하는 목표를 정하고 그 목표를 달성하기 위해 필요한 학습 내용이 추가되어야 한다. 이런 경우 인간이 어떤 공개된 사진을 통해서 나온 본연적 개인정보 material privacy 를 통해서 가공된 개인정보 manufactured privacy 를 알아내는 다양한 유추 방법들을 알려준다. 우선 사진 정보를 통해서 위치를 알아내는데 사용자가 친절하게 올린 위치 정보와 함께 사진에 포함된 간판 혹은 길거리 특정하게 알아낼 수 있는 부분을 통해서 사용자의 위치 정보를 알아낼 수 있을 것이다. 그리고 기계에게 특정 사용자가 사는 곳이 어딘지 알아내 라고 할 수 있다. 사용자가 집 안에서 찍은 구름 사진을 통해서 건물들을 찾아낼 수 있다면 해당 건물이 보일 수 있는 위치를 지도에서 찾아내고 사용자가 사진 찍은 위치를 알아낼 수 있을 것이다. 인간도 할 수 있지만 기계에게 지도의 정보와 함께 사진이 찍힌 구도, 그림자 등과 같은 부분적인 정보를 통해서 더 정확한 정보를 인간보다 더 빠르게 알아낼 수 있다.

내용이 그렇지만 결국 사용자 계정이 주어지면 사용자가 어디에 사는지 정확하게 알아낼 수 있는 일종의 '스토킹 기계'를 만든 것이나 다름없다. 그리고 학습 내용이 정교하면 그만큼 더 적은 정보를 통해서도 더 정확한 개인정보를 알아내기 쉽다. 결국 인간이 평소에 유추해내는 다양한 방법을 기계에게 학습시킨다면 기계도 일종의 유추잘하는 기계가 될 것이다.


A thing of manufactured privacy ...

악의적인 의도를 가지지 않고 전혀 모르는 몇몇 사용자들의 인스타그램 계정에서 정말 이렇게 알아낼 수 있을까 궁금해지게 되었다. (이미 오래전이다.) 그래서 그때 적용했던 몇가지 예를 통해서 기계의 의한 학습 그리고 그 기계 학습으로 개인정보, 더 정확하게 '가공된 개인정보'를 얼마나 정확하게 알아낼 수 있는지 그 과정을 설명하고자 한다.

사용자 A 는 주기적으로 카페를 방문하고 방문하고 반나절 혹은 하루 정도 지난 후 인스타그램에 자신의 셀피 selfie 와 함께 올린다. 세 곳은 자주 가고 일주일에 한번 이상은 항상 방문하고 비정기적으로 가는 곳도 있다. 카페 이름은 친절하게 사용자가 태그로 올려놓거나 위치정보를 같이 올리기 때문에 정확한 위치를 파악하게 된다. 방문 시간과 올린 시간이 같지 않기 때문에 몇시에 방문하는지 알 수 없지만 이동 중에 찍은 셀피를 통해서 주로 이동시간이 오후 2시에서 3시 사이임을 알 수 있다. 이동 시간은 주로 그림자 등으로 유추가 가능했고 일관된 시간을 나타냈다. 방문한 위치들을 지도에 찾아본다. 이동 중에 찍은 사진에서 나타난 길가 표지판 혹은 특정 상호를 통해서 이동에 포함되는 거리를 추정하게 된다. 해당 정보와 도보와 버스를 이용할 때의 동선을 고려해서 가장 가능성이 높은 거주 위치를 추정하게 된다.
사용자 B 는 자주 다니는 사진도 많이 올라오지 않고 배경이 있는 사진이 아닌 책과 소품과 같은 물건들을 배경으로 찍은 사진들이 대부분이다. 태그도 거의 없기 때문에 위치를 추정할 수 있는 정보도 많지 않다. 어느 겨울날 사용자는 첫눈이 너무 좋아서 출근길에 아파트 복도에서 멈춰서 눈이 내리는 풍경을 찍었다. 그리고 그 사진 안에는 이웃 아파트의 동수가 나와 있었다. 다른 몇개의 사진을 통해서 사용자가 사는 지역 (시단위) 를 확인하고 그 지역에서 해당 동수가 어디에 있는지 찾고 아파트의 외관을 통해서 사진을 찍은 위치 뿐만 아니라 복도식 아파트라는 사실과 나무와 이웃 아파트의 높이 등을 고려해서 해당 사용자가 사는 정확한 위치를 알아내었다.
사용자 C 는 거의 고양이 사진만을 올리는 사용자였다. 위치 정보를 알 수 없었지만 고양이가 창문에 있는 사진이 올라왔다. 창문 너머로는 주변 건물이 보인다. 비슷한 방법으로 건물 이름을 통해서 해당 건물이 있는 건물 주변에 비슷한 형태가 존재하는지 확인할 수 있다.

사실 이정도까지 노력하지 않아도 수많은 개인정보를 올리는 사용자들이 많다. 자신의 자식들이 다니는 어린이집 이름부터 자신의 집을 스스로 위치 태그를 만들어서 친절하게 알려주는 경우도 많기 때문에 생각보다 직접적으로 개인정보를 알아내는 경우가 많다. 그러나 사용자 스스로는 알리지 않으려고 노력했다고 했지만 여러가지 단서를 통해서 아주 중요한 개인정보를 알아내는 경우도 쉽지 않게 찾아낼 수 있다. 이 정도 기계가 할 수 있게 시킨다면 많은 이들은 도대체 왜 이런 것을 기계에게 시키냐고 물어볼 수 있다.


먼저 본연적 개인정보 material privacy 와 가공된 개인정보 manufactured privacy 에 대한 구별을 하고 사용자들이 조심해도 생각보다 많은 개인정보를 바로 알거나 유추를 통해서 알아낼 수 있는 다양한 예가 있다는 것을 말하고 싶은 것도 있지만 이런 가공된 개인정보에 대한 개념을 만들고 싶었던 근본적인 이유는 다음에서 소개하려 한다.


A better thing of machine ...

앞의 사용자 A, B, C 의 경우 결국 사용자의 거의 정확한 거주지를 알아낼 수 있다. 심지어 대략적인 동선과 일정을 예상할 수도 있다. 그렇다면 인간이 할 수 있는 일을 좀 더 수고를 덜하게 하고자 기계에게 이런 '스토킹스러운' 일을 시킨 것인가?

여기에서 기계와 인간을 비교하면서 기계가 인간보다 더 잘 할 수 있는 특징이 무엇인지 생각해 볼 필요가 있다. 인간은 논리적이고 이성적이고 수많은 판단을 합리적으로 하는 존재라고 인간 스스로는 믿고 있다. 만약 이 명제가 사실이라면 인간은 더 넓게 보아 대다수의 인간들은 소위 가짜 뉴스 fake news 에 속으면 안될 것이다. 스스로 판단할 수 있는 이성 그리고 수많은 검색 방법을 통해서 인간은 많은 것을 확인하고 무엇이 사실인지 알아낼 수 있기 때문이다. 그런데 많은 경우 가짜 뉴스의 제목만으로도 어느정도 확증편향 confirmation bias 를 가지고 사물을 바라보게 된다.

기계에게 인간의 유추 방법과 자연 원리 등을 학습시키고 임의의 사용자의 거주지를 알아내도록 한다면 결론에 이르는 모든 단계에서 왜 그런 판단을 했는지 이유 reason 을 가지고 찾게 된다. 인간도 당연히 그럴 것이라 생각할 수 있지만 인간은 전체 데이터를 종합적으로 분석하지도 못하고 일부 단서가 되는 내용을 통해서 가설을 만들고 그 가설이 맞는지 아닌지 검증하는 과정을 거칠 때가 많다. 여러개의 사진을 통해서 결론을 내려고 하기 보다는 한 두개의 사진을 통해서 결론이 무엇인지 않을까 그리고 다른 사진을 통해 보니 자신이 생각한 결론이 부합되면 먼저 생각한 결론으로 확증하기 쉽다. 좋은 표현으로 인간에게는 감 gut 이 있다고 말하기도 하지만 사실 우연히 자신의 결론에 부합되는 몇가지만을 통해서 결론을 내는 경우도 생각해야 한다.


그러나 기계는 결론에 이르는 과정들을 검증하고 데이터가 제대로 부합되는지 여러가지를 검증할 수 있다. 그리고 결론을 낼 수 있는 중요한 단서 clue 가 무엇인지 정확하게 기록하고 결론을 낸다. 즉, 예를 들어 사용자 A 의 경우 카페 이름에서 단서를 얻을 수 있었지만 정확한 거주지 정보를 알아낼 수 있는 정보는 아니다. 다만 사용자가 카페를 가기 위해 장거리를 가지 않는다는 생각을 통해서 카페 주변에 거주지가 있지 않을까 생각한다. 사용자 B 의 경우 다른 사진에서는 정보를 거의 알아낼 수 없었지만 눈 내리는 풍경을 찍다 이웃 아파트를 촬영하여 결정적으로 알아내게 되었다. 정확한 결론에 이르는 정보의 양은 중요하지 않다. 오히려 얼마나 결정적인 정보가 어떤 역할을 하게 되었는지가 더 중요할 때가 많다. 그리고 기계 학습을 통해서 기계는 어떤 정보가 결정적인 정보인지를 구체적으로 알고 있다. 즉, 기계 스스로 논리적으로 유추하는 reasoning 과정에서 결정적인 단서 clue 가 무엇이었는지 알고 있다. 사용자 B 의 이웃 아파트의 동수와 모양이 바로 그런 부분이다. 사용자 C 의 경우에도 건물 이름 그리고 주변 건물들의 높이 등도 결정적인 단서가 된다.

개인정보가 복잡해지고 알아내기 더욱 어려울 수록 이런 결정적인 단서들의 역할은 더 커진다. 즉, 정보의 양이 중요하지 않다. 인간도 이런 결정적인 단서가 무엇인지 기억할 수 있지만 중요한 것은 유추의 단계가 복잡해지면 결국 인간도 직감 intuition 의 영역이 되기 쉽다. 그러나 기계는 그 과정에서 최초의 단서가 되는 것이 무엇인지 기록하고 있을 뿐만 아니라 추가적으로 알아낸 다른 단서 혹은 가공된 개인정보가 얼마나 정확한지 평가할 수 있다. 이때 최초의 단서가 된 정보가 무엇인지 알고 있다면 그 최초의 단서를 사진에서 다른 사용자에게 공개하지 않는다면 결정적 단서는 사용할 수 없게 된다. 사용자 B 의 경우 최초의 단서가 된 아파트 동수를 알아낼 수 없도록 보정한다면 우연히 그 풍경을 알고 있던 사람이 아니라면 일반적으로 알아내기 어렵다. 다시 말해 기계에게 스토킹을 시키고 민감한 개인정보를 알아낼 수 있는 정보들이 사용자들에게 노출되어 있다면 시스템은 사용자에게 이 부분을 알려주고 적절한 조치를 취할 수 있다.


시스템의 취약점을 알아내는 가장 좋은 방법은 시스템에 침투해보라고 하고 어떤 문제가 있는지 확인하는 방법이다. 그래서 소위 화이트해커 white hacker 의 역할이 지금처럼 복잡한 시스템의 세상에서는 더욱 더 중요하다. 비슷한 방법으로 화이트 해커의 역할과 같이 사용자가 미처 생각하지 못한 개인정보의 취약한 정보들을 제거할 수 있기 위해서는 우선 개인정보를 스토커처럼 알아내도록 하고 결정적 단서들만 잘 제거한다면 생각보다 많은 의도하지 않은 가공된 개인정보들을 막아낼 수 있다.


A era of artificial intelligence ...

많은 이들이 인공지능의 시대에 내 직업이 사라질까 아닐까를 고민하지만 사실 상당히 인문학적 고민일 뿐이다. 기술적인 측면에서 바라본다면 더 정확한 것은 내 직업이 기계에 의해 대체될 수 있는 작업들은 얼마나 있을까 생각해봐야 할 것이다. 예를 들어 미래 세상에 어떤 기계에게 특정 정치적 성향을 나타내도록 댓글을 쓰도록 학습시킨다면 특별히 댓글을 쓰도록 사람들을 몰래 계정을 만들고 숨어서 댓글 남기지 않아도 될 것이다. 기계는 열심히 돈 받지도 않고 열심히 써주고 심지어 동일한 댓글을 계속해서 복사해서 붙이지 않고 다양하게 창의적으로 댓글을 남길 수도 있을 것이다. 그런 세상이라면 댓글 조작을 위해 많은 돈을 쓰지 않아도 될 것이다.

인간이 할 수 있는 일 그리고 기계가 할 수 있는 일이 중요한 것이 아니라 인간이 할 수 있을 때 장점을 가지는 일 그리고 기계가 했을 때 장점을 가지는 일을 생각하는 것이 더 합리적인 접근일 것이다. 특별히 기계학습 machine learning 과 인공지능 artificial intelligence 를 구별할 필요가 있다. 많은 경우 '인공지능이 대체할...'이란 수식어가 붙는 직업들은 대부분 인공지능의 영역이기 전에 기계학습이 충분히 인간의 작업을 대신하는 영역을 많이 다루기 때문이다. 기계학습과 인공지능의 경계가 단순히 문제의 복잡함이라 말하기 어렵다. 바둑을 잘 두는 알파고 AlphaGo 의 경우 바둑 경기를 이기는 목적으로 만들어진 기계학습인지 인공지능인지 묻는다면 기계학습에 더 가깝다고 할 수 있다. 역설적으로 지능에 대해서 생각해본다면 주어진 목표가 아닌 스스로 목표를 만들고 그 목표가 가치있는지 생각할 수 있는 영역이 인간 지능의 가장 중요한 부분이라고 생각한다. 따라서 만약 인공지능을 가진 기계가 존재한다면 아마도 자신의 존재 이유와 자신이 하는 일에 대한 가치에 대해서도 고민하고 결론을 내리게 될지 모른다. 물론 그 결론이 옳은 혹은 합리적인 결론이라고 할 수 없지만 그래서 그런 생각을 시도한다는 것이 기계학습과 인공지능을 구별할 수 있는 부분이 될지 모른다.


영화 '엔더의 게임, Ender's Game (2013)' 에는 다음과 같은 대사가 나온다.

"When I understand my enemy
well enough to defeat him,
then in that moment,
I also love him."
— Andrew "Ender" Wiggin

내가 충분히 적을 이길만큼
적을 이해하게 되었을 때,
동시에 난 적을 사랑하게 되었다.

— 앤드류 "엔더" 위긴 

적을 이기기 위해서 이해하기 하지만 그 이해는 사랑하기에도 충분하다. 비슷하게 개인정보를 지키려는 노력과 개인정보를 훔치거나 알아내려는 소위 스토킹스러운 노력들은 거의 비슷하다. 그리고 그 개인정보를 보호해줄지 아니면 악용할지는 결국 그 개인정보를 알아낸 이의 선택에 맡겨야 한다. 이처럼 정보는 양면성을 가지고 있고 인간의 의도에 따라서 그 결과는 전혀 달라지게 되기 때문에 오히려 기계학습을 통해서 잘 훈련된 기계가 악용되지 않도록 한다면 선한 의도를 가진 기계 Good Samaritan's machine 로 이용할 수 있다. 이 말은 결국 기계학습의 능력이 뛰어나다면 인간이 해오던 민감한 정보에 대한 관리 권한을 인간이 다룰 이유가 없어진다는 뜻이기도 하다. 예를 들어 회사의 기밀을 담당하는 업무를 하는 사람은 자신의 직급이나 권한에 비해 넓은 범위의 보안 권한 clearance 를 가지고 있는 경우가 많다. 전산 관리와 같은 물리적인 관리를 뜻하는 것이 아니라 정보 혹은 데이터의 측면에서 살펴볼 때 말이다. 예를 들어 데이터베이스 관리를 해야 하는 사람이 병원에 외주로 들어가서 데이터베이스 성능 향상을 위해 들어갔을 때 외주 직원들은 병원 환자의 개인정보를 볼 수 있는 권한을 가지게 될 때도 있다. 이런 위험성을 막기 위해 개인정보가 전혀 존재하지 않거나 완전한 익명이 보장되는 가상의 환자 데이터베이스를 만드는 기계가 존재한다면 현재 상태와 거의 동일하지만 개인정보를 노출시키지 않아도 되는 가상의 데이터베이스 혹은 노출되어도 전혀 개인정보가 될 수 없는 정보로 가공할 수 있다.


How fragile being's analysis is ... 

기계학습을 통해서 단서를 알아내고 그 단서를 통해서 특정 개인정보를 알아내도록 실행하면 재미있는 결과를 볼 수 있다. 때로는 인간인 그냥 지나칠 수 있는 정보조차도 아주 간결한 단서로 알아내거나 반대로 인간이 그냥 보았을 때 충분히 단서가 되는데 왜 이 정보는 사용하지 않았지 하는 경우이다. 먼저 인간이 그냥 지나칠 수 있는 정보들은 대부분 기계의 뛰어난 검색 능력 그리고 대조 능력 comparison 때문일 때가 많다. 다른 표현으로 인간이 알아낼 수 있는 정보의 분해력 resolution 이 인간의 분해력보다 더 뛰어나기 때문이다. 반면 인간이 보았을 때 충분히 알아낼 수 있는 정보같은데 왜 그냥 지나쳤을까 하는 부분들을 다시 살펴보면 오히려 인간의 편견이나 검색해서는 알아내기 힘든 심리적인 내용이나 문화적인 내용들이 많이 있다는 것을 알 수 있다.

인간 스스로 뛰어난 능력이라 생각하는 유추 능력에는 수많은 함정이나 편견 때로는 이미 원하는 결정을 위해 조작하는 능력까지 포함한다는 것을 생각해 볼 필요가 있다. 예를 들어 한 기술 기업의 간부가 기술 유출 소위 기술 스파이 혐의로 재판을 받게 되었다 하자. 경쟁 회사와 연락한 적도 없었고 유출된 정보가 무엇인지 명시하지 못하고 회사에서는 간부가 헤드헌터 회사와 연락해서 이직을 하려는 시도가 있었다는 내용을 법정에서 강조했다. 그리고 이직을 하려는 시도는 곧 기술 유출을 했다는 의심을 할 수 있다고 주장한다면 헤드헌트 회사는 실제로 이직을 도와주는 회사가 아니라 기술 유출을 하려는 이들을 신고하는 것으로 더 큰 수익을 얻을 수 있을 것이다. 이와 같이 정황상 혹은 단순히 느낌상 그럴 것 같다는 주장만으로 쉽게 판단하는 것이 인간의 특징이기도 하다. 수많은 단서와 논리를 통해서 결론을 내리는 것이 아니다. 그래서 법정에서도 이를 구별하기 위해 실질적 증거를 material evidence 그리고 정황 증거는 circumstantial evidence 으로 부른다.

출처: 뉴스타파

만약 법적 논리와 합리성을 학습한 기계에게 맡긴다면 인간의 수많은 법정 논리 중 어느정도가 억지에 가까운 내용들인지 알게 될 것이다. 정치적인 이유로 억지 주장을 하고 심지어 인간의 목숨까지도 아주 쉽게 법정에서 죽음으로 몰고가는 것이 인간이라면 인간의 주장에는 얼마나 단서가 존재하지 않은 상태에서 억지 쓰는지 수많은 사법 살인들을 보면 이해할 수 있다. 정말 법조인의 양심에 따라서 우리의 삶을 맡겨도 되는지 생각해봐야 한다. 최소한 그들의 논리가 합리적인지 그리고 최소한의 단서를 가지고 생각하는 것인지 아니면 인간의 편견과 믿고 싶은 그리고 내리고 싶은 결론을 위해 인간은 그저 양심없이 말하는 것인지 확인해야 할 필요는 있다고 생각한다.

개인정보를 보호하기 위한 목적이지만 그 시작은 개인정보를 철저하게 파헤치는 스토커같은 역할로 학습을 하고 그 학습한 내용을 통해서 어떤 단서가 개인정보를 위험하게 하는지 인간이 제대로 파악하지 못한 단서를 찾아내는 역할로 기계학습은 괜찮은 도구이다. 뿐만 아니라 비슷한 방법으로 단서를 통한 논리 logical steps only by clue 를 만들어야 하는 곳이나 증거 중심 evidence based 학문의 영역에서는 인간의 양심에 맡기기 전에 한번쯤 검증할 수 있는 도구로 사용할 수 있다.


Quantum leap or Machine Step ... 

사실 인간의 비약적인 생각 혹은 엉뚱한 생각들이 인간을 좀 더 발전시켰다고 믿지만 그 비약이 너무도 심하면 편견과 오만에 가득한 인간들의 근거없는 주장들이 더 강해지게 될 때가 많다. 예전에는 소위 집단 지성 collective intelligence 에 의해서 많은 이들이 모일 수 있는 플랫폼이 만들어진다면 잘못된 주장은 사라지고 제대로 된 지식만 남을 것이라고 믿었던 적이 있었다. 2000년대 초반이였으니 그리 오래전 이야기도 아니다. 제대로 된 플랫폼이 없어서인지 아니면 집단 지성이 잘못된 이론인지 모르지만 많은 이들이 쉽게 참여할 수 있는 지금 오히려 가짜 뉴스와 잘못된 편견이 더 쉽게 유통되는 것을 보면 집단지성에 대한 진지한 고민을 해볼 필요는 있을 것이다.

단서없이 다시 말해 뜬금없이 새로운 생각을 할 수 있는 능력은 분명 인간의 상상력으로 존중받아야 할 능력이기도 하지만 지금 당장의 사실과 가치에 대해서 판단할 때 좀 더 객관적인 단서를 통해서 생각하는 능력또한 인간에게 필요한 부분일 것이다. 야심차게 어떤 기업들은 가짜 뉴스를 검증할 수 있는 자동 시스템을 생각하고 개발하기도 했지만 막상 인간의 그 뜬금없는 clueless 생각들을 따라갈 수 있는 방법은 그렇게 쉽지 않아서 제대로 작동하지 못하고 있다고 한다.

개인정보를 본연적 개인정보와 가공된 개인정보로 구별한 근본적 이유도 여기에 있다. 가공된 개인정보에는 단서를 가지고 만들어진 개인정보이다. 그렇게 가공된 개인정보의 경우에는 단서를 통해서 개인정보를 보호할 수 있는 방법이 있다는 것이다. 반면 본연적 개인정보는 그 개인정보 자체를 보호해야 한다는 점이다. 단순히 개인정보지만 그 개인정보가 어떻게 만들어졌는지를 구별하고 관리할 수 있는 능력은 인간보다 잘 훈련된 기계가 더 잘할 수 있다는 점도 고민해야 한다. 그리고 그 개인정보를 잘 관리하는 것에서 잘 훈련된 인간을 고용하는 것보다는 잘 훈련된 그리고 여러곳에서 잘 훈련된 방법을 서로 공유해서 잘 학습된 기계가 잘 관리할 수 있도록 해주는 것이 더 효율적이고 더 적극적인 방법이 된다.


출처: MEGA.COM

대한민국은 별 큰 생각을 하지 않지만 이미 유럽의 많은 기업들 심지어 유럽의 사용자들을 GDPR, (데이터보호에 관한 일반 규정) 에 대해 고민하고 있다. 그 영향인지 모르지만 많은 소셜미디어 업체들을 탈퇴하거나 스스로 제대로 관리하지 못하는 데이터를 파기하거나 아예 개인정보가 악용될 수 없도록 데이터를 수용하지 않는 방법 등 구체적인 방법을 실행하고 있다. 이 규정에 영향을 직접 받을 수 밖에 없는 대한민국의 많은 기업들은 여전히 개인정보에 대한 보호 방법도 미약하고 악의적인 해킹을 통해서 이루어진 개인정보 유출에 대해서 가장 관대한 나라이기도 하다. 일반적인 사용자들의 개인정보에 대한 인식의 정도에 따라서도 달라지겠지만 개인정보를 담고 서비스를 해야 하는 많은 기업들에게 어떻게 보호를 하고 사고가 일어났을 때 어떻게 대처해야 하는지에 대한 대비 계획도 마련되어야 한다. 그러나 그전에 개인정보가 어떤 의미를 가지는지 그리고 우리가 생각하지 못한 개인정보의 다양한 모습들을 고민하고 이를 어떻게 막을 수 있는지를 고민하고 해결한다면 앞으로 더 많은 개인정보를 보호해야 하는 의무가 주어지게 될 때 가장 현명한 해결책을 제시하는 기업이 된다면 오히려 기회가 될 수 있다는 것을 생각해야 할 것이다.

첫 질문으로 돌아간다.

"데이터가 살인을 할 수 있는가?" 

살인을 할 수 있다 없다의 답이 아닌 만약 데이터가 살인을 할 수 있다면 반대로 데이터가 살인을 막을 수 있다는 점도 생각하고 싶다.


0 comments:

Post a Comment