Showing posts with label 기술의 철학. Show all posts
Showing posts with label 기술의 철학. Show all posts

Tuesday, May 14, 2019

터넷을 통해서 무엇을 할 수 있는지 물어보면 다양한 대답을 들을 수 있다. 동영상을 본다 뉴스를 읽는다 이제는 영화를 본다 와 같이 예전에는 불가능할 것 같은 인간의 일들이 인터넷에서 이루어지고 있다. 근본적으로 생각하면 인터넷은 결국 무엇을 할 수 있는 공간이 아니라 무엇을 할 수 있도록 정보와 자료를 주고 받는 구조이다. 영화라는 자료를 제공해주고 이를 인터넷을 통해서 받아서 사용자들은 영화를 볼 수 있는 것이다. 그래서 결국 인터넷은 정보를 주고 받는 하나의 메시징 플랫폼 messaging platform 이다. 인터넷의 시작을 생각해도 지금처럼 무엇인가 복잡한 것을 하려고 했던 것이 아니라 글과 사진 정도를 쉽게 주고 받을 수 없을까 생각했던 연구소 CERN 의 결과물인 것을 생각하면 우리가 사용하는 모든 인터넷은 '주고 받는' 메시징 서비스의 확장이라고 생각할 수 있다.


간단한 메시지를 주고 받는 것은 인간의 가장 기본적인 활동이다. 간단하게 문자 메시지를 주고 받는 것부터 학술 논문을 출판해서 다른 연구자들과 정보를 주고 받는 것도 하나의 메시지 활동이다. 인간의 모든 활동들은 정보의 교환과 행동의 시행으로 구별할 수 있다. 또한 인간 활동의 대부분은 정보에 의해서 움직이는 것이다. 간단하게 친구끼리 주고 받는 문자 메시지를 생각하자. 각자가 원하는 시간과 장소를 주고 받고 이를 통해서 시간과 장소를 정하고 이를 통해 만난다. 만나서 무엇을 할지 미리 이야기를 한다면 어떤 장소가 좋을지 찾아본다. 이 과정에도 인간은 인터넷에 적당한 장소를 검색하고 검색 결과를 통해서 장소를 결정한다. 짧은 순간이지만 인간과 인간이 주고 받는 대화 conversation, 인간과 기계 (인터넷) 가 주고 받는 communication 이 존재한다. 모든 과정에서 볼 수 있는 정보의 교환을 메시징 messaging 이라고 하고 이를 연결해주는 시스템을 messaging platform 이라고 부른다. 좀 더 확장하면 기계와 기계사이에서 이루어지는 정보의 교환도 메시징이다. 그리고 이미 인터넷이라는 괜찮은 플랫폼은 메시징을 하기 좋은 시스템이라 알고 있다. 정보의 획득은 인간에게 어떤 행동을 할 것인지 결정에 도움을 준다. 기계도 비슷하다. 기계가 어떤 정보를 획득하면 이를 계기로 해서 어떤 행동을 할지 미리 정해진 조건에 따라서 실행하게 된다. 이처럼 기계가 정보를 획득하여 이를 실행하도록 하는 정하는 것을 알고리즘이라 부른다. 결국 인간도 기계도 '정보의 교환' '행동의 실행' 으로 반복한다.

단순 메시징 서비스 

문자 메시지는 가장 기본적인 메시징 플랫폼이다. 간단한 정보 조금 확장해서 파일 정도는 붙여 보낼 수 있지만 인간이 원하는 형태로 바로 사용하기에는 조금 어려운 부분이 있다. 예를 들어 문자 메세지로 동영상을 받았을 때 동영상을 내려받아 이를 실행할 수 있는 앱이나 프로그램을 통해서 실행시켜 보아야 한다. 그래서 아무리 단순한 메시징 서비스라고 해도 이제는 다양한 포맷의 자료를 서비스 안에서 in apps (in situ) 처리할 수 있는 서비스는 기본이 된다.


대한민국에서 가장 많이 사용하는 메시징 서비스는 단연 '카카오톡'이다. 한국인 대부분, 한국인을 친구로 두고 있거나 한국인이 주요 고객인 외국인들에게는 필수가 되었다. 개인적으로 이미 [나는 왜 카카오톡을 사용하지 않는가] 와 [나는 왜 여전히 카카오톡을 사용하지 않는가...] 를 통해서 카카오톡을 사용하지 않는지에 대해서 생각을 전달했다. 보안에 대한 내용은 [ID 와 보안에 대한 단상 ─ 인터넷에서 무엇이 나를 확인해주나] 을 통해서 간략한 생각을 전달했다. 가장 단순한 메시징 플랫폼이 가지는 기능적인 측면에 좀 더 집중해서 풀어 나갈 생각이다.

a. 다중 기기 접속은 필요한가? 

여러개의 기기에서 접속할 수 있다는 점은 다양한 플랫폼을 지원한다는 뜻과 함께 겉 껍질보다는 메시징 기능이 중심이고 어떤 겉 껍질을 씌워도 내가 쓰던 기능을 거의 동일하게 사용할 수 있다는 느낌이 든다. 만약 안드로이드 앱에는 있는 기능이 윈도우 프로그램을 통해서는 사용할 수 없다면 기능이 플랫폼에 종속되어 있다는 뜻이기도 하다. 그래서 원하는 서비스를 할 때 플랫폼에 종속되지 않도록 설계하기 위해서는 웹에서 완벽하게 기능할 수 있는 서비스를 먼저 설계하고 웹에서 이루어지는 서비스 정보를 앱에서 잘 받아서 처리할 수 있도록 해주는 설계가 필요하다.


다중 기기에서 접속한다 혹은 거의 모든 플랫폼에서 사용할 수 있다는 뜻은 이미 웹서비스 하나만으로도 어디에서도 웹브라우저만으로도 서비스를 사용할 수 있다는 뜻이다. 그래서 전혀 알 수 없는 스마트폰 운영체제가 만들어져도 최소한 웹브라우저만 있다면 서비스를 사용할 수 있다. 웹 표준을 지키는 서비스라면 모든 웹브라우저에서 사용할 수 있기 때문이다. [구글 크롬 (Google Chrome) ─ 작은 OS 를 꿈꾸다] 그렇기 때문에 특별한 이유가 아니라면 인터넷 표준을 따르는 서비스 그리고 웹브라우저에서도 잘 서비스되는 메시징 플랫폼이 중요하다. 웹표준을 잘 따르는 서비스라면 특별히 다중 기기를 제한할 이유는 없다. 심지어 한 기기에서도 여러개의 웹브라우저를 사용할 수 있고 하나의 기기에서만 서비스를 사용하지 않기 때문이다. 대화를 하기 위해서 무조건 특정 핸드폰을 가지고 해야 한다는 것은 불편할 뿐이다. 다중 기기를 허용해서 생기는 보안 문제를 언급할 수 있지만 제한된 기기만 접속허용할 때는 보안 상 더 취약할 수 있다. 만약 탈취된 아이디 / 암호를 통해서 접속하고 다른 기기의 접속을 모두 끊어버린다면 피해자는 제대로 대처할 수 없거나 심지어 자신이 피해를 입고 있는 줄도 모를 수 있다. 다중 기기 접속을 허용하지만 물리적으로 불가능한 접속이나 의심되는 접속을 찾아내는 것이 더 현명할 수 있다.


b. 다양함을 전달하고 싶은 욕구 

사람과 사람 사이에서의 단순한 대화를 생각하자. 개인 간의 친목 목적 혹은 정보 공유를 위해서 사용한다. 대화만 주고 받는 기능이지만 사용자들은 점점 원하는 기능이 늘어난다. 그리고 메시징 플랫폼에서 필수로 생각되는 기능은 의외로 이모티콘이다. 대면하지 않고 단순한 문자만을 주고 받을 때는 사람의 감정이나 상태를 제대로 전달하기 힘들다. 목소리와 얼굴에는 어느정도 감정과 상태를 볼 수 없기 때문에 '화난 감정'을 나타내기 위해서 화가 난 얼굴 혹은 폭발하는 인물의 이모티콘 혹은 스티커 등을 통해 좀 더 정확하게 전달할 수 있다. 이모티콘 기능 (스티커 기능을 포함하여) 은 일종의 오컴의 면도날 Occam's Razor 같은 원리로 간단하게 설명할 수 있는 이모티콘을 놔두고 장황하게 설명하는 것을 인간은 좋아하지 않는다. 그리고 이러한 이모티콘의 특징은 줄임말이나 특정 집단에서만 사용하는 은어 隱語 를 만드는 것과 비슷한 원리이다.


이모티콘 뿐만 아니라 사람들은 많은 정보를 보내고 싶어 한다. 사진 음악 그리고 인터넷에 돌아다니는 많은 정보들을 보내고 싶어한다. 오래전에는 사진을 보내는 것은 단순히 파일 하나를 보내는 것이였다. 그리고 그 파일을 처리하는 것은 받은 사람의 몫이였다. 그러나 그런 형태의 메시징 플랫폼은 사용자들의 외면을 받을 것이다. 좋은 서비스의 특징은 사용자들의 행동과 심리를 잘 이끌어 내어야 한다. 만약 사진 데이터를 보내는데 사진을 바로 보여주지 않고 내려받으라고 한다면 분명 불편할 것이다. 즉, 사용자들이 주고 받는 데이터의 종류는 이미 어떤 행동을 해야 한다는 정보까지도 포함하고 있다. 사진을 보냈다는 것을 사진을 보라는 것이고 음원 데이터를 보내주는 것은 음악을 들으라는 것이고 지도 정보를 보내주었다면 내가 여기에 있다 혹은 여기에 가면 좋겠다와 같은 다음 행동을 포함한다. 그래서 좋은 서비스는 교환하는 정보의 종류에 따라서 어떻게 처리하고 어떻게 보여줘야 하는지를 잘 설계한다.

단순한 링크 하나만 보내줄 때도 해당 링크에서 얻어낼 수 있는 parsing 정보들을 통해서 관련된 이미지와 간략한 요약을 보여준다. 링크를 들어가보면 될 것 같지만 정보를 교환하는 과정에서 인간이 거치는 모든 과정은 정보의 유용성을 먼저 평가하고 싶기 때문에 간단한 요약을 알 수 있는 것만으로도 많은 도움이 된다. 또한 메시징 서비스가 링크가 악의적인 스크립트를 포함하고 있는지 미리 검사할 수 있기 때문에 보안의 측면에서도 필요하다. 결국 인간의 정보 교환에서 원하는 목적이 무엇인지 잘 판단하고 이를 잘 처리하도록 도움을 주는 서비스의 형태를 생각하게 된다. 예를 들어 보내주는 사진을 그대로 보여줄 수 있지만 사진에 포함된 문자를 인식해서 OCR 문자 정보의 형태로 추출해줄 수 있다. 누군가 처방전을 사진 찍어서 보내줄 때 그 처방전의 문자열을 추출하고 웹에서 검색할 수 있는 링크를 만들 수 있다. '처방전'이라는 대상을 인식하고 약이름과 약 성분을 바로 인터넷에서 찾아내서 보여줄 수 있지만 그런 기능 이전이라도 사진 안의 문자 정보들이 중요할 수 있다는 것은 사진의 형태를 보고 인식할 수 있다. 예를 들어 그냥 '나 오늘 찍은 셀피가 맘에 들어 보내줘' 라고 하는 사진과 '여기 처방전 좀 봐줘' 라는 사진은 쉽게 그 차이를 알 수 있다. 문자로 추출할 수 있는 정보의 양이 다르고 중심 대상 (관심 대상) 이 다르기 때문이다.


단순한 메시징 서비스이지만 결국 인간의 행동을 이끌어 내기 위한 정보의 교환이 그 목적이라면 행동을 좀 더 수월하게 이끌어 낼 수 있는 작업과정 workflows 를 잘 설계해야 한다. 그런 작업과정을 잘 설계하기 위해서는 단순히 자료의 형태 (파일형식) 뿐만 아니라 자료가 가지는 성격을 잘 이해해야 한다. 그리고 그 성격은 대화 상대자(들)이 이 자료를 통해서 어떤 행동을 했으면 좋겠다는 목적을 가지고 있다는 것을 잘 이해할 필요가 있다. 처방전 사진을 보내 주었을 때 이미 받은 사람은 인터넷에서 혹은 약물정보 사이트에 들어가서 그 약을 검색할 것을 예상할 수 있다. 조금 더 확장한다면 사용자의 작업과정을 통해서 배울 수도 있다. 예를 들어 어떤 사용자는 받은 사진 중에서 화면 갈무리 (스크린캡쳐) 했던 사진들은 주기적으로 지운다면 미리 지우기 전에 다음의 사진들을 지울 것인지 물어볼 수 있다.

c. 찾고 싶고 또 지우고 싶고 

누군가 사진을 보여주겠다고 할 때 예상할 수 있는 행동은 메시징 서비스를 실행하고 특정 상대방의 대화창을 들어가서 계속 과거의 대화내용으로 스크롤 & 스크롤을 계속해서 찾아내고 보여준다. 물론 치매 예방 혹은 두뇌 발달을 위해 내가 보여주고 싶은 사진은 '언제', '누구에게', '왜' 와 같은 정보들을 잘 기억하고 있다는 점에서는 좋지만 데이터 측면에서는 비효율적일 것이다. 그리고 그 정보들 중 잘못된 정보가 하나라도 있다면 제대로 찾아내지 못한다. 그래서 끊임없이 인간에게 그런 메타데이터 metadata 를 같이 적어달라고 태그 tag 와 같은 형태를 제시하지만 잘 할 것이라고 기대하기 힘들다. 인간에게 아무리 '너가 나중에 찾기도 편하고 정리도 잘되어서 좋아'라고 해도 일단 귀찮을 뿐이다. 그래서 이제는 그런 인간의 귀찮음을 해결하기 위해서 사진에서 관련된 정보들을 추출해서 별도의 자료와 관련된 별도의 데이터를 관리한다. 그 결과 사진을 저장하고 보여주는 서비스에서는 '개' 를 검색하면 개들을 잘 보여준다. 그리고 사진에 내가 있을 때는 나를 묶어서 같이 관리해주고 가끔 성형하기 전 자신과 성형한 후 자신을 다른 사람으로 처리하는 귀여움을 토하기도 한다고 한다. 개인적인 경우 '곰' 사진을 검색하니 내 사진이 나온 적도 있었다. (역시 완벽하지는 않다.)


여기서 생각해볼 것은 이미 데이터를 잘 구별하기 위해 많은 서비스들은 가능한 데이터의 데이터를 잘 정리하고 있다는 것과 어느새 자신의 많은 자료들은 메시징 서비스 안에 있고 그 안에서 자신이 필요한 자료를 찾아낸다. 그래서 예전에는 메시징 서비스로 받은 자료들은 별도로 저장을 해두어 저장한 곳에서 자료를 찾아냈지만 어느새 자신도 모르게 많은 자료들을 메시징 서비스 내부에 두고 있다. 그래서 메시징 서비스이지만 동시에 클라우드 서비스이기도 하다. 그렇다면 최소한 사용자들이 쉽게 검색할 수 있고 빠르게 찾을 수 있는 기능이 필요할 것이다. 주로 사용하는 서비스인 텔레그램의 경우 대화 상대방 이름을 누르거나 (안드로이드 앱) 웹에서는 메뉴에서 사진 (Photos) 를 선택하면 지금까지 나누었던 사진 목록을 보여준다. 대화 내용을 먼저 생각해서 언제쯤 받은 것인지 생각해서 스크롤 해서 올리지 않아도 사진이라는 대상만 따로 관리하기 때문에 빠르게 찾을 수 있다.

한참 ICQ 란 서비스가 유행했을 때 대화 내용을 백업하는 일은 필수였다. 그런데 모든 대화 내용을 저장해 두는 것과 지우는 것을 생각하면 몇가지 생각해볼 것이 있다. 대화 내용도 하나의 자료이다. 그리고 그 ① 자료가 어디에 저장되는지 ② 내가 삭제한 자료는 정말 사라진 것인지 ③ 자료의 소유권은 누구인가 를 생각해 봐야 한다. 지금도 몇십년 전에 저장했던 대화 내용들이 있지만 이게 무슨 의미가 있나 싶을 때가 있다. 결국 메시징 서비스가 등장하고 대화의 영역은 한번 이루어지고 소멸하는 영역이 아니라 기록되는 자료의 영역으로 이동해 왔다. 그리고 기록될 수 있는 인간 사이의 정보교환은 궁극적으로는 인간들이 어떤 행동을 할지 예상하기 좋은 데이터가 되어 왔다. 예를 들어 특정 지역에 사는 사용자들의 대화내용을 자료로 뽑아 낼 수 있다면 주말에는 어느 식당이 잘될 것인지도 예상할 수도 있고 날씨에 따라서 사람들이 무엇을 하고 싶어하는지 그리고 부부사이에 대화 내용을 들어보면 아기 기저귀는 얼마나 주기적으로 구매하는지 등도 알게 된다. 개인적인 그리고 사적인 이유로 그런 데이터의 수집은 불법일 수 있지만 자신도 모르는 사이에 동의한 서비스 약관에 의해서 충분히 소비자들의 행동을 분석할 수 있는 가장 좋은 데이터는 사람들 사이의 대화라는 것은 인정해야 한다.


점점 사소한 대화 내용까지도 나누게 되면서 대화 내용은 어떻게 처리해야 하는지 고민이 많을 때가 많다. 그리고 아무리 사적이라고 해도 누군가의 생명에 위협을 줄 수 있는 정보들도 있다. 아무 생각없이 나누는 대화 중에는 개인의 동선 혹은 어디 / 언제 와 같은 정보들을 공유하게 되고 만약 범죄에 이용할 수도 있기 때문이다. 대화는 필요하지만 은밀한 대화가 필요할 때 기록되지 않는 대화 기능도 필요할 수 있다. 이제는 대화 내용은 텍스트 형태의 자료가 아니라 이미지의 형태일 때가 많다. 아무리 대화 내용을 지워도 간단하게 화면 갈무리만 하면 되기 때문이다. 대화 내용을 통해서 누가 잘못했고 때로는 범죄 혐의에 도움을 줄 수 있지만 반대로 노출되고 싶지 않은 개인 정보들도 쉽게 노출될 수 있다는 것도 생각해야 한다. 만약 대화상대자의 계정이 해킹당해서 자신의 개인정보가 공개된다고 할 때도 같은 생각을 할지 생각해봐야 한다. 대화 내용이 쉽게 공유될 때 정의의 심판으로 잘못한 이들이 밝혀지는 것이 더 많을지 평범한 사람들의 개인정보들이 노출되는 것이 더 많을지 생각해볼 필요가 있다.

결국 대화 내용은 누구의 소유인지 더 정확히 대화 데이터는 누구의 소유인지를 먼저 고민해야 한다. 만약 서비스를 제공해준 기업도 같이 소유한다고 한다면 많은 이들의 대화 내용은 자신들이 알아서 처리할 수 있는 자료에 불과하다. 대화 내용은 계정 주인의 것이라면 그 대화 내용을 어떻게 처리할 것인지 전적인 권한을 가지고 있다. 기술적으로 어려운 것은 아니다. 기본적으로 주고 받는 대화 내용들이 암호화 encrypted 된 상태라면 암호화에 사용되는 키 key 를 무효로 revoked 만들면 암호화된 내용을 사용할 수 없게 된다. 그러나 만약 서비스를 해주는 기업이 자신들도 데이터의 소유 혹은 관리에 필요하다는 이유로 소유할 수 있다면 나의 대화내용이지만 내가 어떻게 할 수 있는 것이 아니다. 문제는 개인 정보는 그 민감한 정도에 따라서 사람의 목숨까지도 좌우할 수 있는 중요한 정보들도 존재한다는 것이다. 대표적인 것이 의료 정보이다. 선택적으로 데이터의 민감도를 서비스 업체에서 결정할 수 없다면 개인이 대화 자료를 어떻게 처리할지 권한은 가지고 있어야 한다.


다양한 메시징에 대해서 ... 

지금까지는 사람과 사람 사이에서의 대화에 대해서 생각했지만 필요에 의해서 기계와도 대화하고 싶을 때가 있다. 예를 들어 주기적으로 내가 원하는 주제의 책이 출판되었는지 내가 좋아하는 기자의 기사가 올라왔는지 내가 찾아가지 않아도 나에게 알람을 준다면 편리할 것이다. 서버를 운영하고 있는데 서버에서 문제가 생겼을 때 알람을 준다면 빠르게 처리할 수 있을 것이다. 이처럼 사람과 대화하지 않아도 메시징은 일종의 알람 alarms 혹은 알림 notification 으로 인간에게 정보를 제공할 수 있다. 이렇게 기계가 알려주어 획득한 정보도 행동으로 이어지도록 해준다. 만약 웹서버의 서비스가 중단되었다면 접속해서 다시 서비스를 재시작해주거나 문제를 찾아 해결해주기 바라는 것이다.


우리가 접하는 많은 알람 알림들은 기계가 인간에게 전달하는 메시징이다. 메일이나 다양한 형태로 기계가 인간에게 정보를 전달할 수 있지만 이왕 자주 사용하는 메시징 서비스 안에 포함시킬 수 있다면 더욱 편리할 것이다. 그래서 원하는 목적을 가지는 기계가 서비스에 상주하고 있으면서 뭔가를 알려주는 것이 바로 텔레그램의 봇 bot 이라 한다. 웹서비스에서 봇은 인터넷을 돌아다니면서 필요한 정보들을 수집한다. 인터넷을 떠돌아 다니면서 색인을 만들거나 웹사이트의 정보를 미리 정리해 놓거나 웹서비스가 잘 작동하는지 주기적으로 찾아와서 노크하는 기능 등 인간이 원하는 기능을 자동으로 해준다. 메시징 서비스 안에서도 봇은 동일하다. 예를 들어 자신이 원하는 중고 물품이 올라오면 메세지를 보내준다.

자신이 원하는 형태의 봇을 만들 수 있다. 원리는 간단하다. 인터넷 혹은 원하는 정보가 수집이 되면 해당 정보를 인간에게 메시지를 보내주면 된다. 만약 자신이 원하는 주제의 신간 서적을 받고 싶다면 인터넷에서 신간 서적을 알려주는 곳을 통해 봇이 계속 주기적으로 찾아보다가 원하는 주제가 나타나면 메시지를 보내준다. 원리는 간단하지만 이렇게 할 수 있기 위해서는 몇가지 조건이 필요하다. 정보를 제공하는 곳에서는 체계화된 구조를 가지는 정보를 제공해줘야 한다. 책이름 뿐만 아니라 책의 주제, 저자 등 다양한 정보를 제공해주어야 그 중에서 원하는 정보를 걸러낼 수 있기 때문이다. 해당 정보를 봇이 주기적으로 접근할 수 있도록 공개되어야 한다. 선택된 정보를 메시지의 형태로 전달해줄 수 있어야 한다. 만약 내가 원하는 기자의 기사만 받아 보고 싶을 때는 해당 기자가 있는 언론사에서 제공해주는 기사 정보 중에서 기사쓴이, 일자, 주제 등이 기사에 연결된 메타데이터가 되어야 한다. 인터넷에서 무작위로 검색해서 찾아 줄 수 있지만 이런 경우 내가 원하는 기자가 음주운전해서 무리를 일으킨 기사들도 찾아줄 것이다. 이렇게 정보를 좀 더 체계적인 구조로 만들어주는 데이터 구조 방식 특히 인터넷에서 교환하는 방식에는 여러가지가 있다. 가장 대표적인 것이 XML 이 있다. XML 은 어떤 정보가 있는지 자료 자체가 표시하는 형태이다. JSON JavaScript Object Notation 도 있다. 목적은 자료의 교환을 하면서도 자료 자체로 의미를 가지고 인간이 쉽게 해석할 수 있는 형태를 추구한다.


XML 이든 JSON 이든 결국 자료 자체의 교환보다 교환되는 자료가 내용을 가지고 있고 어떤 속성을 가지고 있는지를 전달해서 이를 통해 인간이 원하는 정보를 선택적으로 효과적으로 획득하기를 바란다. 몇가지 봇을 통해서 기계가 인간에게 전달하는 정보, 자료의 특징을 살펴본다.

a. 웹서비스가 살아 있나 죽었나? 

개인 웹서버를 운영하면 가장 신경쓰이는 것이 내 웹서버가 제대로 살아있는지 서버는 살아있지만 연결된 인터넷이 문제가 생겨 서비스가 안되고 있는지 살피는 것이다. 생각날 때마다 접속해서 확인할 수 있지만 그렇게 신경쓰면 인간을 위한 웹서버가 아니라 웹서버를 위한 인간이 된다. 간단하게 내 웹서버를 감시해 달라고 봇에서 부탁하고 봇이 주기적으로 들어가서 문제가 있다면 나에게 메시지를 보내주면 된다. 만약 서버 자체가 오프라인인지 웹서비스만 중단된 것인지 알고 싶다면 다른 포트 port 를 확인해서 서버가 살아있는지 웹서비스가 중단되었는지 알려주면 된다.

웹서비스처럼 간단하게 이상유무를 확인하는 봇도 있지만 서버에 문제가 생겼을 때 관리자의 대처가 필요할 때 메시지를 보내줄 수 있도록 할 수 있다. 예를 들어 서버의 온도가 너무 높게 올라가거나 연결된 저장장치가 갑자기 이상이 생겨 연결이 끊기는 경우 혹은 인터넷에서 자료를 내려받는데 내려받기가 모두 완료되었을 때 메시지를 보내줄 수 있다. 자주 사용하는 토렌트 서비스를 예를 들어 본다.


리눅스 서버에서 자주 사용하는 토렌트 클라이언트인 트랜스미션 transmission 을 통해 자료를 받기 시작해서 언제 받는지 자주 들어가서 확인할 수 있지만 만약 자료를 모두 다 다운받으면 특정 스크립트를 실행하도록 할 수 있다. 해당 스크립트는 텔레그램의 봇에게 메시지를 보내준다. 그리고 전달받은 메시지를 봇은 사용자에게 '자료의 내려받기가 모두 완료되었다'라고 알려준다. 방법은 [개인 위키 문서]에서 참고할 수 있다.

b. 프로그래밍 할 줄 모른다면? 

봇은 인간이 원하는 기능을 구현해주는 목적을 가지는 기계라고 생각하면 된다. 그러나 원하는 기능을 구현하기 위해서는 프로그래밍에 대한 이해를 가지고 있어야 할 때가 많다. 아니라면 많은 이들이 이미 구현해 놓은 것을 사용할 수 있지만 이때도 스크립트를 이해하고 자신에게 맞게 편집할 수 있어야 할 때가 많다. 프로그래밍을 할 수 없다고 해서 자신이 원하는 기능을 구현하지 못하는 것은 아니다. 자신에게 필요한 서비스를 찾고 해당 웹서비스가 텔레그램 Telegram, 푸쉬블릿 PushBullet, 슬랙 Slack 과 같은 메시지 서비스에게 정보를 줄 수 있는지 확인하면 된다. 예를 들어 웹서버가 온라인인지 확인해주는 웹서비스를 찾아본다. 마음에 드는 서비스를 가입하고 자신의 웹서버를 등록하고 알림 notification 을 어떻게 할지 설정한다. 이때 알림을 보낼 수 있는 서비스로 텔레그램과 같은 메시지 서비스를 설정하면 자신이 원하는 기능을 실행할 수 있다.

조금 더 복잡한 기능을 원할 수 있다. 개인적으로 필요했던 기능이 있었는데 긴 링크 주소를 짧게 만들어주는 서비스를 통해서 공유를 하고 싶었다. 컴퓨터에서는 간단하게 버튼으로 짧은 주소를 만들고 페이스북이나 트위터에 공유도 간단하게 할 수 있지만 스마트폰에서는 쉽지 않았다. 짧은 주소를 만들어주는 앱도 있지만 불필요한 기능이 너무 많고 불편해서 마음에 들지 않았다. 그래서 짧은 주소를 만들기 위해서는 웹브라우저로 서비스에 들어가서 불편한 화면에서 만들어 만들어진 주소를 복사해야 했다. 만약 봇에 공유하고 싶은 긴 링크 주소를 보내면 봇이 짧은 주소로 만들어서 나에게 보내주는 것이다. 만약 텔레그램에서 받은 정보를 짧은 주소를 만들어 주는 서비스에 보내고 만들어진 짧은 주소를 다시 텔레그램에 보내준다면 원하는 기능을 완벽하게 만들 수 있다.


이처럼 웹서비스 사이에서 데이터를 교환하고 서로 필요한 기능을 구현할 수 있도록 해주는 것을 API Application programming interface 라 부른다. 서로 자료를 교환할 수 있는 표준을 웹서비스에서 지원한다면 웹서비스는 기능 (짧은 주소를 만들어 주는, 메시지를 주고 받는) 을 제공하고 이에 필요한 데이터는 규격에 맞게 교환할 수 있도록 해주는 것이다. 이렇게 서비스에서 제공하는 기능과 자료를 구별해서 서로 교환해서 운영할 수 있도록 해주는 것을 상호운용성 interoperability 라 부른다. 이런 기능을 쉽게 해주는 서비스를 보통 자동화 서비스라고 한다. 자동화 서비스는 프로그래밍 기술없이도 원하는 서비스들 사이에서 데이터를 교환할 수 있도록 해주는 서비스이다. 대표적인 서비스로 [IFTTT] IF This Then This 가 있다. [자동화 작업을 통한 Lean Computing ─ 인간은 왜 기계를 필요로 하는가] IFTTT 는 직관적이고 간단하게 사용하기 좋지만 원하는 조건에 따른 기능을 만들기는 한계가 있다. 짧은 주소 봇을 만들기 위해 [Integromat] 이란 서비스를 소개한다. 조금은 복잡하고 까다롭지만 잘 만들면 전문적인 프로그램보다 더 괜찮은 봇을 만들 수 있다.

조금 더 신경쓴다면 웹후크 webhook 기술을 살펴보면 좋다. 웹후크는 웹주소를 기반으로 해서 전달하는 표준이다. 일반적인 API 는 클라이언트에서 서버에 필요한 자료들을 요청하게 된다. 예를 들어 지도 데이터가 필요하다면 원하는 지역이 어디인지 서버에 요청하고 서버는 그 요청받은 데이터를 보내준다. 그런데 자신이 원하는 장소에서 특정 이벤트가 발생한다면 해당 이벤트를 받을 수 있는 웹후크 주소를 받아서 자신의 메시징 플랫폼에 등록해 놓고 이벤트가 생기면 웹후크를 보내 메시지를 받을 수 있다. 그런 이유로 역API 라고 부르기도 한다. 지금은 복잡한 API 설정이 아니라도 자신이 원하는 이벤트가 발생하면 이에 대한 알람을 받을 수 있는 연결을 쉽게 할 수 있는데 웹후크를 이용하면 편리하다.



c. 기계와 대화하는 이유는? 

기계에게 정보를 주고 받는 과정에는 몇가지 특징이 있다. 기계는 인간이 알아주기 바라고 행동을 해주기 바란다. 정보를 보내주었을 때 즉, 알림 혹은 알람이 왔다는 것은 인간이 무엇인가 해야하거나 알아야 하는 내용이다. 두번째 특징은 인간의 목적은 기계에게는 메시지를 보내는 트리거 trigger 가 된다는 것이다. 웹서버가 오프라인인지 알고 싶다는 목적은 그대로 '만약 웹서버가 오프라인이라면...' 이란 조건이 되고 이 조건은 기계에게는 무엇인가 실행하게 한다.

기계와 인간의 대화지만 기계는 인간의 목적을 수행하는 대리인이 된다. 대리인이 된 기계는 주로 반복되는 작업, 특정 조건에 맞는 결과물을 수집, 번거로운 작업 과정들이 연속되는 과정이다. 결국 인간이 귀찮아 하는 내용들을 쉽게 불평없이 해줄 수 있는 친구라고 생각하면 된다. 메시지 플랫폼 서비스로 다시 돌아오면 하나의 서비스에서 모든 것을 다 해결하려고 하는 플랫폼은 필요한 기능을 추가하려 하지만 그만큼 플랫폼의 규모가 커지고 비효율적으로 만들어지기 쉽다. 왜냐하면 해당 기능을 모든 사용자들이 사용하지 않기 때문이다.


메시지 서비스 플랫폼에는 두가지 전략을 생각할 수 있다. 우선 주요한 수익이 되는 기능들을 메시지 서비스 안에 포함시키는 것이다. 예를 들어 택시를 예약할 수 있는 서비스를 메시지 서비스와 통합해서 제공할 수 있지만 택시를 예약하는 외부 서비스와 필요한 데이터를 주고 받을 수 있다. 통합해서 운영하는 경우에는 메시지 서비스와 통합된 형태로 서비스가 제공되지만 외부의 택시 예약 서비스와 데이터를 교환할 수 있다면 택시 잡는 서비스는 외부 서비스에서 해주는 것이다. 어떤 전략이 좋다고 말할 수 없다. 다른 예로 배달 앱을 생각해 본다. 배달 앱에서만 주문이 가능하게 한다면 다른 서비스와 데이터를 교환할 필요가 없다. 만약 배달을 제공하는 서비스가 메시지 기능은 제공하지 않고 주문 배달 서비스 기능에 집중한다면 경쟁력이 줄어들지 고민해야 한다. 다시 말해 자신들이 처리하는 데이터를 다른 서비스와 주고 받을 수 있도록 개방적 형태를 가질지 사용자가 필요한 모든 기능을 다 구현하고 닫힌 형태를 가질지 선택해야 한다. 어떤 형태가 좋다고 말할 수 없다. 개인적 생각으로 모든 서비스를 다 잘 구현할 수 있는 기술을 가진 회사는 보지 못한 것 같다. 심지어 구글도 구글플러스는 포기해버렸다. 확장성을 가지고 개방한다면 다양한 기회를 가질 수 있다. 예를 들어 구글홈이나 아마존알렉사 와 같은 음성인식이 가능한 스피커 기기와도 연동될 수 있는 기회가 그런 것이다.


효율적 메시징 서비스에 대해서 ... 

지금까지 경험해본 그리고 사용 중인 몇가지 메시징 서비스를 생각해보면 메시징의 기본적인 기능과 골격은 비슷하다는 것을 알게 된다. 다만 목적을 떠나 어떤 환경에서 더 효율적인지 생각할 필요가 있다.

a. 다중 기기에서의 효율성 

앞서 다중 기기에서 한 계정이 동시에 접속할 수 있도록 허용하는 정책에 대해서 설명하였다. 서비스를 제공하는 기업이 생각하는 보안 및 정책에 따라서 정할 수 이지만 만약 일부 기기로 제한이 된다면 같은 사용자인데도 기기마다 다른 계정을 만들어서 사용해야 하는 불편이 있다. 다중 기기를 사용하다 보면 생기는 불편함 중 하나가 다른 기기로 수신된 문자 메시지 혹은 알람 등을 지금 사용하는 기기 혹은 컴퓨터에서는 확인하기 어렵다는 점이다. 특히 스마트폰 기기들은 많은 알림이 뜨는데 이 중 나에게 급하거나 바로 조치를 취해야 하는 경우도 발생한다. 심지어 기기 A 는 집에 놓고 왔는데 회사에는 기기 B 뿐일 때 기기 A 를 통해 문자 메시지를 보내고 싶을 때도 있다. 이런 물리적인 장벽을 해결해주는 서비스 중 하나가 [푸쉬블릿PushBullet 이란 서비스가 있다. 푸쉬블릿을 여러 기기에 설치를 하고 컴퓨터 웹브라우저 (크롬이나 파이어폭스) 에도 플러그인 형태로 설치를 해두면 각 기기들마다 문자 메시지를 확인하고 원격으로 다른 기기에서도 문자를 보낼 수 있다. 기기에서 울리는 알림 중에도 원하는 내용은 다른 기기에서 받아볼 수 있다. 간단하게 기기들은 모두 가방이나 다른 곳에 두고도 알림 내용을 확인하고 문자 메시지는 송수신이 가능하다. 물론 부재중 전화 내용도 볼 수 있다.


다중 기기 사용자가 늘어나면서 기기 사이에서 정보를 보내야 할 때도 유용하게 사용된다. 물론 자신의 메시징 서비스 계정에 자료/정보를 보내고 (텔레그램의 Saved Messages) 다른 기기에서 로그인해서 확인하 수 있지만 기기 개별로 혹은 단체로 보내는 것이 더 효율적일 때가 많다.

b. 그룹 작업에서의 효율성 

이제는 많은 업무에서도 메시징 서비스는 필수가 되었다. 오래전에는 이러한 메시징 서비스만 특화시켜 기업 내에서의 하나의 별도 서비스인 경우가 많았다. 초기 ERP (전사적자원관리) 시스템에서도 이러한 부서간 메세징 서비스는 중요한 기능 중 하나였다. 독특하고 차별화된 메시징 서비스들이 많이 나왔지만 사용자들의 외면을 받아 사라진 서비스들도 많고 지역에 따라 사용 편차가 심한 서비스들도 많다. 개인적 메시징 서비스와 함께 관심을 가지게 되는 메시징 서비스가 공동작업을 위한 메시징 서비스이다. 많은 서비스들이 있지만 개인적으로 사용하는 서비스는 [슬랙Slack 이다. 우선 가볍다. 텔레그램과 같이 다중 기기에서 접속될 뿐만 아니라 기본적으로 웹서비스로 모든 것이 다 가능하다. 이전의 공동 작업, 특히 공동 개발의 경우에는 프로그래밍 개발환경과 메시징 환경이 통합되어 복잡한 경우가 많은데 슬랙은 업무를 위한 정보 교환 그리고 이에 필요한 간략한 공유가 기본이다. 채널을 통해서 프로젝트 혹은 주제에 맞는 정보들을 분류하고 참여 사용자들 뿐만 아니라 외부 정보들을 받을 수 있다.


예를 들어 참여하는 프로젝트에서 보내주는 소식 내용을 채널에서 바로 업데이트되어 보여주고 사용자들은 이에 대해 멘트를 올리거나 의견을 제시할 수 있다. 원래 게임에서 서로 이야기를 주고 받는 메시징 서비스에서 출발한 슬랙은 작업 환경에서 교환하는 정보들이 꼭 작업에 필요한 내용들로만 구성될 필요가 없다는 점과 작업이 이루어지는 공간과 작업을 위한 협업 공간이 같을 필요가 없다는 점 다만 그 두 공간이 긴밀하게 연결될 수 있는 플랫폼이면 충분하다는 것을 보여준다. 그래서 슬랙의 가장 큰 장점은 모든 협업 작업을 이루어낼 수 있는 공간이 아니라 다양한 기능을 끌어와서 통합적으로 보여줄 수 있는 서비스라는 점이다.

c. 개인적 대화에서의 보안성 

만약 본인이 전문 청부 살인업자이고 죽이려는 대상이 정해졌다면 무엇부터 할 것인지 생각하자. 우선 대상이 어디에 사는지 무엇을 하는지와 같은 가장 기본적인 정보를 얻어내고 싶어한다. 그런 정보들은 개인의 동선에 가장 큰 영향 혹은 확실한 동선을 제공하기 때문이다. 그리고 일을 수월하게 할 수 있는 개인의 약점을 찾으려 할 것이다. 가족과 같은 부분일 것이다. 비슷한 경우가 정부에서 어떤 사람을 사찰하거나 감시 대상이 될 때 알아내려고 하는 개인정보들은 어디에서 가장 쉽게 얻어낼 수 있을까? 이전에는 어떤지 정확하게 알 수 없지만 이제는 개인 휴대기기 안의 내용을 찾아내면 많은 양질의 정보들을 얻어낼 수 있을 것이다. 개인정보에 민감해 별도로 설정하지 않는다면 자신의 움직임이나 활동 시간도 알아 낼 수 있고 인터넷 검색기록을 통해서 요즘 자녀의 대학 등록금 걱정이 많다는 것이나 낚시를 좋아해 주말에 어디를 갈지 검색해본 거도 알아낼 수 있다.

친한 친구와의 대화는 그 누구보다 진심일 때가 많고 심지어 친한 친구에게도 털어놓지 못하는 고민들은 인터넷 검색 기록으로 알아낼 수 있다. 그래서 인간의 가장 솔찍한 친구는 '인터넷 검색창'이 되었다.

종종 해킹으로 개인정보 특히 사용하는 아이디와 패스워드 조합이 유출되고 나면 해당 아이디로 메신지 서비스에 부정 접속하는 비율이 높아진다고 한다. 그렇게 해서 로그인이 되면 가까운 지인들에게 말을 걸어 입금을 부탁하는 것이다. 가까운 지인인지 친인척 관계인지는 대화내용을 보거나 대화명만 보아도 충분히 알아낼 수 있다. 특히 '사랑하는 자기'라고 써있다면 가장 성공 확률이 높다는 것을 누구나 직감하게 된다.


이런 경우를 떠나서도 내가 나눈 대화 내용과 데이터는 누구의 것인지 그리고 누가 처리할 수 있는 권한이 있는지는 메시징 서비스의 정책이고 철학이지만 사용자 입장에서도 고민해봐야 하는 중요한 문제이기도 하다. 우선 우리가 만들어 내는 대화 중에서 간직할 가치가 있는 아주 중요한 대화인지부터 생각해야 한다. 소중한 사람과 나눈 대화이기 때문에 사라지지 말아야 한다고 생각하거나 대화 자체에 큰 의미를 두어 지우는 것을 감정적으로 대하는 이들도 많지만 개인정보는 남겨지기 위해서가 아니라 지켜지기 위해서 필요한 것이라는 점을 항상 생각해야 한다.

누군가는 여전히 말한다. 지금까지 남겨진 대화 내용때문에 유명인들의 비행적 불법적 언행들이 들어나게 되었고 그런 '순'기능도 생각해서 대화 내용을 저장하는 것이 꼭 나쁜 것만은 아니라 한다. 그런데 문제는 그들의 불법적인 내용들이 들어나 법적 책임을 지게 되는 것만을 생각하지 그 대화 내용 속 피해자들을 생각해보면 문제는 다르다. 피해자들은 이미 그들이 누구인지 알고 싶어하는 인터넷의 수많은 익명에 의해서 다시 피해를 보고 있고 어쩌면 그 대화 내용에 존재하는 실체하는 데이터들이 다시 인터넷을 떠돌게 될 것이다. 결국 유명인의 사법적 처벌을 수월하게 하기 위해서 은밀하게 수많은 피해자들은 계속해서 피해자가 되어버리고 말 것이다.


이런 이유에서 그래도 지금까지 존재하는 많은 메시징 서비스 중에 개인적으로 텔레그램을 추천할 수 밖에 없다. 일정 시간이 지나면 모든 대화방이 사라지는 기능부터 개인간의 대화 내용을 삭제하고 상대방도 동시에 모두 삭제하게 할 수 있고 (일부 서비스는 일정 시간이 지난 것은 지울 수 없도록 정책을 세워놓고 있다. 이 점을 잘 생각해보면 데이터가 어디에 존재하고 있는지도 생각할 수 있다.) 무엇보다 주소록을 통해서 친구를 추천하는 것이 아니라 상호 전화번호를 알고 있는 경우에 대화가 가능하게 되어 있고 심지어 대화 내용을 화면 갈무리 (스크린캡처)도 허용하지 않도록 한다. 최근에 물의를 일으키고 있는 유명인들이 텔레그램의 이런 기능들을 알고 있었다면 그들은 빠르게 서비스 플랫폼을 바꾸지 않았을까 생각하게 된다.

좋은 메시징 서비스란 존재할까? 

기능적인 측면에 대해서 생각하다 결국 자연스럽게 보안 문제 그리고 그 보안의 다른 단면과 같은 '인간의 탐욕적 창의력'을 생각하게 된다. 지극히 안부를 묻는 개인적인 대화가 거의 전부이고 주로 자동화 봇이나 서버 관리 등을 위해서 주로 메시징 서비스를 사용하는 입장에서 단체대화방을 통해서 이루어지는 많은 놀라운 사건들은 정말 세상에는 창의를 뛰어넘어 창조적 인간들이 많다는 것을 생각하게 된다. 예를 들어 중고등학생들이 집단 따돌림을 위해서 계속해서 단체 대화방에 초대를 하고 대화방안에서 (언어적) 폭력을 가하는 경우에서 볼 수 있지만 메시징 서비스가 가지는 기능을 최대한 발휘해서 상대방을 어떻게 가장 고통스럽게 할 수 있는지 찾아내는 것이다.

가장 기본적인 대화만으로도 충분히 놀랍다. 단체대화방의 은밀함을 이용해서 자신의 성적 경험을 공유하거나 자신과 성관계를 맺은 사람의 나체 사진을 올리고 공유하고 대화방 사람들끼리 감상(?) 하고 점수를 매기기도 한다는 사건을 접하기도 했고 이런 은밀함을 유지하기 위해서 자신들끼리 은어를 통해서 행동으로 연결되기도 한다. 예를 들어 자신과 성관계를 맺은 사람이 일하는 곳이 어딘지 개인정보를 공유하고 그 곳에 가서 인증 사진을 찍는 것을 일종의 게임 용어인 퀘스트라고 부르기도 한다. 특별히 그들만 아는 용어를 통해서 수행되고 때로는 닫힌 게시판뿐만 아니라 공개된 자신의 소셜미디어를 통해서 올리고 그들만이 아는 은어를 태그로 널리 홍보하는 과감성까지도 보일 때가 있다고 한다.


그래서 개인정보가 잘 보호되고 자신의 대화내용이 잘 보호되는 메시징 서비스일수록 이런 은밀함이 더욱 잘 유지가 될 수 있고 그럴수록 비인격적 행동들은 점점 더 유행하게 될 것이라 우려하고 그런 이유로 대화내용이 보호되기 보다는 오히려 더 공개가 되고 감시받아야 한다고 할 수 있을 것이다.

문제는 제대로 질문을 하지 못해 생긴다. 

이런 주장을 들을 때마다 생각나는 이야기가 있다. 나치 수용소에 갇힌 유명 과학자가 있었다. 전쟁이 끝나고 다행히 살아날 수 있었다. 기자들이 몰려와 과학자에게 질문을 했다.

"탈출하려고 어떤 노력을 했었나요?" 

한 기자의 질문에 따라 질문은 과학자가 그 안에서 어떤 노력을 했는지 탈출하기 위해 저항을 했는지와 같은 질문들이 쏟아졌다고 한다. 그리고 과학자는 기자들을 향해 질문을 했다.

"비인간적인 행동을 한 나치에 대해서는 왜 묻지 않으시죠?" 

과학자의 노력과 저항을 하지 않았다는 것을 통해 과학자 (혹은 유명인) 에게 어떤 잘못이 있었는지 물을 수 있다. 그러나 나치 수용소의 근본 원인은 비인간적 나치에게 있다는 것을 기억해야 한다. 종종 아니 거의 대부분 스스로 생각하지 못하는 습관에 놓인 사람들은 언론의 잘못된 질문을 그대로 반복하는 경우가 많다.


유명인들이 단체대화방을 통해서 비인간적 행동들을 공유했다고 해서 메시징 서비스가 감시하지 못하고 그것을 빨리 밝혀내지 못했다고 비난하는 것이 이상할 뿐만 아니라 그런 감시와 통제를 위해 만들어진 메시징 서비스가 얼마나 더 많은 선의의 피해자를 만들고 심지어 그 감시와 통제를 하는 기업 혹은 권력이 어떻게 사람들을 억압할 수 있을지에 대해서도 생각해야 한다.

은밀한 닫힌 대화방에서 여성 혹은 대상에 대한 협오를 아무렇지 않게 이야기하는 곳은 메시징 서비스를 닫는다고 해서 사라지지 않는다. 은어들을 연구하는(?) 어떤 언어학자의 이야기를 들어보면 그런 은어들은 이전에 게임에서 자주 사용되던 언어들이나 예전에 게시판 형태로 운영되던 곳에서 만들어진 언어들이 많다는 것이다. 줄임말을 사용하거나 혹은 일상적인 언어지만 뜻이 다른 형태로 교환된다는 것이다. 게임에서 자주 사용되는 '소환'이란 단어도 특정 여성을 파티에 오게 한다 혹은 특수 성폭행을 위한 범죄 모의로 사용되기도 한다고 한다. 그래서 메시징 서비스가 사라지면 인간의 그런 모습들도 같이 사라진다면 당연히 사회적 합의에 의해서 누구나 편리한 서비스를 사용하지 않을 것이다. 문제는 서비스 자체도 아니고 보안이 뛰어난 서비스가 존재하지 않는다고 그런 은밀함이 줄어드는 것도 아니라는 것이다.


은밀함은 진정한 인격을 보여주나? 

어디나 정답은 없다. 아마도 유명인들의 단체대화방에 충격을 받은 다른 유명인들 혹은 은밀함을 즐기는 이들에게는 좀 더 보안성이 좋은 다른 서비스를 찾아야 겠다 생각할 수 있지만 문제의 핵심은 보안성 다른 말로 들키지 말아야 하는 행동과 말들을 들어나지 않도록 하는 보안성이 아닌 전혀 생각하지 못한 개인 피해자들에게도 집중해야 한다는 것이다. 단체대화방의 특징은 바로 그들의 행동들이 잘못되었다는 것을 인지하고 있지만 이를 즐기고 피해자들은 그 사실을 인지조차 못하는 경우가 많다는 것이다. 즉 그들의 비인간적인 행동들도 있지만 그 안에는 피해자들이 더 많다는 점이다.


다소 충격적인 이야기 중 하나는 카페를 운영하는 어떤 분은 남자 혼자 오시거나 남자들 여러명이 와서는 갑자기 커피를 만드는 공간을 직접 찍거나 뒤돌아서 배경으로 나오게 찍는 경우를 종종 볼 때가 있다고 하셨다. 행동이 너무 어색하고 마치 그렇게 사진 찍는 것이 목적인 것처럼 말이다. 그리고 우연히 알게 된 것은 그렇게 어느 카페에 가면 이런 사람이 있다고 하면서 공유를 한다는 것이다. 그리고 외모에 대한 평가부터 개인적으로 아는 사람이라면 그 사람이 어떤 사람이라는 뒷말까지도 서로 대화를 나눈다는 것이였다. 유명인들의 단체대화방을 통해서 세상에 알려지게 되었지만 유명인이 아니라도 우리 주변에 누가 그런 은밀함을 즐기는 사람인지 알 수 없고 심지어 좋은 사람으로 보여도 그 이면에서는 어떤 은밀함이 숨어있는지 이런 이야기를 들을 때마다 의심할 수 밖에 없게 된다.

유리없는 동물원 

처음 시작은 메시징 서비스 플랫폼의 기능적인 부분을 설명하고 싶었던 것 같지만 사실은 메시징 플랫폼이 가지는 확장성 그리고 그 확장성이 단순히 웹서비스에 제한되지 않고 어쩌면 사회적 현상까지도 해결할 수 있는 하나의 해결책으로 발저할 수 있지 않을까 싶은 생각이 들었다. 다시 말해 메시징 서비스를 통해서 만들어지는 수많은 왕따 피해자, 성범죄 피해자를 비롯해 은밀함에 감추어져 자신도 모르게 공유되어 버리는 자신의 개인정보로 너무 많은 피해자들이 지금도 발생하고 있다는 것이다. 그것은 메시징 서비스가 보안성이 뛰어나기 때문에 더욱 은밀진다고 설명하기 어렵다.

아래 왼쪽은 2019년 수상한 한 사진이다.


베트남 여인이 두명의 아이를 데리고 있는 사진이다. 그리고 오른쪽은 이 사진을 찍었을 때의 모습이라고 한다. [관련 기사] 사진을 담아내기 위해서 기자회견장처럼 꾸며진 staged 상태에서 촬영한 것이였다. 이 사진을 보고 유리없는 동물원이 생각났다. 사진을 찍기 위해 여성과 아이들은 그저 피사체인가 싶은 느낌이다. 여성의 아픔을 전달하기 위해서 사진을 찍었다고 말할 수 있고 그 마음이 진심이였다고 해도 기자회견하듯 몰려들어 찍어내는 다수의 모습에서는 그 말조차도 그리 큰 설득력을 가지지 못한다.


은밀한 단체대화방이나 닫힌 커뮤니티 혹은 그 어떤 것을 통해서도 인간은 자신들의 욕망을 위해서 그 욕망의 대상으로 어떤 타인을 선택하는데 주저하지 않는 동물이 되어버린지 모른다. 그래서 누군가 일하는 곳에 가서 동물원에서 바라보듯 피해자는 모르게 은밀하게 자신의 욕망을 채워가고 자신들만의 은어로 입장료를 내고 후기를 공유하며 서로의 그 비인격적인 유대를 결속시키고 있는지 모른다. 마치 유리없는 인간동물원으로 세상을 만든다.

정답은 어렵고 힘들지만 ... 

사회적 문제가 발생할 때마다 사회적 문제를 만드는 인간들에게 집중해서 원인을 찾아야 할 문제와 사람들을 그렇게 몰아갈 수 밖에 없는 구조적 문제로 구별해서 원인을 보아야 한다고 생각한다. [연민에 대하여 ─ 구조적 범죄에 대한 생각] 최근에 감상한 시카고 경찰 Chicago PD 의 한 에피소드에서는 생명을 연장하기 위해 필요한 아내의 약을 구하기 위해 약품 배달 차량을 특수절도하는 내용이 나온다. 모든 문제가 해결되고 어느 때와는 다르게 경찰들도 뭔가 깔끔한 표정을 지을 수 없었다. 보험이 불가능해 약을 구할 수 없는데 그럼 죽어야 하는 것인지 누구의 책임인지 묻기가 어렵기 때문이다.


좀 더 생각해봐야 할 문제는 인간의 비인격적인 은밀함이 메시징 플랫폼에 의해서 좀 더 강화가 되었다면 반대로 이를 해결할 수는 없다고 해도 줄일 수 있는 플랫폼 차원에서의 방법은 없는지 생각해볼 필요가 있다는 것이다. 단체대화방의 은밀함이 세상에 들어나는 이유들은 여러가지가 있을 수 있다. 개인 사용자의 부주의함에 단체 전체가 위기(?)에 빠지게 되는 경우도 있지만 그 중 한명이였던 누군가 잘못되었음을 인식하고 이를 고발하는 경우도 볼 수 있다. 그러나 이런 경우 개인이 누구인지 특정해 내기도 쉽고 그런 경우 개인적 보복을 당하는 경우도 있다고 한다. 다양한 사용자가 모이는 공간에서 서로가 서로를 보호하기 위한 가장 좋은 시스템은 바로 신고 report 이다. 물론 악의적인 의도로 신고를 남용하는 경우도 있지만 인스타그램의 경우 특정 태그를 통해서 성매매 혹은 불법적인 내용들을 광고하는 경우들을 어렵지 않게 볼 수 있다. 대화 중이라도 누군가 불법적인 내용이 존재한다면 이를 저장하고 화면 갈무리를 할 수 있지만 그런 경우 법적으로 책임을 묻기 어려운 경우도 많다. 그렇기 때문에 증거의 완결성을 위해서 메시징 플랫폼에서 신고가 들어오는 순간의 자료와 자료의 완결성을 확보할 수 있는 방법을 생각할 수 있다.

간단한 방법으로 올라오는 자료들을 검열하거나 대화내용을 통해서 불법성을 바로 찾아내는 방법도 있을 것이다. 그러나 개인 정보 뿐만 아니라 불법성을 찾아내기 위해 아직 일어나지 않은 사실에 대해서 검열을 하는 것은 미국의 9.11 이후 애국자법 Patriot Act 과 같은 부작용 뿐만 아니라 새로운 피해자를 더 만들어 낼 수 있다. 그래서 인권의 감수성을 다치지 않는 범위에서 메시징 서비스가 어떤 방법을 만들 수 있는지 고민해야 한다.

또한 서비스 플랫폼이 제시해주지 못하는 인간들의 행동에 대해서도 '불편한 관심 An Inconvenient Concern' 을 가질 필요도 느껴진다. 뜻하지 않은 인물에 의해서 은어들이 등장해서 세상에 알려질 때가 있다. 대한민국 제일야당 원내대표는 대통령 지지여성을 비하하는 은어를 우렁차게 말해서 세상 사람들이 알게 되기도 했고 한 연예인은 전직 대통령의 죽음을 뜻하는 은어를 방송에서 자연스럽게 이야기하며 세상 사람들이 그런 은어의 존재를 알게 되었다. 수많은 은어들이 존재하고 보통 관심이 없다면 알지 못하고 살아가지만 많이 불편하지만 그런 은어들이 무엇이다를 알게 되면 고구마 줄기처럼 그런 언어들을 쓰는 이들을 현실에서도 의외로 찾아내게 된다. 좀더 체계적으로 그런 은어들을 직접 알지 않아도 기계들에게 학습시키고 표현들을 찾아내는 것도 위에서 설명한 기계 봇의 기능을 활용할 수 있는 방법이 된다.


조금은 성급한 결론이지만 ... 

여전히 한계만을 가지고 결론을 내야 할 때는 문제는 복잡하거나 인간이 존재하면 항상 있던 문제였던 거이 아닌가 싶다. 지금도 마찬가지이다. 아무리 좋은 심지어 '도덕적으로 깨끗한' 메시징 플랫폼이 개발되었다 하더라도 그 안에서 비인격적 인간들은 유리없는 동물원을 만드는데 도구로 활용할 것이다.

유명 연예인의 단체대화방 내용들이 세상에 들어나기 전에는 그들이 피해자들을 유리없는 동물원에서 지켜보았다면 세상에 알려지고 나서는 오히려 그들이 이제 세상 사람들이 지켜보는 동물원 안에 있는 이들이 되었다는 것을 생각해볼 필요가 있다. 정말 불편하지만 우리는 그런 은밀한 세상에서 이루어지는 그 과정들에 대해서 조금 더 관심을 가질 필요가 있다. 앞서 카페에 와서 어색하게 커피 만드는 공간을 촬영하는 이들이 있다거나 의심스러운 행동이 느껴진다면 당시의 CCTV 화면을 확보해 놓는 방법도 좋은 대안이다. 다른 사람 인물을 올리는 행동이나 개인정보의 노출이 우려되는 자료들은 신고하는 것이 자신에게 돌아올 수 있는 피해를 막는 예방이기도 하다.


만약 인터넷 공간 상에서 이런 은밀한 자료들의 교환이 이루어지기도 하지만 가끔 실수같이 자료들이 공개되는 경우도 있다. 또한 자신을 특정하거나 개인정보가 나온 정보들에 대해서도 스스로 찾아서 처리하는 것도 중요하다. 개인 사용자들이 사용하기에 [구글 알림] 서비스를 이용해 자신의 개인정보 등이 인터넷에 나타나지 않는지도 확인하면 좋을 것이다. 제도적으로는 불법적인 내용에 대한 신고가 들어왔을 때 신고 내용과 자료의 완결성을 플랫폼에서 입증된다면 증거로 쉽게 채택되는 방법도 있을 것이다. 그래서 이제까지는 인터넷 서비스는 사용자가 원하는 기능만 제공해주고 이익을 창출하는 방법을 생각하였지만 웹 서비스가 가지는 사회적 영향과 파급력을 생각한다면 반대로 웹 서비스를 통해 만들어지는 사회적 결과에 대해서도 책임을 질 수 있어야 한다고 생각한다. 단순히 법적 책임이나 경제적 배상이 아니라 인간의 비인격적인 행동을 줄일 수 있는 방법을 같이 생각해야 한다고 본다.


인간 본성에 대한 근본적인 부분까지 뜯어 고쳐야 한다고 말은 하고 싶지만 인간 방종에 의한 피해자들이 최소화하기 위해 법과 제도가 존재하고 그와 동시에 인터넷 서비스 플랫폼도 하나의 인간 행동에 영향을 주고 좋은 방향으로 갈 수 있도록 도와주는 법과 제도와 같은 기능을 수행해야 한다고 믿는다. 문제는 서비스를 주도하는 기업들이 기업의 이익과 사회적 공익을 놓고 무엇을 선택할지 알 수 없다는 것이다. 바라건데 유럽을 중심으로 인터넷 서비스 뿐만 아니라 데이터 그리고 그 관리에 대한 책임을 의무화해야 하고 그 주체가 누구여야 한다는 것을 선언했지만 더욱 중요한 것은 인간의 고통이 줄어들 수 있는 플랫폼이 무엇인지 소위 '따뜻한 마음을 가진 플랫폼'을 만들어야 한다는 것이다.

메시징 플랫폼을 생각하다 ─ 서비스의 사회적 확장에 대해서

Thursday, August 2, 2018


"데이터가 살인을 할 수 있는가?"

살인이라고 하면 '사람을 죽이다'란 뜻을 가지는 광범위한 뜻을 가지고 있지만 영어로 살인은 여러가지로 표현된다. 먼저 살인하고자 하는 의도를 가지지 않았지만 결과적으로 죽음에 이르게 된 과실치사는 manslaughter 이고, 사람을 계획적으로 죽이는 것은 murder 라고 부른다. 사람의 죽음을 다루는 경찰이나 수사기관에서는 피의자의 살인의도를 제대로 파악하기 힘들기 때문에 일반적 살인을 다루는 homicide 라고 표현한다. 다시 처음 질문으로 돌아와서 "데이터가 살인을 할 수 있는가?"라고 물으면 데이터가 과실치사 혹은 계획된 살인을 만들 수 있는지 묻는 것이다. 거의 대부분의 사람들은 그럴 수 있을까? 라는 의문보다는 그럴리가 하면서 부정적인 반응을 보이기 쉽다. 기본적으로 살인이 주는 구체적인 모습은 흉기로 사람을 찌르는 것과 같은 구체적인 행동과 우선 연결이 되기 때문이다.


그러나 만약 '데이터가 누군가를 죽음에 이르게 할 수 있는가?' 로 질문을 바꾼다면 많은 이들은 그 가능성에 대해서 크게 부정하지 않을 것이다. 개인적으로 쓰는 소설에서는 각국의 사형제도를 통해서 특정 인물을 살해하는 내용을 그리고 있다. 예를 들어 싱가포르에서 소량의 마약을 가지고 입국하다 적발되면 사형이다. 만약 내가 죽이고 싶은 사람에게 경품으로 싱가포르 여행권이 당첨되었다고 하고 그 사람의 짐에 몰래 마약을 넣고 입국하는 과정에서 잡히도록 해서 사형을 당하게 된다면 계획된 치밀한 살인으로 볼 수 있는지 궁금해진다. 결국 사람을 죽음으로 이르게 하는 과정 안에는 수많은 우연들의 결과일 수 있지만 치밀한 계획에 의해서 만들어진 죽음이라고 해도 그 계획의 자세한 내용을 알지 못한다면 우연의 죽음으로 보일 것이다.

싱가포르 입국신고서

사실 우연과 계획의 경계선상에서 우리가 주의깊게 살펴봐야 하는 요소가 있다. 바로 개인정보 privacy 라는 측면이다. 개인정보 그냥 프라이버시라는 것은 종종 '보여주고 싶지 않은 것을 보여주지 않을 권리'로 생각된다.

"그건 내 프라이버시야"

출처: Consumer Reports

라는 말에는 정보 자체가 사실이 아니라는 말이 아니라 누군가 아는 것이 불편하다는 뜻이다. 불편함에는 여러가지 이유가 있을 수 있다. 알려지는 내용이 부끄러울 수도 있고 알려지면 곤란해질 수도 있고 다양한 이유지만 기본적으로 불편하기 때문에 가급적 나만이 알고 있으면 좋겠다는 뜻이다. 그 중에는 알려지면 악용될 가능성이 있는 개인정보들도 분명 있다. 대표적인 것이 바로 대한민국의 주민등록번호일 것이다. 주민등록번호를 안다는 것은 태어난 년도 생일 뿐만 아니라 성별 그리고 더 관심있게 본다면 출생신고를 한 지역까지도 알 수 있다. 꽤 많은 정보들을 포함있지만 대한민국에서 금융을 포함한 다양한 활동을 하는데 주민등록번호를 공유하지 않으면 할 수 없는 것이 많다는 것은 그동안 개인정보를 노출되도록 강요받았는지 생각해봐야 한다.


Material privacy ...

정보 자체가 그대로 개인정보가 되는 경우를 생각할 수 있다. 주민등록번호의 생년월일 뿐만 아니라 남/녀 를 나타내는 숫자를 보고 바로 알 수 있다. 정보가 그대로 개인정보가 되는 경우이다. 법정에서 판결에 중요한 영향을 줄 수 있는 증인은 material witness 라고 부른다. 증인이면 증인이지 material 이 붙는 이유는 무엇일까? 판결에 큰 영향이란 판결의 유무죄를 바로 뒤집을 수 있는 증인이란 뜻이다. 그런 증인 witness 앞에 material 이 붙는 것은 '있는 그대로 바로' 의미를 가진다는 뜻이다. 그런 의미에서 생년월일, 성별과 같은 정보는 바로 개인정보가 되고 이런 성격의 개인정보를 본연적 개인정보 material privacy 라 부르려 한다. [ 데이터와 개인정보의 시대 ─ 인간이란 무엇인가 ] 에서

"개인정보 privacy 란 데이터와 조건, 상황이 포함된 결과물이다."

이라고 소개했지만 본연적 개인정보는 조건 혹은 상황이 포함되지 않아도 그대로 개인정보인 경우이다. 그러나 자신의 생년월일이나 성별은 대상에 따라서 알리고 싶은 경우도 있고 그렇지 않은 경우가 있다. 즉, 본연적 개인정보지만 누군가에게는 성별조차도 알리고 싶지 않을 때도 있다. 개인정보는 정보의 성격뿐만 아니라 대상이 중요한 경우이다. 결과적으로 개인정보란 알리고 싶은 대상에게만 적절하게 in control 알려지기를 바라는 정보라고 생각하게 된다. 그러나 현실적으로 모든 정보를 제어할 수 있다고 생각하는 것은 거의 불가능에 가깝다. 더 정확한 표현은 자신이 통제할 필요가 없다고 생각하는 많은 본연적 개인정보들이 원하지 않는 이들에게 알려지거나 혹은 전혀 알 수 없을 것이라고 생각하는 정보들도 개인정보로 만들어지는 경우도 생각하게 된다.


Manufactured privacy ...

소셜네트워크 SNS 에서 전혀 모르는 이의 계정을 들어가 공개된 정보만으로 계정의 주인이 어떤 사람이고 어디에 살고 어떤 일을 하는지 얼마나 알아낼 수 있는지 살펴보면 상당히 많은 정보들을 알아낼 수 있는 경우가 많다. 물론 본인이 공개한 정보들도 많다. 직장 정보, 지역 등 알리기 원해서 알리는 경우도 있지만 공개하지 않은 개인정보라고 즉, 본연적 개인정보 material privacy 가 아니라고 해도 사진, 글 등을 통해서 어디에 사는지 직업이 무엇인지 알아낼 수 있는 방법도 있다. 즉, 본인이 직접 알린 개인정보가 아니지만 사진 속에 입고 있는 옷이나 주변 건물 등을 통해서도 유추할 수 있는 방법이 없는 것은 아니다. 몇가지 예를 통해서 생각해보자.

ID 카드: 신기한 현상이지만 한국에서 ID 카드란 자신의 직업 혹은 직장을 인증하기 위한 방법으로사용된다. 그래서 사진을 올리는 소셜네트워크인 인스타그램 Instagram 에서 #사원증 태그 수는 2018년 7월 30일 현재 18,780여개가 올라와 있다. 물론 공개된 개수이다. 많은 이들은 사원증의 형태나 모양은 그리 중요한 것이 아니고 자신의 직장을 알리기 위한 좋은 도구라는 생각을 하는 이들이 많은 것 같다. 그래서 특정 기업의 사원증은 거의 동일하게 위변조 할 수 있을 정도로 형태와 구조를 보여주고 있고 같이 찍은 물건을 통해서 사원증의 거의 정확한 크기도 알아낼 수 있다. 역시나 모양을 안다고 해도 카드 내부 정보를 통해서 위변조하기 어렵다고 생각할 수 있지만 그런 생각이 보안에서 가장 취약한 태도라고 볼 수 있다. 많은 경우 출입 허가증의 형태에서 문제가 되는 경우가 가장 일차적인 보안이다. 심지어 ID카드의 형태를 보면 제조회사를 알아내고 어떤 방식의 보안을 사용하는지 알아내는 것도 어려운 일은 아니다. 기본적으로 자신의 중요한 신분증을 공개하는 것에 대해서 수많은 기업들 그리고 관리자들이 가지는 생각을 유추할 수 있게 된다. 비슷한 검색어 태그로 #idcard 를 입력해보면 156,000 여개 공개 게시물을 볼 수 있는데 내용을 들어가서 살펴보면 세계곳곳에 진출한 한국인들의 ID 카드를 볼 수 있다. 많은 기관의 경우 신분증을 공개해서 올리는 것에 대해서 일종의 범죄 혹은 중요 정보에 대한 공개로 자격 박탈할 수 있는 이유가 된다. 그러나 대한민국 사람들은 그런 교육을 받았는지 아닌지 몰라도 자랑하고 싶은 곳일수록 적극적으로 올리는 것을 어렵지 않게 볼 수 있다.


배경이 더 중요한 정보를 주는 경우도 많다. 사진의 배경을 통해서 사진을 찍은 장소가 어디인지 알아낼 수 있다. 물론 친절하게 어디라는 태그 혹은 위치 태그를 붙여주기 때문에 어렵지 않게 알 수 있기도 한다. 그래서 그런 정보를 통해서 계정의 주인의 주요 동선이 어디이고 어디를 가면 볼 수 있는지 어떤 소지품을 가지고 다니기 때문에 아무리 얼굴이 화사하게 처리가 되었다고 해도 진짜 주인을 알아낼 수 있는 많은 방법들이 있다. 계정에서 나타나는 위치 정보들을 모아보면 계정 주인의 동선이나 어느 지점을 중심으로 이동하는지 그리고 시간대와 거리등을 통해서 계정 주인의 주거지가 어디쯤인지 추정할 수 있다. 눈 내리는 모습이 너무 좋아서 집에서 나오자 마자 찍어 올린 동영상에는 주변 아파트의 동 호수가 보일 때가 있다. 많은 사람들은 눈 내리는 장면에 집중하지만 개인정보의 민감함을 생각한다면 이웃 아파트가 보이고 이미 알아낸 동선과 비교해서 주변에 해당 동수가 있는 아파트 단지를 알아내는 것도 어렵지 않다. 사진 혹은 영상에서 나온 물체의 크기를 통해서 몇층에서 찍었는지 알아내는 것도 그렇게 어렵지 않다.


사용자는 절대로 자신이 사는 위치까지는 알리고 싶지 않았을 것이라고 생각한다. 그리고 이 정도면 사는 곳을 알아내는 것은 어려운 것이라고 생각했을 것이다. 그러나 주어진 정보에서 유추할 수 있는 많은 다른 정보들을 통해서 알리고 싶지 않았던 개인정보까지도 알려질 수 있다는 것은 한번쯤 개인정보를 다루는 직업을 가진 사람들이라면 생각해봐야 할 내용이다. 이처럼 자신은 알리고 싶은 개인정보가 아니고 직접 들어난 정보는 아니지만 다른 정보들을 통해서 알아낼 수 있는 개인정보도 있다는 것이다. 그리고 이를 본연적 개인정보 material privacy 와 구별하기 위해서 가공된 개인정보 manufactured privacy 라고 부르려 한다.


A being of analogy ...

인간이 동물과 구별되는 특징이 무엇인지 논의할 때 몇가지는 항상 빠지지 않고 나온다. 언어를 가지고 있다. 이성을 가지고 있다 등과 같이 설명을 하지만 막상 동물의 한 종류인 인간이 다른 동물들과 달리 어떤 특징을 가지고 있는지는 그 동물이 되어보지 않거나 동물들의 능력을 제대로 살펴보지 않고서는 알 수 없다. 그럼에도 불구하고 인간은 뭔가 특별한 능력을 가지고 있다고 항상 믿어오고 있다. 인간만의 특별한 능력인지 알 수 없지만 인간의 언어 능력 분석 능력 등이 종합적으로 나타나는 것으로 '유추하는 능력'을 볼 수 있다. 유추하다는 infer 를 주로 사용하지만 '유추'라는 것은 보통 'analogy' 라고 말한다. analogy 는 서로 다른 대상 사이에서 유사한 점을 찾아내서 그 유사점을 통해서 비슷한 성격 혹은 비슷한 반응을 나타내는 대상이지 않을까 미루어 짐작하는 것이다. 유추를 할 수 있는 것은 수많은 경험을 통해서가 아니라 기존에 경험한 내용 혹은 경험하지 않았지만 배운 내용만으로 미루어 짐작할 수 있는 방법들을 알고 있다는 뜻이다.


예를 들어 사진의 배경 안에 있는 나무와 나무의 그림자를 통해서 사진을 찍었을 때 몇시였고 어느 높이에서 찍었는지 와 같은 내용을 유추할 수 있는 이유는 광학과 기본적인 기하학을 이해하고 있기 때문에 가능하다. 그래서 많은 학문을 배우는 이유는 시험 점수로 경쟁하기 위해서가 아니라 삶에서 유추할 수 있는 능력을 증가시킬 수 있는 도구들을 가지기 위함일 것이다. 사용자의 사진들의 위치를 통해서 거주지를 유추하는 것도 특별한 의도를 가지지 않는다면 거주지를 중심으로 사용자가 움직일 것이라고 생각했기 때문이다. 범죄 심리학에서 피의자가 범죄를 일으키는 패턴의 모습과도 유사함을 생각할 수도 있고 다양한 이유로 한 사용자의 계정이 보여주는 위치를 통해서 사용자의 거주지를 추정할 수 있다는 것은 합리적인 생각이 될 수 있을 것이다.

이처럼 좋은 의도를 가진다면 인간이 가지는 유추란 세상의 원리를 알아내고 세상이 움직이는 모습을 이해할 수 있는 좋은 도구가 될 수 있지만 나쁜 의도를 가지고 어떤 사용자가 어디에서 살고 어디에서 움직이고 그래서 어디에 가면 만날 수 있는지와 같은 용도로 사용된다면 결국 인간의 유추 능력은 스토킹을 위한 도구가 되는 것이다. 사용자는 의도하지 않았지만 결국 유추된 개인정보들을 앞서 표현한 것처럼 가공된 개인정보 manufactured privacy 라고 불렀고 이런 개인정보는 한가지 정보를 통해서 유추할 수 있기도 하지만 여러가지 정보들을 모아서 한가지의 결정적인 정보를 찾아낼 수 있다. 그리고 많은 경우 인간의 선한 의도만을 믿는 세상이 아니라면 이런 가공된 개인정보는 더욱 더 위험한 형태의 개인정보가 되어서 사용자를 힘들게 할 수도 있을 것이다.


A machine of analogy ...

이런 인간이 유추해 알아낼 수 있는 개인정보를 인간이 아닌 기계 machine 에게 맡긴다면 더 잘 할 수 있을까? 물론 기본적으로 유추할 수 있는 기본이 되는 원리들은 이해하고 있어야 한다. 빛의 직진성 등과 같은 물리학의 원리 뿐만 아니라 사진에서 나오는 배경에 나오는 간판 혹은 특정한 배경을 통해서 어디에 있는 것인지 찾아낼 수 있는 능력과 같은 것이다. 아주 짧은 그리고 거의 보이지 않는 정보를 통해서 위치를 알아내는 방법도 인간의 집요함만큼이나 기계가 수행할 수 있는지 생각해봐야 한다. 그러나 기계는 기본적으로 짜증을 내지 않는다. 인간처럼 유추하는 과정에서 궁극적인 결과를 알아내는데 실패해도 짜증내지 않을 것이고 다시 다른 정보를 통해서 다른 정보들을 알아내려고 할 것이다. 어떤 면에서는 사진 정보를 확대해서 더 정확하게 인식할 수 있는, 예를 들어 인간이 확대해서 눈으로 확인하기 어려운 간판을 기계가 확대할 때 좀 더 선명하게 구분할 수 있는 사진 확대 방법을 적용한다면 인간보다 더 정확한 그리고 더 빠른 정보를 얻어낼 수도 있다.


결국 기계학습 machine learning 에 대한 다양한 설명을 할 때 막연하게 기계에게 인간의 지식 정도를 학습시킨다고 설명할 때가 많지만 실질적으로 기계 학습에서는 기계가 알아내려고 하는 목표를 정하고 그 목표를 달성하기 위해 필요한 학습 내용이 추가되어야 한다. 이런 경우 인간이 어떤 공개된 사진을 통해서 나온 본연적 개인정보 material privacy 를 통해서 가공된 개인정보 manufactured privacy 를 알아내는 다양한 유추 방법들을 알려준다. 우선 사진 정보를 통해서 위치를 알아내는데 사용자가 친절하게 올린 위치 정보와 함께 사진에 포함된 간판 혹은 길거리 특정하게 알아낼 수 있는 부분을 통해서 사용자의 위치 정보를 알아낼 수 있을 것이다. 그리고 기계에게 특정 사용자가 사는 곳이 어딘지 알아내 라고 할 수 있다. 사용자가 집 안에서 찍은 구름 사진을 통해서 건물들을 찾아낼 수 있다면 해당 건물이 보일 수 있는 위치를 지도에서 찾아내고 사용자가 사진 찍은 위치를 알아낼 수 있을 것이다. 인간도 할 수 있지만 기계에게 지도의 정보와 함께 사진이 찍힌 구도, 그림자 등과 같은 부분적인 정보를 통해서 더 정확한 정보를 인간보다 더 빠르게 알아낼 수 있다.

내용이 그렇지만 결국 사용자 계정이 주어지면 사용자가 어디에 사는지 정확하게 알아낼 수 있는 일종의 '스토킹 기계'를 만든 것이나 다름없다. 그리고 학습 내용이 정교하면 그만큼 더 적은 정보를 통해서도 더 정확한 개인정보를 알아내기 쉽다. 결국 인간이 평소에 유추해내는 다양한 방법을 기계에게 학습시킨다면 기계도 일종의 유추잘하는 기계가 될 것이다.


A thing of manufactured privacy ...

악의적인 의도를 가지지 않고 전혀 모르는 몇몇 사용자들의 인스타그램 계정에서 정말 이렇게 알아낼 수 있을까 궁금해지게 되었다. (이미 오래전이다.) 그래서 그때 적용했던 몇가지 예를 통해서 기계의 의한 학습 그리고 그 기계 학습으로 개인정보, 더 정확하게 '가공된 개인정보'를 얼마나 정확하게 알아낼 수 있는지 그 과정을 설명하고자 한다.

사용자 A 는 주기적으로 카페를 방문하고 방문하고 반나절 혹은 하루 정도 지난 후 인스타그램에 자신의 셀피 selfie 와 함께 올린다. 세 곳은 자주 가고 일주일에 한번 이상은 항상 방문하고 비정기적으로 가는 곳도 있다. 카페 이름은 친절하게 사용자가 태그로 올려놓거나 위치정보를 같이 올리기 때문에 정확한 위치를 파악하게 된다. 방문 시간과 올린 시간이 같지 않기 때문에 몇시에 방문하는지 알 수 없지만 이동 중에 찍은 셀피를 통해서 주로 이동시간이 오후 2시에서 3시 사이임을 알 수 있다. 이동 시간은 주로 그림자 등으로 유추가 가능했고 일관된 시간을 나타냈다. 방문한 위치들을 지도에 찾아본다. 이동 중에 찍은 사진에서 나타난 길가 표지판 혹은 특정 상호를 통해서 이동에 포함되는 거리를 추정하게 된다. 해당 정보와 도보와 버스를 이용할 때의 동선을 고려해서 가장 가능성이 높은 거주 위치를 추정하게 된다.
사용자 B 는 자주 다니는 사진도 많이 올라오지 않고 배경이 있는 사진이 아닌 책과 소품과 같은 물건들을 배경으로 찍은 사진들이 대부분이다. 태그도 거의 없기 때문에 위치를 추정할 수 있는 정보도 많지 않다. 어느 겨울날 사용자는 첫눈이 너무 좋아서 출근길에 아파트 복도에서 멈춰서 눈이 내리는 풍경을 찍었다. 그리고 그 사진 안에는 이웃 아파트의 동수가 나와 있었다. 다른 몇개의 사진을 통해서 사용자가 사는 지역 (시단위) 를 확인하고 그 지역에서 해당 동수가 어디에 있는지 찾고 아파트의 외관을 통해서 사진을 찍은 위치 뿐만 아니라 복도식 아파트라는 사실과 나무와 이웃 아파트의 높이 등을 고려해서 해당 사용자가 사는 정확한 위치를 알아내었다.
사용자 C 는 거의 고양이 사진만을 올리는 사용자였다. 위치 정보를 알 수 없었지만 고양이가 창문에 있는 사진이 올라왔다. 창문 너머로는 주변 건물이 보인다. 비슷한 방법으로 건물 이름을 통해서 해당 건물이 있는 건물 주변에 비슷한 형태가 존재하는지 확인할 수 있다.

사실 이정도까지 노력하지 않아도 수많은 개인정보를 올리는 사용자들이 많다. 자신의 자식들이 다니는 어린이집 이름부터 자신의 집을 스스로 위치 태그를 만들어서 친절하게 알려주는 경우도 많기 때문에 생각보다 직접적으로 개인정보를 알아내는 경우가 많다. 그러나 사용자 스스로는 알리지 않으려고 노력했다고 했지만 여러가지 단서를 통해서 아주 중요한 개인정보를 알아내는 경우도 쉽지 않게 찾아낼 수 있다. 이 정도 기계가 할 수 있게 시킨다면 많은 이들은 도대체 왜 이런 것을 기계에게 시키냐고 물어볼 수 있다.


먼저 본연적 개인정보 material privacy 와 가공된 개인정보 manufactured privacy 에 대한 구별을 하고 사용자들이 조심해도 생각보다 많은 개인정보를 바로 알거나 유추를 통해서 알아낼 수 있는 다양한 예가 있다는 것을 말하고 싶은 것도 있지만 이런 가공된 개인정보에 대한 개념을 만들고 싶었던 근본적인 이유는 다음에서 소개하려 한다.


A better thing of machine ...

앞의 사용자 A, B, C 의 경우 결국 사용자의 거의 정확한 거주지를 알아낼 수 있다. 심지어 대략적인 동선과 일정을 예상할 수도 있다. 그렇다면 인간이 할 수 있는 일을 좀 더 수고를 덜하게 하고자 기계에게 이런 '스토킹스러운' 일을 시킨 것인가?

여기에서 기계와 인간을 비교하면서 기계가 인간보다 더 잘 할 수 있는 특징이 무엇인지 생각해 볼 필요가 있다. 인간은 논리적이고 이성적이고 수많은 판단을 합리적으로 하는 존재라고 인간 스스로는 믿고 있다. 만약 이 명제가 사실이라면 인간은 더 넓게 보아 대다수의 인간들은 소위 가짜 뉴스 fake news 에 속으면 안될 것이다. 스스로 판단할 수 있는 이성 그리고 수많은 검색 방법을 통해서 인간은 많은 것을 확인하고 무엇이 사실인지 알아낼 수 있기 때문이다. 그런데 많은 경우 가짜 뉴스의 제목만으로도 어느정도 확증편향 confirmation bias 를 가지고 사물을 바라보게 된다.

기계에게 인간의 유추 방법과 자연 원리 등을 학습시키고 임의의 사용자의 거주지를 알아내도록 한다면 결론에 이르는 모든 단계에서 왜 그런 판단을 했는지 이유 reason 을 가지고 찾게 된다. 인간도 당연히 그럴 것이라 생각할 수 있지만 인간은 전체 데이터를 종합적으로 분석하지도 못하고 일부 단서가 되는 내용을 통해서 가설을 만들고 그 가설이 맞는지 아닌지 검증하는 과정을 거칠 때가 많다. 여러개의 사진을 통해서 결론을 내려고 하기 보다는 한 두개의 사진을 통해서 결론이 무엇인지 않을까 그리고 다른 사진을 통해 보니 자신이 생각한 결론이 부합되면 먼저 생각한 결론으로 확증하기 쉽다. 좋은 표현으로 인간에게는 감 gut 이 있다고 말하기도 하지만 사실 우연히 자신의 결론에 부합되는 몇가지만을 통해서 결론을 내는 경우도 생각해야 한다.


그러나 기계는 결론에 이르는 과정들을 검증하고 데이터가 제대로 부합되는지 여러가지를 검증할 수 있다. 그리고 결론을 낼 수 있는 중요한 단서 clue 가 무엇인지 정확하게 기록하고 결론을 낸다. 즉, 예를 들어 사용자 A 의 경우 카페 이름에서 단서를 얻을 수 있었지만 정확한 거주지 정보를 알아낼 수 있는 정보는 아니다. 다만 사용자가 카페를 가기 위해 장거리를 가지 않는다는 생각을 통해서 카페 주변에 거주지가 있지 않을까 생각한다. 사용자 B 의 경우 다른 사진에서는 정보를 거의 알아낼 수 없었지만 눈 내리는 풍경을 찍다 이웃 아파트를 촬영하여 결정적으로 알아내게 되었다. 정확한 결론에 이르는 정보의 양은 중요하지 않다. 오히려 얼마나 결정적인 정보가 어떤 역할을 하게 되었는지가 더 중요할 때가 많다. 그리고 기계 학습을 통해서 기계는 어떤 정보가 결정적인 정보인지를 구체적으로 알고 있다. 즉, 기계 스스로 논리적으로 유추하는 reasoning 과정에서 결정적인 단서 clue 가 무엇이었는지 알고 있다. 사용자 B 의 이웃 아파트의 동수와 모양이 바로 그런 부분이다. 사용자 C 의 경우에도 건물 이름 그리고 주변 건물들의 높이 등도 결정적인 단서가 된다.

개인정보가 복잡해지고 알아내기 더욱 어려울 수록 이런 결정적인 단서들의 역할은 더 커진다. 즉, 정보의 양이 중요하지 않다. 인간도 이런 결정적인 단서가 무엇인지 기억할 수 있지만 중요한 것은 유추의 단계가 복잡해지면 결국 인간도 직감 intuition 의 영역이 되기 쉽다. 그러나 기계는 그 과정에서 최초의 단서가 되는 것이 무엇인지 기록하고 있을 뿐만 아니라 추가적으로 알아낸 다른 단서 혹은 가공된 개인정보가 얼마나 정확한지 평가할 수 있다. 이때 최초의 단서가 된 정보가 무엇인지 알고 있다면 그 최초의 단서를 사진에서 다른 사용자에게 공개하지 않는다면 결정적 단서는 사용할 수 없게 된다. 사용자 B 의 경우 최초의 단서가 된 아파트 동수를 알아낼 수 없도록 보정한다면 우연히 그 풍경을 알고 있던 사람이 아니라면 일반적으로 알아내기 어렵다. 다시 말해 기계에게 스토킹을 시키고 민감한 개인정보를 알아낼 수 있는 정보들이 사용자들에게 노출되어 있다면 시스템은 사용자에게 이 부분을 알려주고 적절한 조치를 취할 수 있다.


시스템의 취약점을 알아내는 가장 좋은 방법은 시스템에 침투해보라고 하고 어떤 문제가 있는지 확인하는 방법이다. 그래서 소위 화이트해커 white hacker 의 역할이 지금처럼 복잡한 시스템의 세상에서는 더욱 더 중요하다. 비슷한 방법으로 화이트 해커의 역할과 같이 사용자가 미처 생각하지 못한 개인정보의 취약한 정보들을 제거할 수 있기 위해서는 우선 개인정보를 스토커처럼 알아내도록 하고 결정적 단서들만 잘 제거한다면 생각보다 많은 의도하지 않은 가공된 개인정보들을 막아낼 수 있다.


A era of artificial intelligence ...

많은 이들이 인공지능의 시대에 내 직업이 사라질까 아닐까를 고민하지만 사실 상당히 인문학적 고민일 뿐이다. 기술적인 측면에서 바라본다면 더 정확한 것은 내 직업이 기계에 의해 대체될 수 있는 작업들은 얼마나 있을까 생각해봐야 할 것이다. 예를 들어 미래 세상에 어떤 기계에게 특정 정치적 성향을 나타내도록 댓글을 쓰도록 학습시킨다면 특별히 댓글을 쓰도록 사람들을 몰래 계정을 만들고 숨어서 댓글 남기지 않아도 될 것이다. 기계는 열심히 돈 받지도 않고 열심히 써주고 심지어 동일한 댓글을 계속해서 복사해서 붙이지 않고 다양하게 창의적으로 댓글을 남길 수도 있을 것이다. 그런 세상이라면 댓글 조작을 위해 많은 돈을 쓰지 않아도 될 것이다.

인간이 할 수 있는 일 그리고 기계가 할 수 있는 일이 중요한 것이 아니라 인간이 할 수 있을 때 장점을 가지는 일 그리고 기계가 했을 때 장점을 가지는 일을 생각하는 것이 더 합리적인 접근일 것이다. 특별히 기계학습 machine learning 과 인공지능 artificial intelligence 를 구별할 필요가 있다. 많은 경우 '인공지능이 대체할...'이란 수식어가 붙는 직업들은 대부분 인공지능의 영역이기 전에 기계학습이 충분히 인간의 작업을 대신하는 영역을 많이 다루기 때문이다. 기계학습과 인공지능의 경계가 단순히 문제의 복잡함이라 말하기 어렵다. 바둑을 잘 두는 알파고 AlphaGo 의 경우 바둑 경기를 이기는 목적으로 만들어진 기계학습인지 인공지능인지 묻는다면 기계학습에 더 가깝다고 할 수 있다. 역설적으로 지능에 대해서 생각해본다면 주어진 목표가 아닌 스스로 목표를 만들고 그 목표가 가치있는지 생각할 수 있는 영역이 인간 지능의 가장 중요한 부분이라고 생각한다. 따라서 만약 인공지능을 가진 기계가 존재한다면 아마도 자신의 존재 이유와 자신이 하는 일에 대한 가치에 대해서도 고민하고 결론을 내리게 될지 모른다. 물론 그 결론이 옳은 혹은 합리적인 결론이라고 할 수 없지만 그래서 그런 생각을 시도한다는 것이 기계학습과 인공지능을 구별할 수 있는 부분이 될지 모른다.


영화 '엔더의 게임, Ender's Game (2013)' 에는 다음과 같은 대사가 나온다.

"When I understand my enemy
well enough to defeat him,
then in that moment,
I also love him."
— Andrew "Ender" Wiggin

내가 충분히 적을 이길만큼
적을 이해하게 되었을 때,
동시에 난 적을 사랑하게 되었다.

— 앤드류 "엔더" 위긴 

적을 이기기 위해서 이해하기 하지만 그 이해는 사랑하기에도 충분하다. 비슷하게 개인정보를 지키려는 노력과 개인정보를 훔치거나 알아내려는 소위 스토킹스러운 노력들은 거의 비슷하다. 그리고 그 개인정보를 보호해줄지 아니면 악용할지는 결국 그 개인정보를 알아낸 이의 선택에 맡겨야 한다. 이처럼 정보는 양면성을 가지고 있고 인간의 의도에 따라서 그 결과는 전혀 달라지게 되기 때문에 오히려 기계학습을 통해서 잘 훈련된 기계가 악용되지 않도록 한다면 선한 의도를 가진 기계 Good Samaritan's machine 로 이용할 수 있다. 이 말은 결국 기계학습의 능력이 뛰어나다면 인간이 해오던 민감한 정보에 대한 관리 권한을 인간이 다룰 이유가 없어진다는 뜻이기도 하다. 예를 들어 회사의 기밀을 담당하는 업무를 하는 사람은 자신의 직급이나 권한에 비해 넓은 범위의 보안 권한 clearance 를 가지고 있는 경우가 많다. 전산 관리와 같은 물리적인 관리를 뜻하는 것이 아니라 정보 혹은 데이터의 측면에서 살펴볼 때 말이다. 예를 들어 데이터베이스 관리를 해야 하는 사람이 병원에 외주로 들어가서 데이터베이스 성능 향상을 위해 들어갔을 때 외주 직원들은 병원 환자의 개인정보를 볼 수 있는 권한을 가지게 될 때도 있다. 이런 위험성을 막기 위해 개인정보가 전혀 존재하지 않거나 완전한 익명이 보장되는 가상의 환자 데이터베이스를 만드는 기계가 존재한다면 현재 상태와 거의 동일하지만 개인정보를 노출시키지 않아도 되는 가상의 데이터베이스 혹은 노출되어도 전혀 개인정보가 될 수 없는 정보로 가공할 수 있다.


How fragile being's analysis is ... 

기계학습을 통해서 단서를 알아내고 그 단서를 통해서 특정 개인정보를 알아내도록 실행하면 재미있는 결과를 볼 수 있다. 때로는 인간인 그냥 지나칠 수 있는 정보조차도 아주 간결한 단서로 알아내거나 반대로 인간이 그냥 보았을 때 충분히 단서가 되는데 왜 이 정보는 사용하지 않았지 하는 경우이다. 먼저 인간이 그냥 지나칠 수 있는 정보들은 대부분 기계의 뛰어난 검색 능력 그리고 대조 능력 comparison 때문일 때가 많다. 다른 표현으로 인간이 알아낼 수 있는 정보의 분해력 resolution 이 인간의 분해력보다 더 뛰어나기 때문이다. 반면 인간이 보았을 때 충분히 알아낼 수 있는 정보같은데 왜 그냥 지나쳤을까 하는 부분들을 다시 살펴보면 오히려 인간의 편견이나 검색해서는 알아내기 힘든 심리적인 내용이나 문화적인 내용들이 많이 있다는 것을 알 수 있다.

인간 스스로 뛰어난 능력이라 생각하는 유추 능력에는 수많은 함정이나 편견 때로는 이미 원하는 결정을 위해 조작하는 능력까지 포함한다는 것을 생각해 볼 필요가 있다. 예를 들어 한 기술 기업의 간부가 기술 유출 소위 기술 스파이 혐의로 재판을 받게 되었다 하자. 경쟁 회사와 연락한 적도 없었고 유출된 정보가 무엇인지 명시하지 못하고 회사에서는 간부가 헤드헌터 회사와 연락해서 이직을 하려는 시도가 있었다는 내용을 법정에서 강조했다. 그리고 이직을 하려는 시도는 곧 기술 유출을 했다는 의심을 할 수 있다고 주장한다면 헤드헌트 회사는 실제로 이직을 도와주는 회사가 아니라 기술 유출을 하려는 이들을 신고하는 것으로 더 큰 수익을 얻을 수 있을 것이다. 이와 같이 정황상 혹은 단순히 느낌상 그럴 것 같다는 주장만으로 쉽게 판단하는 것이 인간의 특징이기도 하다. 수많은 단서와 논리를 통해서 결론을 내리는 것이 아니다. 그래서 법정에서도 이를 구별하기 위해 실질적 증거를 material evidence 그리고 정황 증거는 circumstantial evidence 으로 부른다.

출처: 뉴스타파

만약 법적 논리와 합리성을 학습한 기계에게 맡긴다면 인간의 수많은 법정 논리 중 어느정도가 억지에 가까운 내용들인지 알게 될 것이다. 정치적인 이유로 억지 주장을 하고 심지어 인간의 목숨까지도 아주 쉽게 법정에서 죽음으로 몰고가는 것이 인간이라면 인간의 주장에는 얼마나 단서가 존재하지 않은 상태에서 억지 쓰는지 수많은 사법 살인들을 보면 이해할 수 있다. 정말 법조인의 양심에 따라서 우리의 삶을 맡겨도 되는지 생각해봐야 한다. 최소한 그들의 논리가 합리적인지 그리고 최소한의 단서를 가지고 생각하는 것인지 아니면 인간의 편견과 믿고 싶은 그리고 내리고 싶은 결론을 위해 인간은 그저 양심없이 말하는 것인지 확인해야 할 필요는 있다고 생각한다.

개인정보를 보호하기 위한 목적이지만 그 시작은 개인정보를 철저하게 파헤치는 스토커같은 역할로 학습을 하고 그 학습한 내용을 통해서 어떤 단서가 개인정보를 위험하게 하는지 인간이 제대로 파악하지 못한 단서를 찾아내는 역할로 기계학습은 괜찮은 도구이다. 뿐만 아니라 비슷한 방법으로 단서를 통한 논리 logical steps only by clue 를 만들어야 하는 곳이나 증거 중심 evidence based 학문의 영역에서는 인간의 양심에 맡기기 전에 한번쯤 검증할 수 있는 도구로 사용할 수 있다.


Quantum leap or Machine Step ... 

사실 인간의 비약적인 생각 혹은 엉뚱한 생각들이 인간을 좀 더 발전시켰다고 믿지만 그 비약이 너무도 심하면 편견과 오만에 가득한 인간들의 근거없는 주장들이 더 강해지게 될 때가 많다. 예전에는 소위 집단 지성 collective intelligence 에 의해서 많은 이들이 모일 수 있는 플랫폼이 만들어진다면 잘못된 주장은 사라지고 제대로 된 지식만 남을 것이라고 믿었던 적이 있었다. 2000년대 초반이였으니 그리 오래전 이야기도 아니다. 제대로 된 플랫폼이 없어서인지 아니면 집단 지성이 잘못된 이론인지 모르지만 많은 이들이 쉽게 참여할 수 있는 지금 오히려 가짜 뉴스와 잘못된 편견이 더 쉽게 유통되는 것을 보면 집단지성에 대한 진지한 고민을 해볼 필요는 있을 것이다.

단서없이 다시 말해 뜬금없이 새로운 생각을 할 수 있는 능력은 분명 인간의 상상력으로 존중받아야 할 능력이기도 하지만 지금 당장의 사실과 가치에 대해서 판단할 때 좀 더 객관적인 단서를 통해서 생각하는 능력또한 인간에게 필요한 부분일 것이다. 야심차게 어떤 기업들은 가짜 뉴스를 검증할 수 있는 자동 시스템을 생각하고 개발하기도 했지만 막상 인간의 그 뜬금없는 clueless 생각들을 따라갈 수 있는 방법은 그렇게 쉽지 않아서 제대로 작동하지 못하고 있다고 한다.

개인정보를 본연적 개인정보와 가공된 개인정보로 구별한 근본적 이유도 여기에 있다. 가공된 개인정보에는 단서를 가지고 만들어진 개인정보이다. 그렇게 가공된 개인정보의 경우에는 단서를 통해서 개인정보를 보호할 수 있는 방법이 있다는 것이다. 반면 본연적 개인정보는 그 개인정보 자체를 보호해야 한다는 점이다. 단순히 개인정보지만 그 개인정보가 어떻게 만들어졌는지를 구별하고 관리할 수 있는 능력은 인간보다 잘 훈련된 기계가 더 잘할 수 있다는 점도 고민해야 한다. 그리고 그 개인정보를 잘 관리하는 것에서 잘 훈련된 인간을 고용하는 것보다는 잘 훈련된 그리고 여러곳에서 잘 훈련된 방법을 서로 공유해서 잘 학습된 기계가 잘 관리할 수 있도록 해주는 것이 더 효율적이고 더 적극적인 방법이 된다.


출처: MEGA.COM

대한민국은 별 큰 생각을 하지 않지만 이미 유럽의 많은 기업들 심지어 유럽의 사용자들을 GDPR, (데이터보호에 관한 일반 규정) 에 대해 고민하고 있다. 그 영향인지 모르지만 많은 소셜미디어 업체들을 탈퇴하거나 스스로 제대로 관리하지 못하는 데이터를 파기하거나 아예 개인정보가 악용될 수 없도록 데이터를 수용하지 않는 방법 등 구체적인 방법을 실행하고 있다. 이 규정에 영향을 직접 받을 수 밖에 없는 대한민국의 많은 기업들은 여전히 개인정보에 대한 보호 방법도 미약하고 악의적인 해킹을 통해서 이루어진 개인정보 유출에 대해서 가장 관대한 나라이기도 하다. 일반적인 사용자들의 개인정보에 대한 인식의 정도에 따라서도 달라지겠지만 개인정보를 담고 서비스를 해야 하는 많은 기업들에게 어떻게 보호를 하고 사고가 일어났을 때 어떻게 대처해야 하는지에 대한 대비 계획도 마련되어야 한다. 그러나 그전에 개인정보가 어떤 의미를 가지는지 그리고 우리가 생각하지 못한 개인정보의 다양한 모습들을 고민하고 이를 어떻게 막을 수 있는지를 고민하고 해결한다면 앞으로 더 많은 개인정보를 보호해야 하는 의무가 주어지게 될 때 가장 현명한 해결책을 제시하는 기업이 된다면 오히려 기회가 될 수 있다는 것을 생각해야 할 것이다.

첫 질문으로 돌아간다.

"데이터가 살인을 할 수 있는가?" 

살인을 할 수 있다 없다의 답이 아닌 만약 데이터가 살인을 할 수 있다면 반대로 데이터가 살인을 막을 수 있다는 점도 생각하고 싶다.


개인정보를 대하는 우리의 자세 ─ 인공지능 시대 개인정보란 무엇인가?

Tuesday, May 22, 2018

끔 약을 먹어야 하는 사람에게는 모를 수 있지만 매일 약을 먹어야 하는 사람들은 오늘 아침에 약을 먹었는지 안 먹었는지 잊을 때가 있다. 잠에서 깨어 습관적으로 먹고 잠들었다가 꿈에서 먹었는지 진짜 먹은 것인지 모를 때도 있다. 그래서 요일별로 7개의 칸이 나누어진 약 상자에 넣어두고 오늘 요일에 해당하는 약이 있는지 없는지를 확인하고 먹을 때도 있다. 저녁 약을 먹어야 한다면 비슷하다. 저녁에 약을 먹었는지 아닌지 알지 못할 때가 있다. 요일별로 나누어진 약상자를 가지고 다니면 좋지만 일주일에 한번 일주일 약을 챙기는 것도 귀찮을 때가 있다. 요일 별 상자도 좋지만 저녁에 먹어야 하는 약이 4개 정도라면 4칸 혹은 아예 나누어지지 않은 약 상자를 가지고 다니면서 오늘 저녁 약을 먹었는지 아닌지 확인할 수 있는 방법은 없을지 생각해 본다.


습관적으로 매일 아침, 저녁으로 먹어야 하는 사람에게 약을 먹으라고 알람을 울리는 것도 좋은 방법이다. 지금 하고 있는 일이 있어서 나중에 먹어야 겠다 마음먹고는 잊어버리는 경우도 있고 방금 전에 먹었는지 아닌지도 확실하지 않을 때도 있다. 요일별로 나누어진 약 상자라면 오늘 요일을 확인하면 되지만 만약 요일별로 있지 않을 때도 방법이 있다. 약 상자에 약을 넣을 때 7의 배수로 넣는 것이다. 7개, 14개 약이 작다면 21개 이런 식으로 넣는다. 저녁 약을 잘 먹어오다가 목요일 저녁에 약을 먹었는지 아닌지 모르겠다면 남아 있는 약을 세어 보고 만약 3개, 10개가 남았다면 먹은 것이고 4개, 11개가 남았다면 목요일 저녁에 약을 아직 먹지 않은 것이다.

알약의 개수는 데이터이다. 몇개가 남았는지는 우리에게는 그냥 주어지는 데이터일 뿐이지만 요일 정보와 결합이 될 때 우리가 무엇을 했는지 아닌지를 알 수 있는 개인에게 관련된 정보가 되는 것이다. 데이터는 단순한 숫자 혹은 문자열일 수 있지만 데이터가 개인의 상황 혹은 조건과 결합이 되면 개인에게 의미가 있는 정보가 될 수 있다. 알약의 예에서 3개, 10개가 남은 것은 단순한 데이터이지만 이것이 목요일이라는 정보 그리고 매일 약을 먹는 사람이라는 상황이 결합이 되면 개인이 약을 저녁에 먹었는지 아닌지 알 수 있게 된다. 데이터란 무엇이며 데이터가 가지는 힘, 그리고 그 힘이 우리에게 어떻게 다시 영향을 줄 수 있는지를 이해하는 것은 정보의 바다에서 최소한 익사하지 않기 위한 구명정이라 생각하게 된다.


Datum Era ...

데이터는 번역하면 단순하게 자료로 번역되지만 단순히 조금 부족한 느낌이 들기 때문에 외래어로 데이터로 사용할 것이다. 데이터의 어원은 라틴어 datum 그리고 datum 은 '주다'는 뜻의 dare 에서 유래되었다. 무엇인가를 설명하기 위한 기초적인 자료 누군가를 설득시키기 위해 필요한 모든 자료들을 데이터라고 말하고 수리적으로 계산하기 위한 대상이기도 하다. 예를 들어 건물의 높이를 측정하기 위해서 높이가 몇 m 이고 넓이는 어느정도라고 말하는 대부분의 숫자들은 우리가 건물의 규모를 이해하기 위해 필요한 숫자들이다. 그리고 그 숫자를 통해서 건물의 가치가 어떻게 된다와 같은 논리적인 내용을 이어가기 위한 내용들이다. 쉽게 이해할 수 있지만 실제로 데이터는 숫자 그리고 간단하게 교환될 수 있는 문자 정도로 구성되어 있다. 대부분이 숫자이고 컴퓨터의 발달로 문서 내용이나 사진, 음원 등과 같은 거의 모든 내용들은 0, 1 로 이루어진 숫자로 표현이 가능하게 되었다.

간단하게 모든 데이터는 숫자로 표현할 수 있게 되었다고 설명할 수 있지만 중요한 것은 이렇게 표현된 숫자들이 우리의 삶에서 중요한 의사결정을 하는데 무엇을 평가하거나 계획하는데 필요한 숫자들이라는 점이다. 조금 과장해서 이 세상이 0, 1 로 이루어졌다고 할 수 없지만 0, 1에 의해 세상이 움직일 수 있다고는 말할 수 있을 것이다. 영화 매트릭스 (1999) 는 우리가 살고 있는 세상도 실제로 존재하는 곳이 아닌 데이터로 이루어진 곳이며 우리는 그것을 인식하지 못하고 살아갈지 모른다고 이야기해주었다. 소위 빨간약 / 파란약의 선택에서 파란약을 먹는다면 예전처럼 살던 모습대로 살아가고 빨간약을 먹게 된다면 매트릭스 그리고 데이터가 만들어 놓은 실제 세상에서 싸우게 되는 것이다. 파란약을 먹고 망각과 평온의 세상을 살게 될지 빨간약을 먹고 자각과 고통의 세상을 살 것인지 선택하게 된다. 매트릭스처럼 모든 것이 데이터로 이루어진 세상에 허구로 살아가는 존재는 아니지만 우리가 무의식 속에서 흘러가는 수많은 데이터들을 인식하게 되는 순간 세상은 우리가 생각하는 것만큼 데이터의 주인은 우리가 아니라는 사실을 알게 될 것이다. 그래서 영화 매트릭스가 우리에게 전해주고 싶은 이야기는 허구 / 실체의 구별이 아니라 우리가 얼마나 많은 데이터를 만들어 내고 개인정보들이 흘러 나오지만 우리는 그 데이터의 흐름을 인식하지 못하고 있는지 알려주고 싶었는지 모른다.

매트릭스 (1999)

다시 정리하자면 데이터는 의미없는 숫자나 정보까지도 모두 다 포함한다. 그러나 데이터가 조건 condition 과 상황 circumstance 과 결합이 되면 개인정보가 될 수 있다. 앞서 설명한 것처럼 약의 개수는 단순한 데이터지만 약을 매일 먹는다는 조건과 약을 7의 배수로 상자에 넣은 상황이 결합되면 오늘 약을 먹었는지 아닌지 알 수 있게 된다. 우리가 민감하게 생각하는 개인정보 privacy 란 데이터와 조건, 상황이 포함된 결과물이다. 모든 데이터가 개인정보는 아니지만 모든 개인정보는 데이터라고 말할 수 있다. 개인정보의 저장, 전달 및 가공의 단계를 고려해서 우리가 만든 데이터들이 얼마나 많은 개인정보로 전달 가공될 수 있는지 생각해 볼 필요가 있다.


Data Tsunami ...

개인은 얼마나 많은 데이터를 만들고 있고 내가 만든 데이터는 모두 나의 개인정보가 되는지 그리고 내가 만들지 않은 데이터가 나의 개인정보가 될 수 있는가 고민하지 않는다. 특별히 내가 만드는 데이터가 많지 않을 것이라는 생각과 함께 내가 만든 데이터가 중요하지 않을 것이라고 생각하기 때문이기도 하다. 그러나 결론부터 말하면 데이터의 가치는 중요하지 않다. 다시 강조하지만 데이터가 어떻게 개인정보를 포함해서 어떻게 중요한 정보가 될 수 있는지는 조건과 상황에 따라서 달라진다. 냉전시대 인터넷이 중요하지 않은 시절에는 인터넷을 연결할 수 있는 정보 그리고 관련된 데이터는 분명 중요하다 못해 극비 데이터였지만 이제는 누가 가지라고 해도 쓸모없는 데이터이다.

가장 많은 실수 중 하나는 데이터를 만들 때부터 중요한 데이터 / 중요하지 않은 데이터와 같이 가치 판단을 해서 선별해서 만들려고 한다는 점이다. 그러나 데이터는 많으면 많을수록 좋고 데이터가 가지는 조건과 상황을 같이 고려한다면 우리에게 중요한 정보들이 만들어 질 수 있다. 따라서 데이터의 초기 생성 단계부터 데이터의 가치를 판단한다는 것은 다이아몬드 원석을 찾으면서 반짝이는 것만을 찾는 것과 비슷하다. 컴퓨터나 전자 기기가 많이 보급되지 않은 시절에는 어떤 데이터를 수집할 것인지 선택해야지만 한정된 자원으로 원하는 데이터를 모을 수 있었지만 이제는 그럴 이유가 없어졌다. 움직이지 않아도 내 곁에 있는 핸드폰은 끊임없이 내가 어디에 있고 (정확하게 핸드폰이 어디에 있고) 필요하다면 어떤 소리가 나는지 어떤 뉴스가 전달되는지 끊임없이 데이터를 주고 받는다. 그리고 그 데이터 안에는 이미 가공되어 가치가 있다고 생각되는 정보들도 많이 전달된다. 예를 들어 가치있다고 믿는 뉴스가 나에게 전달되었을 때 읽지도 않고 그냥 지워버렸다면 지워버리는 행동 안에도 사용자는 아주 잠깐동안 읽었다 (실제로는 읽지 않았다) 지워버렸다는 데이터가 발생하고 이 데이터를 사용자는 해당 뉴스에 대해서 관심이 별로 없다는 정보를 얻을 수 있다. 반복적으로 스포츠 뉴스에 대해서 읽지 않고 지워버린다는 행동들이 데이터로 모이게 된다면 해당 사용자는 스포츠에 대한 관심이 크지 않다는 정보를 얻게 된다.


이처럼 우리는 별 생각없이 움직이고 반응하고 행동하지만 이 모든 행동들은 핸드폰과 같이 수많은 센서들이 있는 기기를 통해서 상상하지도 못하는 수많은 데이터들이 만들어진다. 다른 예를 들어보자. 반대로 거의 모든 차량에 있는 영상기록장치 (블랙박스) 는 데이터인가 개인정보인가 묻는다면 거의 대부분은 개인정보라고 대답할 수 있지만 해당 영상기록이 누구의 것인지 모르게 인터넷에 그냥 떠돌아 다닌다면 그것은 개인정보이기 보다는 그냥 단순한 데이터라고 말하는 것이 더 정확할 것이다. 누군지 알 수 없고 그리고 특별한 사고 기록이 있어서 더 이상 알 필요가 없이 정상적으로 잘 주행한 영상기록이라면 개인정보의 가치를 가지지 않을 것이다. 다만 대부분의 영상기록 데이터는 누구의 것이라 내용을 알기 때문에 바로 '누구의 것'이라는 소유의 조건이 포함되어 개인정보가 되는 것이다.


Privacy manufacturer ...

소위 음란물 영상에서 사람들이 중요하게 생각하는 것이 무엇일까? 이 질문에 정확하게 대답하기 위해서는 음란물을 탐독하고 그들의 세상에서 접근하는 것이 중요하지만 그렇게 하고 있다고 해도 그렇고 그것을 위해 탐독한다고 해도 좀 그렇다. 간접적으로 알 수 있는 방법은 사람들이 많이 찾는 제목이나 내용을 통해서 찾아보는 것이다. 개인의 성적 흥분만을 위해서 음란물이 필요하다면 누군지 알 수 없이 알몸만 나온 영상으로 성적 행위를 보여주면 될 것같은데 음란물을 탐독하는 제목은 이상하게 등장인물에 더욱 집중하는 경향을 보인다. 인종별로 분류하거나 얼굴이 나왔는지 심지어 영상에서는 알 수 없는 두사람의 관계에 대해서도 친절하게 설명한다. 음란물의 가장 큰 문제는 결국 영상 데이터가 누구인지 특정될 identify 수 있는 개인정보가 된다는 점과 정확한지 알 수 없는 그리고 알 필요도 없는 수많은 잘못된 조건과 상황이 결합되어 막기 힘든 개인정보가 되어버린다는 점이다. 음란물이 사회적 문제가 된다는 공감대를 가지는 가장 큰 이유는 개인정보 뿐만 아니라 그 개인정보가 전달 속도와 힘이 무섭다는 점이다.

음란물은 아니지만 우리는 수많은 개인정보를 만들어 내고 있다. 개인은 단순히 데이터를 만들고 있다고 생각하지만 인터넷은 충분히 그런 데이터를 개인정보로 만들고 있다. 우리가 사용하는 많은 인터넷 서비스들은 다른 의미에서 우리가 의미없이 만들어내는 데이터들을 개인정보로 가공하는 공장과도 같다. 예를 들어 인스타그램 Instagram 에 수많은 사진들을 올린다. 올리는 순간에는 단순히 데이터지만 개인의 계정을 통해서 전달되기 때문에 자연스럽게 바로 개인정보가 된다. 반대로 개인을 특정하기 힘든 광고 목적으로 만들어진 계정에서 올린 데이터라면 개인정보라고 보기 어려운 데이터도 존재할 것이다. 자기 가족의 사진을 올리는 경우를 자주 볼 수 있다. 공개로 올린 단란한 사진들 속에는 누가 아버지고 누가 어머니고 누가 자식인지 모두 보여준다. 나쁜 맘을 먹는다면 아이들을 납치하고 정확하게 몸값을 요구해야 하는 부모가 누구인지 알 수도 있고 아버지를 납치하기 위해 자식이나 부인에게 가족여행 당첨되었다며 유인할 수도 있을지 모른다. 심지어 인스타그램을 포함한 많은 소셜 미디어는 태그를 통해서 더 특정할 수 있다. 예를 들어 #지역맘 과 같이 특정 지역이 포함된 그리고 육아를 시작한 인물들을 찾아내기 쉬울 뿐만 아니라 오히려 그렇게 찾도록 스스로 태그를 올리기도 한다. 마음만 먹는다면 특정 지역에 육아에 몰두하는 엄마를 찾을 수도 있고 자식이 어떻게 생겼는지도 쉽게 파악할 수 있다.


반대로 자신이 소비하고 즐기는 생활 수준을 자랑하고 싶을 수도 있다. 물론 그렇게 자랑하는 것이 나쁘다고 할 수 없지만 자랑하고 싶은 소비 수준뿐만 아니라 삶의 동선까지도 쉽게 노출시킨다. 어느정도 그런 부분을 노출시킬 수 밖에 없기도 하고 광고나 홍보 목적으로 사용한다면 적극 노출되게 해야겠지만 개인의 삶까지도 광범위하게 노출시켜야 하는지 의문스럽다. 오히려 그렇게 노출되는 범위는 결국 피해볼 수 있는 위험을 높여주기 때문이다. 미국의 정보기관에 들어간 기쁨에 자신의 계정에 정보기관 신분증을 공개된 계정으로 올린 정말 이해할 수 없는 사람이 있었다. 물론 그 기쁨과 함께 기관 신분증 이미지를 올린 것만으로 바로 해고되었지만 종종 출입증과 같이 중요한 정보를 가지는 데이터를 아무렇지 않게 올리는 사람들이 있다. 친절하게 자신의 사진이나 이름 정도는 지우고 올리기에 개인정보가 아닌 단순히 데이터라고 할 수 있지만 동일 기관에 대한 출입증 이미지만 모아보면 위조 신분증을 만들 수 있는 좋은 데이터가 될 것이다.

개인정보의 노출 위험성을 인식하고 조심하는 대표적인 경우가 택배 도착의 기쁨을 알리는 사진일 것이다. 열심히 자신의 주소, 이름 등 개인정보가 될 것 같은 부분을 열심히 지우고 올리지만 정작 바코드는 너무도 선명하게 보인다. 바코드를 읽어서 해당 택배 회사에서 송장번호로 검색하면 생각보다 많은 개인정보가 나온다는 것을 알게 된다. 열심히 숨겨온 개인의 주소도 노출될 수 있고 개인이 올리는 지역의 정보을 모아보면 개인의 동선 뿐만 아니라 조금 더 노력하게 된다면 개인 거주지까지도 알아낼 수 있다. 가끔 #삭제예정 이라는 태그로 올라오는 공개 사진들을 보면 자신의 계정에서 삭제되면 정말로 인터넷에서 삭제될 것이라고 믿는지 모르겠다. 여러가지 목적이 있지만 이처럼 인스타그램에서 공개된 사진들이 거의 실시간으로 수집된다. 그래서 #삭제예정 이지만 이미 #공개완료 라는 사실도 인식해야 한다.


What machine does better ...

인공지능 Artificial intelligence 이 관심의 중심에 놓이면서 항상 재미처럼 붙는 주제가 바로 인공지능이 빼앗아갈 인간의 직업이다. 어떤 직업은 인공지능에 의해서 사라지게 될 것이다. 어떤 분야는 인공지능이 인간보다 더 잘할 것이라고 예상하지만 아직 제대로 존재하지 않는 인공지능의 직업을 사라지게 할 것이라고 말하기도 한다. 인간의 관심사에는 어떤 직업 job 이 사라지게 되는지가 중요할 것이다. 인공지능의 시대에는 선택하지 말아야 하는 혹은 선택할 수 없는 직업이라고 생각하기 때문이다. 그러나 인공지능 더 현실적으로 보아서 직업의 관점이 아니라 작업 work 더 구체적으로는 작업내용 workflow 의 관점에서 생각해 볼 필요가 있다. 알파고 AlphaGo 가 보여준 것처럼 인간과 기계의 대결에서 누가 이기는지가 중요한 것이 아니라 기계가 인간보다 더 잘하는 내용을 찾아야 하는 것이다. 그리고 기계가 잘하는 작업내용을 통해서 기계에게 양보해야 할 내용은 무엇인지 인간이 계속 해야만 하는 것이 무엇인지 결정해야 한다.

우선 인간의 의사 결정 decision making 과정이 정말 논리적이고 합리적인지 생각해 보자. 회사의 최고 경영자나 나라의 지도자 아주 사소한 결정을 내려야 하는 위치에 있는 어떤 사람들도 자신의 선택이 항상 합리적이라 모든 이들이 이해하고 따를 수 있기를 바라지만 현실의 많은 부분은 그렇지 않다. 처음부터 인간의 의사 결정 과정이 정말 합리적인지 의심해야 한다. 많은 자료를 모으고 어떤 결정이 가장 최선의 결과를 얻을 수 있는지에 대해서 고민하지만 종종 인간의 결정은 아주 사소한 그리고 감정적인 선택을 하게 되는 경우를 종종 보게 된다. 단적으로 모든 인간이 객관적 자료에 의해 합리적으로 모두 결정하게 된다면 누군가를 설득시키는 작업도 회사에서 마케팅의 역할도 크게 필요하지 않을 것이다. 그러나 합리적 판단을 위한 충분한 자료 혹은 데이터를 얻지 못하는 경우도 존재하고 잘못된 데이터 혹은 목적을 가지는 데이터를 통해서 잘못된 선택을 하게 되기도 한다. 경영을 잘하기 위해서 도입되는 경영정보시스템 MIS: Management Information Systems 부터 의사결정지원 Decision making support 시스템은 사실상 인간이 좀 더 합리적으로 판단하기 위해서 필요한 데이터를 어떻게 잘 모을 수 있는지 도와주는 것이다. 그러나 결국 마지막 선택은 그 모든 데이터와 분석에도 불구하고 인간이 한다.

출처: IoT for all - https://www.iotforall.com

그래서 모든 직업에서 이루어지는 구체적인 작업내용 workflow 상에서 데이터를 모으고 분석하는 단계는 기계가 인간보다 더 잘할 수 있다고 생각했다. 그러나 현실적으로 그 모든 데이터들은 대부분 인간이 입력해야 하기 때문에 어떤 데이터를 입력하게 되는지도 인간의 의도 bias 가 들어가게 되었다. 그래서 인간은 데이터를 입력하기 보다는 무엇인가 가치판단이 포함되어 선택된 정보가 입력되기 쉬었다. 즉, 인간에게 가치있어 보이는 정보를 만들기 위한 수많은 데이터들은 인간이 보고, 듣고 (혹은 느끼고) 판단하고 필요한 정보로 만들어서 가공해서 만드는 작업을 중요하게 생각했다. 수많은 데이터가 아닌 인간이 한번 분석해준 정보로 판단하고 싶은 것이다.

예를 들어 '요즘 유행하는 혹은 앞으로 유행할 패션은 어떤 것인가?' 라는 질문을 받게 된다면 패션 종사자들은 사람들이 입고 다니는 옷들부터 전문가들의 의견 등 다양한 데이터 혹은 정보를 얻어 결론을 내고 싶을 것이다. 그러나 만약 분석하려는 인간이 자신이 자주 다니는 장소만으로 선택해서 이 지역이 유행하면 전국적으로 유행할 것이라는 가정을 통해서 한 지역만을 조사하거나 인터넷에 나오는 많은 패션 사진을 찾아 보지만 실제로 자신의 기호 혹은 선호도 preference 없이 객관적으로 사진을 모을 수 있을지 그리고 그 결과가 어떨지는 알 수 없다. 그러나 기계가 이런 작업을 수행하게 한다면 최근 패션에 관련된 사진들과 소셜 미디어에 올라오는 사람들의 일상 속에서의 패션들을 모아서 옷에서 나타나는 수치들 예를 들어 원피스의 경우 위와 아래가 구분되는 비율이나 옷의 형태뿐만 아니라 일상에서 어떤 옷을 입고 어떤 장소에 자주 간다와 같이 옷 뿐만 아니라 관련된 배경정보들까지도 포함해서 포괄적인 데이터를 분석할 수 있다. 뿐만 아니라 거의 실시간으로 데이터를 추가할 수 있기도 하고 인간이 궁금해 하는 부분들도 바로 분석할 수 있는 능력을 가진다. 기계가 인간보다 충분히 잘 할 수 있는 부분은 데이터가 많아진다면 그 데이터를 모아서 인간이 원하는 질문에 대답하기 위한 시간이 절약된다. 예를 들어 야외에 나갈 때 선호하는 패션은 무엇인지 물어본다면 인간은 다시 야외라는 조건을 포함해서 해당되는 데이터를 다시 보아야 하겠지만 기계에게는 그런 데이터를 처리하는 시간뿐만 아니라 결정적으로 인간이 제시할 수 있는 다소 모호한 그리고 광범위한 대답 예를 들어 "내년에는 무채색의 정장 스타일..." 과 같은 내용이 아니라 기계는 명도 채도 그리고 스커트의 길이는 어떤 비율과 같이 수치화 된 quantified 새로운 정보를 제시할 수 있을 것이다.

A P P A R E L – Clothing in the age of data accumulation and machine learning.
원문: https://meson.in/2s1GV4x

결국 기계가 인간보다 더 잘 할 수 있는 작업내용을 생각해보면 역시 데이터를 얻어내고 분석하고 이를 수치화 하는 작업을 우선 생각할 수 있다. 역시 좋은 목적으로 기계의 수집, 분석 능력을 사용할 수 있지만 개인이 인지하지 못하고 만들어 내는 수많은 데이터를 개인정보로 만들어 내는 작업도 분명 기계가 탁월하게 할 수 있을 것이다. 예를 들어 특정 인물이 어떤 곳에 살고 있고 가족 관계가 어떻게 되고 아이는 어떤 유치원에 다니는지 우리는 수작업으로 관음증 환자처럼 찾아내야 하는 작업들을 기계는 아주 쉽게 그리고 죄책감도 거의 가지지 않고 쉽게 할 수 있을 것이다.


Such a trivial data ...

대한민국은 주민등록 번호 하나로 수많은 개인정보를 얻어 낼 수 있는 무서운 국가 중 하나이다. 물론 국가가 국민을 쉽게 통제할 수 있는 수단으로 그리고 어떤 측면에서는 범죄자를 쉽게 찾아낼 수 있는 좋은 수단이라고 변호할 수 있지만 범죄자를 위해서 수많은 비범죄자의 개인정보까지 들춰질 권리까지 국가가 가져야 한다고 주장할 수 없다.

한국에서는 수많은 카페나 공공장소에서 인터넷을 쓸 수 있다. 예를 들어 카페에서 접속할 수 있는 소위 비밀번호 (정확한 의미에서 비밀번호는 아니다.) 를 입력하면 무선인터넷을 사용할 수 있다. 그러나 그와 함께 카페의 내부 인터넷에 들어갈 수 있다 혹은 공유기에 접속한다는 말이다. 그리고 공유기 관리를 위한 페이지에 접근할 수 있다. 공유기의 관리자 암호/패스워드가 기본값이라면 카페 관리자가 아니라도 쉽게 관리화면에 들어가서 수많은 설정을 바꿀 수 있다. 이론상 (그리고 현실상) 외부에서도 접근이 가능하다는 말이다. 그리고 공유기 설정값이 기본값으로 되어 있다면 수많은 공유기에 접근해서 원하는대로 설정을 바꿀 수 있다. 가장 쉽게 DNS 를 바꾸는 것을 생각할 수 있다. DNS 는 인터넷의 주소록이다. [ 인터넷의 주소록 DNS 서비스 ─ 기반기술에 대해서... ] 예를 들어 은행 업무를 위해서 yourbank.com 을 입력할 때 해당 도메인 이름이 어디에 있는 서버인지 알려주는 주소록이 DNS 인데 이 DNS 에서 yourbank.com 가 자신들이 만든 은행처럼 보이는 곳으로 알려주어 접근하게 한다. 잘못된 DNS 정보로 들어간 사용자는 자신은 은행업무를 본다고 생각하지만 가짜 은행 사이트에서 자신의 개인정보를 입력하게 된다.

일반 가정집에서 사용하는 공유기에 중국 (124.94.30.252) 에서 들어오려고 한다. 공유기의 비밀번호 기본값을 통해 들어오려는 시도를 쉽게 볼 수 있다. 

실제로 내부 인터넷에 들어간다는 것은 외부에서 접근하는 것과는 차원이 다른 많은 부분들이 노출될 수 있다. 대표적으로 CCTV 도 들어가서 볼 수 있다. 인터넷을 제공하는 많은 곳에서 이처럼 자신의 공유기를 제대로 관리하지 않거나 CCTV 도 쉽게 기본값으로 들어갈 수 있는 곳을 자주 볼 수 있다. 종종 이런 이야기를 해주지만 대부분의 반응은 "별로 중요한 것도 없는데요." 혹은 "뭐 볼게 있겠어요." 라고 크게 무서워하지 않는 경우가 대부분 이었다. 그러나 대한민국이 아닌 다른 나라에서 이런 가능성에 대해서 이야기하면 상당 부분 놀라는 경우가 많았고 싱가포르와 같은 나라는 자신의 인터넷을 공개하거나 이렇게 위험에 노출시키면 안되도록 규제하고 있다. 권한이 없는 혹은 주인이 아닌 사람이 들어와서 영상 자료를 보는 것이 무엇이 문제일까 싶지만 개인적으로 생각한 창의적인(?) 생각은 노트북 쓰는 사람의 화면이나 키보드 입력 모습을 통해서 충분히 암호도 알아낼 수 있을 것이라고 생각했다. 실제로 공공장소에서 전혀 모르는 사람이 누구인지 그 사람의 소셜 미디어 계정을 찾아내는 방법은 다양하다. 책에 적어놓은 학번 / 이름 을 통해서도 알 수 있고 옆자리에 앉아 로그인하는 화면에서 이름이 누구인지 알 수도 있고 가끔 거울이나 물건 등에 반사되어 보이기도 한다. 지하철에 서서 가면 앞에 앉아 있는 사람이 무엇을 하고 있는지 시력이 좀 더 좋다면 그 사람의 계정 이름도 알아낼 수 있다.


유명한 사람도 아니고 내 개인정보가 뭐 중요하겠어 라고 생각할 수 있다. 대규모 서버에 공격하는 사람들도 많지만 의외로 전혀 들어올 이유가 없는 아주 사소한 서버에도 공격하는 사람들이 많다. 우리가 느끼지 못할 뿐이지 정말 정체를 알 수 없는 수많은 공격자들은 개인 서버인지 그냥 가정집 공유기인지 생각하지 않고 무조건 공격하는 경우를 자주 볼 수 있다. 개인적으로 관리하는 곳들은 모두 공유기에 접근하려다 실패하는 내용을 보지만 만약 공유기 관리 화면에 기본값으로 접근할 수 있다면 아마 공격자들이 의도한대로 접근해서 자신들이 원하는 작업을 했을 것이다.


How to protect privacy ...

무선랜을 사용하기 위해서 무선랜 비밀번호를 입력한다고 말하지만 정확히 이는 비밀번호는 아니다. 내가 접근하고 싶은 무선랜 이름 (SSID: service set identifier) 를 선택하면 네트워크 보안 키 를 입력하라고 나온다. 소위 '무선랜 비밀번호'는 키 key 이다. 간단하게 설명하면 우리가 입력하는 '비밀번호'는 무선랜을 써도 좋다는 허락을 위한 암호가 될 수도 있지만 사용자의 기기와 공유기가 데이터를 주고 받을 때 전달되는 데이터가 암호화가 될 수 있는 열쇠와 같은 것이다. 예를 들어 내가 데이터를 보낼 때 가장 먼저 공유기에 전달이 되어야 하는데 공유기에 전달되기 전에 내가 보내는 데이터를 '미리 정한(공유한) 키 Pre-Shared Key' 를 통해서 암호화를 해서 보내니 공유기 너는 이 키를 가지고 암호화한 데이터를 풀어서 받아 라고 규칙을 정한 것이다. 간단히 정리하면 사용자의 기기와 공유기 사이에 전달되는 데이터가 암호화하기 위한 것이다. 그래서 공개되어 '비밀번호가 없는' 무선랜은 그 사이에 전달되는 데이터가 암호화되지 않은 상태로 전달된다는 것이다.

데이터가 암호화되고 암호화되지 않은 것에 대해서는 조금은 민감할 필요가 있다. 옛날에는 안방에서 엄마가 전화하고 있으면 다른 방에서 수화기를 몰래 들어 통화를 감청(?)할 수 있었다. 마찬가지로 두 사람이 통화하는 중간 어딘가 똑같이 신호를 받아서 들을 수 있다면 같은 집 수화기를 통하지 않고도 들을 수 있다. 인터넷 데이터도 마찬가지이다. 암호화되지 않은 데이터는 어딘가에서 똑같이 받을 수 있다. 즉, 전달과정에서 동일한 데이터를 여러 곳에서 얻게 된다. 암호화가 되지 않았다면 내가 보내는 데이터 - 채팅 내용, 비밀번호, 주소록 등 - 모든 데이터 내용이 그대로 알아 볼 수 있는 형태로 얻게 된다. 그러나 만약 보내는 A 와 받는 B 둘만이 어떤 키를 가지고 있고 A 가 그 키를 통해서 보내는 데이터를 암호화해서 보내고 B 는 받은 데이터를 미리 공유된 키를 가지고 암호를 풀면 (복호화) 아무리 중간에 데이터를 얻게 된다고 해도 중간에서 데이터를 몰래 볼려고 한 사람은 암호화되어 알아낼 수 없는 데이터만 얻게 되는 것이다. 그래서 공개된 무선랜에 접속해서 인터넷을 쓴다는 것은 최소한 같은 공유기 내에 있는 사람에게는 암호화되지 않은 데이터를 누군가 몰래 볼 수 있다는 말이다.


인터넷에서 데이터 암호화는 상당히 중요하다. 그래서 이제는 거의 모든 웹서비스는 기본적으로 데이터 암호화 기술을 적용해서 사용하게 한다. 인터넷 주소창에 http:// 로 시작하는 주소와 https:// 로 시작하는 주소를 볼 수 있다. http:// 는 공개된 무선랜이라 생각하면 된다. https:// 는 사용자와 서버 사이의 데이터를 암호화해서 전달한다고 생각하면 된다. 다시 말해 http:// 를 보고 입력하는 정보들은 전달되는 과정에서 암호화되지 않은 상태 그대로 누군가에 의해 노출될 수 있다. 반면 암호화가 되어 있는 서버 사이에서는 내가 입력한 정보들은 암호화가 되어서 중간에서 데이터를 가져가도 암호화된 데이터만 가져가 제대로 된 키가 없다면 제대로 된 정보를 얻어낼 수 없다. 그래서 암호화된 주소 https:// 를 가지는 웹서비스만 사용하도록 습관을 가지는 것이 좋다. 조금만 관심을 가지고 보면 알겠지만 대부분 주요 서비스들은 암호화는 기본이고 데이터 암호화 통신의 중요성을 인식하고 있는 단체를 중심으로 개인들도 암호화를 쉽게 그리고 비용없이 적용할 수 있도록 도와주고 있다. 가장 대표적인 곳이 Let's Encrypt 이고 개인도 간단한 설정만으로 적용할 수 있다. 그리고 많은 기업들은 데이터 암호화가 기본이 될 수 있도록 필요한 비용과 지원을 하고 있다. 그만큼 우리가 일상적으로 사용하는 데이터가 누군가에 의해서 탈취당해서 악의적으로 사용될 가능성, 아무리 '사소한' 개인의 데이터라고 해도 보호되어야 한다는 철학을 가지고 있는 것이다.


데이터 암호화가 적용되었는지 아닌지 살펴보면서 인터넷을 돌아다니다 보면 대한민국의 주요 기업들은 여전히 부족하다는 것을 알게 된다. 심지어 인터넷이 사업의 중심인 회사들조차도 자신의 서비스를 제대로 된 암호화를 제공하지 않고 서비스하는 것을 볼 수 있다. 알 수 없는 회사의 심오한 경영 철학이 있다면 할 수 없지만 개인 데이터의 중요성을 누구보다 잘 알고 있고 그런 사용자의 데이터가 어떤 기업보다 기업 경영의 자산인 기업에서 이렇게 보호되지 않는 웹서비스를 한다는 것은 조금 이해하기 어렵다. 뭔가 이해할 수 없는 심오한 그리고 기술적 진보로 암호화되지 않은 인터넷 환경에서도 개인의 데이터를 보호할 수 있는 최첨단 기술이 존재할 것 같지도 않다.


Less better than more ...

보안에서 한가지 원칙은 자신의 민감한 정보들은 자주 입력하지 않는 것이다. 예를 들어 브라우저에 비밀번호를 저장하고 들어갈 때마다 브라우저에서 비밀번호를 넣어주는 것과 들어갈 때마다 사용자가 비밀번호를 입력하는 것 중에서 어떤 것이 더 안전한지 묻는다면 대부분 브라우저에 자신의 비밀번호가 저장되어 있다는 사실때문에 매번 비밀번호를 입력하는 것이 더 안전할 것이라고 생각할 수 있다. 그러나 사용자가 키보드나 터치스크린을 통해서 입력하는 과정에서 발생할 수 있는 시각적인 해킹 - 사용자가 키보드를 입력하는 움직임을 통해서 비밀번호를 알아내는 - 이나 키보드 로그 - 키보드의 기록값을 몰래 저장하는 - 를 통해서 유출될 가능성이 있다. 그러나 브라우저에 저장된 비밀번호를 바로 암호 입력부분에 넣게 된다면 최소한 키보드 입력에 의한 위험성은 줄일 수 있다. 그러나 여기에서 더 중요한 부분이 있다. 사용자가 기억할 정도의 비밀번호는 두가지 위험성을 동시에 가지고 있을 가능성이 높다. 첫번째는 자주 쓰는 비밀번호가 한두개 정도 심지어 아예 동일한 비밀번호를 사용하고 있다면 다른 웹서비스에서 유출된 비밀번호가 바로 다른 웹서비스에서 사용될 수 있게 된다. 그리고 사용자가 입력을 매번 할 수 있다는 것은 사용자가 기억하고 있다는 것이다. 사용자가 기억할 수 있는 memorable 비밀번호란 어느정도 유추할 수 있는 비밀번호일 가능성이 높다.


그래서 비밀번호는 아예 사용자가 모르는 것이 가장 안전할 수 있다. 문제는 자신의 비밀번호인데 자신이 모르고 기억하지 못한다는 것이 말이 안되는 소리같다. 브라우저가 비밀번호를 저장하고 있듯이 비밀번호만 대신 저장해서 관리해주는 프로그램도 가능하다. 접속하는 웹서비스에 맞는 사용자 이름 / 비밀번호를 저장하고 있다가 필요한 항목에 사용자 이름 / 비밀번호를 대신 입력해주는 것이다. 사용자가 입력할 필요가 없다. 만약 각 웹서비스 별로 비밀번호를 저장할 수 있다면 비밀번호를 기억할 필요도 없고 얼마든지 길게 그리고 복잡하게 비밀번호를 입력해도 괜찮다. 다만 비밀번호를 관리하는 프로그램을 실행시키기 위한 비밀번호는 기억하고 입력해야 할 것이다. 모든 웹서비스의 비밀번호가 모두 다르다면 한 웹서비스에서 유출된 자신의 비밀번호를 걱정할 필요가 없을 것이다. 유출된 비밀번호를 통해 다른 웹서비스에 들어갈 수 없기 때문이다. 좀 더 보안에 신경쓰기 위해서는 2차 인증 2-step verification 을 사용하는 것이다. [ 인터넷 보안 - 나의 계정을 지키자 ]

공용 컴퓨터를 자주 사용하기 보다는 정해진 기기에서만 접속할 수 있다면 좋을 것이다. 자주 개인정보가 입력될 수록 분명 노출될 가능성은 높아지기 때문이다. 공용 컴퓨터는 특히 어떤 악의적인 프로그램이 설치되어 있을지 데이터 전달을 위한 안전한 환경인지 확인할 수 없기 때문이다. 인증을 위한 다양한 방법을 제시하는 것도 좋다. 로그인을 하면 2차인증을 통해서 다시 한번 확인할 수 있지만 등록된 스마트폰에 간단한 메세지를 보내 로그인을 위해 확인하는 방법도 있고 확인 메일을 보내서 메일에 포함된 확인 주소를 통해서 인증해서 들어갈 수 있다. 모든 방법들은 사용자의 편의를 위한 부분도 있지만 만약 비밀번호가 유출되었다고 해도 본인을 인증할 수 있는 다양한 방법으로 본인이 아닌 다른 사람의 접근을 막기 위해서이다. 사실 2차인증도 완벽하게 안전하다고 말할 수 없다. 가장 창조적인 방법으로 이미 유출된 개인 아이디와 비밀번호를 통해서 접근을 하고 SMS 로 2차인증 번호를 보내주는 계정의 통신사 SMS 서버를 해킹해서 중간에 2차인증 번호를 받아서 이를 입력해서 들어간 경우도 있었다. 더 강화된 다양한 기술을 적용하지만 최소한 진짜 사용자가 접근하는 모든 방법을 그대로 수행한다면 들어가는 것을 막을 수는 없을 것이다.

그렇다면 이렇게 애쓰며 남의 계정을 들어가려고 하는 것일까? 그 속사정을 알수는 없지만 무엇인가 이득이 있기 때문에 그렇게 애쓴다고 할 수 있을 것이다. 가장 쉽게 볼 수 있는 경우는 광고용으로 사용하기 위해서 타인의 계정에 들어가는 것이다. 이미 만들어진 계정이고 자신의 신분을 효과적으로 숨길 수 있고 유출된 비밀번호라면 특별히 계정을 만드는 것보다 더 안전하기도 하기 때문이다. 그리고 자신의 계정으로는 쉽게 올리기 힘든 강도높은(?) 광고들도 올리고 계정이 삭제되더라도 괜찮기 때문이다. 그리고 여러개의 계정을 가진다는 것은 그만큼 접속 회수를 늘릴 수 있는 도구로 사용될 수 있다는 것이다. 이해할 수 없지만 좋아요 ♥ 가 많이 달린 개시물에 대해서는 알 수 없는 신뢰를 보인다. 다수가 좋아하는데 무슨 문제있겠어 혹은 다수가 인정하니깐... 과 같은 요소는 우리가 냉정하게 판단하기 보다는 처음부터 편향된 방향으로 생각하기 쉽도록 만들거나 특별히 큰 관심을 가지지 않는 부분도 거의 유일하게 신뢰할 수 있는 것은 다수의 긍정이라는 사실이라고 믿기 때문에 타인의 수많은 계정을 동원해서 좋아요 숫자만 올리는 것으로 광고효과가 좋다고 믿는 이들에게는 다수의 계정을 확보하는 것이 중요할 것이다.


Data is flowy ... Information is ...

우리가 인식하지 못한 상태에서 수많은 데이터를 만들어 내고 있고 그 데이터는 우리의 의도와는 다르게 사용되기도 한다. 그 모든 순간에도 생각해 볼 부분은 바로 데이터는 흐름이라는 점이다. 숫자 혹은 단순한 문자에 불과하다고 생각할 수 있지만 데이터는 흐름이 존재할 때 더 많은 가치를 가질 수 있는 가능성을 가지게 된다. 그래서 많이 사용되는 데이터일 수록 정보에 더 많은 영향을 줄 수 있는 가능성이 높고 그만큼 중요한 데이터가 될 수 있다. 그래서 데이터는 가치판단 뿐만 아니라 옳고 그른 판단을 내릴 수 없다. 숫자 3.141595 가 나쁘다라고 말할 수 없기도 하지만 심지어 '살인'이라고 해도 '가족을 지켜내기 위해서 강도를 살인하다' 라고 한다면 살인 하나만으로 나쁘다고 말할 수 없기 때문이다.

그만큼 데이터란 우리에게 알려주는 정보의 단편 혹은 아직 분석되지 않은 사실의 흐름일 뿐이지 그 데이터가 우리에게 좋다 나쁘다를 말해줄 수 없다. 문제는 데이터를 어떻게 관리하고 어떻게 통제하는가의 문제이다. 유리한 데이터만 보여주고 불리한 데이터는 감춘다고 해도 데이터는 흐름을 가지기 때문에 데이터의 흐름이 끊어진다면 우리는 그 데이터를 신뢰할 수 없게 된다. 큰 범위에서 의도적으로 조작된 데이터는 항상 스스로 잘못된 부분을 알려주기 마련이다. 일부러 감추려는 데이터는 그 흐름이 인위적으로 끊길 수 밖에 없기 때문이다. 이러한 데이터의 특징을 잘 모르고 감추기 위해서 데이터를 조작하거나 숨기는 것은 자신에게 유리한 / 불리한 데이터가 존재한다고 가치판단을 하기 때문이다. 조작된 데이터를 보여줄려고 한다면 차라리 아무것도 공개하지 않는 것이 숨기려는 자들에게는 최선의 선택이라는 것 아니면 모든 것을 그대로 밝히는 것이 가장 좋을 것이다.


그래서 데이터란 숨기고 보여주지 않으려고 하고 데이터의 관리를 통제하려고 하는 것보다 투명하게 공개하는 것이 중요하다. 그런 의미에서 있는 그대로의 데이터와 그 데이터의 흐름을 숨기지 않으려는 것을 투명성 transparency 라고 한다. 2000년대 말 사용자의 개인정보를 관리하는 기업 특히 구글을 중심으로 해서 데이터의 투명성이 중요하다고 강조했다. 구글 투명성 보고서 페이지에 소개된 투명성에 대한 간단한 설명은 다음과 같다.

"정부 및 기업의 정책과 조치가 개인정보 보호, 보안, 정보 이용에 미치는 영향을 보여주는 데이터를 공유합니다." 
"Sharing data that sheds light on how the policies and actions of governments and corporations affect privacy, security, and access to information."

결과적으로 공유 (제공) 하는 것은 데이터이다. 그 데이터의 성격은 정부 및 기업의 정책과 조치가 개인정보, 보안, 정보 이용에 미치는 영향을 보여준다. 간단하게 설명하면 정부가 요구해서 어떤 범죄 의심자의 위치, 지역이나 관심 분야 등과 같은 개인정보를 얼마나 제공했는지 그리고 그 이유는 무엇이였는지 알려주는 것이다. 그리고 어떤 이유에서 개인이 올린 데이터를 삭제했는지 서비스 장애에 의해서 개인이 제대로 데이터를 관리할 수 없는 순간은 없었는지 보고하는 것이다. 다양한 내용들이지만 서비스 전반에 걸친 모든 데이터의 흐름이 어떻게 진행되고 있는지 데이터의 흐름에 영향을 줄 수 있는 모든 상황 / 조건을 공개한다는 것이다. 중요한 점은 데이터의 흐름을 막거나 통제하는 것이 아니라 가급적 데이터가 잘 흐를 수 있도록 하고 그 과정에서 그 흐름을 막거나 바꿔야 하는 경우가 있었다면 그 이유와 결과를 보고하는 것이다. 따라서 투명성이란 개인정보가 어떻게 어디로 흘러갈 수 있는지 확인할 수 있는 중요한 부분이다.

NGO 단체인 국가투명성기구 (Transparency International‎) 는 국가의 청렴도 반대로 부패지수를 발표한다. 부정부패는 사회나 국가에서 인간을 억압하고 고통을 주는 요소라고 생각한다. 정직하게 생각하고 이를 행동하려고 해도 부정부패가 만연해 있다면 제대로 자신의 양심대로 살아가기 어려울 뿐만 아니라 대부분 희생자가 될 것이라는 점이다. 그리고 부정부패의 가장 큰 적은 부정부패의 상황을 제대로 밝히지 않고 숨기기 때문이라고 보았다. 그래서 국가의 투명성은 부정부패의 정도를 알려서 얼마나 많은 비정상이 존재하는지 알리는 것이라고 본다. 웹서비스도 비슷하다. 좋은 웹서비스가 존재하고 사용자들이 잘 사용해 유용하다고 해도 자주 서비스가 중단되거나 소수의 이익만을 위해서 운영되면 안되기 때문이다. 어떤 문제도 발생하지 않는다면 좋겠지만 완벽할 수 없다면 문제가 되는 부분을 공개하는 것이다. 그리고 문제가 되는 부분을 투명하게 사용자들이 알게 된다면 자신이 사용중에 발생한 문제가 자신의 문제인지 서비스의 문제인지 파악할수도 있을 것이다. 투명성이란 모든 이들이 사용하는 서비스 그리고 그 과정에서 발생하는 모든 데이터에 대한 흐름을 파악할 수 있도록 해줘야 한다는 생각이다.


GDPR ...

요즘은 메일함에서 GDPR 에 대한 메일을 쉽게 본다. GDPR 는 General Data Protection Regulation 의 약자로 유럽연합이 유럽전역을 우선 대상으로 적용하는 '일반 개인정보보호 규정'이라 부른다. 그러나 General 을 그대로 해석해 일반이라고 표현하지만 적극적으로 일반이 아닌 '모든' 혹은 '통상' 이라고 부르는 것이 더 정확할 것 같다. 다시 말해 특별한 조건이 붙지 않는다면... 데이터의 관리, 처리에서 발생하는 문제는 누구의 책임인지 그리고 그 역할에 대해서 정의내리고 있다. 물론 유럽연합에 적용되는 규정이기 때문에 타 지역에서 지키지 않아도 되겠지 싶지만 데이터는 흐름이고 그 흐름에는 특별히 국경의 의미가 존재하지 않는다는 점 그리고 전략적으로도 유럽은 상당수의 데이터의 관리 주체라는 점에서 실질적으로 유럽연합의 적용은 전세계의 적용이나 다름없다. 뿐만 아니라 이 규정에서는 우선적으로 '확장된 영토 적용 범위'를 통해서 지리적 구분이 중요한 것이 아니라 데이터의 흐름이 중요하다고 강조하고 있다.


GDPR 에서 제시하는 중요한 개념에는 Controller Processor 가 있다. Controller 는 '정보통제자' 혹은 '정보관리자' 라고 해석하기도 하고 Processor 는 '정보처리자' 혹은 '정보가공자' 라고 해석하기도 한다. 그냥 컨트롤러 / 프로세서 라고 그대로 쓰기도 한다. 한국어 번역의 기본 내용이 없어 그대로 컨트롤러 / 프로세서로 표현한다. 컨트롤러란 개인정보를 포함하여 개인이 만들어내는 데이터의 수집, 관리 그리고 광범위한 범위에서의 삭제까지 포함하는 데이터 / 개인정보를 어떤 방식으로 관리해야 하는지 책임의 범위를 확대했다. 개인 계정의 해킹에 의해서 노출된 개인정보라면 그 책임이 누구에게 있는지 범위를 확대하고 컨트롤러가 다양한 수단을 사용하려고 노력했지만 어쩔 수 없음을 증명하지 못한다면 컨트롤러의 책임이 있다는 점을 강조했다. 프로세서는 개인정보를 분석, 가공하는 과정에서 필요한 원칙과 역할을 제시했다. 그리고 무엇보다 어떤 과정에서 개인정보 유출되었을 때 적절한 통지를 해야한다. 예전에는 투명성을 통해서 데이터의 흐름을 파악할 수 있도록 했다면 GDPR 이후에는 개인정보가 유출되거나 남용되는 순간에 개인이 바로 알 수 있도록 알려야 한다. 그래서 개인정보의 주체는 권리가 확대되어 개인이 필요하다면 자신의 개인정보의 보관 삭제에 대한 적극적인 권리를 행사할 수 있도록 보장한다. 즉, 개인정보를 지우고 싶다면 개인정보를 보관, 관리, 가공하는 주체들이 이를 실행하고 이 결과를 개인에게도 알려야 한다.


이 정도 내용이라면 개인의 권리는 증가하고 기업은 불리해지는 것은 아닐까 생각하지만 중요한 점은 개인이라도 충분히 컨트롤러나 프로세서가 될 수 있다는 점을 생각해야 한다. 만약 내가 인터넷에서 우연히 얻은 개인정보를 통해서 분석을 한다고 해도 그 개인정보의 주체가 요구한다면 아무리 상업적 목적이 아니라도 그 요구를 들어주어야 한다. 심지어 개인 서버를 운영하고 있고 개인이 접속해서 남긴 다양한 개인정보 - IP 주소, 지역 등 - 에 대해서 수집하는 순간 개인도 컨트롤러가 바로 된다. 결국 기업 / 개인을 위한 규정이 아니라 어떠한 데이터를 얻고 처리하고 살아가야 한다면 이 규정에 적용받지 않을 수 없다는 것도 인식해야 한다. 결국 개인정보에 대한 중요성을 강조하게 되면서 수많은 데이터의 흐름에 대해서 민감하게 인식해야 하는 세상이 되었다.


Cannot be too sensitive ...

전세계의 거의 모든 데이터를 감시하고 테러와 같은 위험을 알아내서 미리 막을 수 있다면 자신의 개인정보도 기꺼이 제공할 수 있는지 묻는다면 어떻게 대답할 것인가? 역설적으로 데이터를 통해서 테러를 막을 수 있다는 생각은 실제로 데이터가 얼마나 중요한 것인지 심지어 현실에서의 행동까지도 미리 막을 수 있다는 뜻이고 이는 데이터 그리고 개인정보는 우리가 생각하는 것보다 높은 생명력(?)을 가지고 있다는 뜻이다. 개인정보는 우리의 삶과 연결되기도 하고 나쁜 목적이라면 한사람의 삶까지도 좌우할 수 있는 무서운 정보이다.

실제로 온라인에서만 이야기를 나누던 상대방에게 화가 나서 마음 먹고 상대방의 실제 거주지와 동선을 파악해서 살인을 했다는 이야기부터 앞서 이야기한 것처럼 가족관계나 사람들에게 협박이 될 수 있는 다양한 정보들을 통해서 두려움에 떨게 만들 수 있기 때문에 개인정보는 충분히 생명력을 가지고 있다. 그리고 생명력이란 타인에게 위협이 될수도 있고 실체하는 physical 위험이 될 수 있기 때문에 스타워즈 1편의 제목인 '보이지 않는 위험 The Phantom Menace' 이 될 수 있다. 현실에서도 인간을 가장 두렵게 만드는 것은 당장 눈앞에 있는 공포나 위험일 수 있지만 단순한 정보 그리고 그 정보에서 나오는 가능성이 큰 공포와 두려움을 만든다. 그리고 인간은 그 공포와 두려움을 피하기 위해서 비논리적인 행동도 하게 된다.


그래서 우리의 개인정보들에 대해서 아무리 민감하게 생각해도 지나치지 않는다. 물론 지나친 생각으로 그 자체가 두려움이 되어 공포 안에서 살아가라는 뜻이 아니라 잘 대처하기 위해서 데이터의 본질과 흐름을 파악하고 개인정보가 어떻게 만들어지고 어떻게 노출될 수 있는지 상식처럼 알아 놓는다면 자신도 모르는 본인의 개인정보로 피해를 보기 전에 대처할 가능성이 높아질 것이다.


Who owns privacy ...?

개인정보는 누구의 것인가? 개인이 보관하고 관리하는 개인의 것이지만 프로세서 Processor - 정보가공자가 만들거나 찾아낸 혹은 분석해서 밝혀진 개인정보라면 그 정보는 누구인지 설명하기 어려울 때가 있다. 예를 들어 자신이 올린 위치 정보가 없는 사진들을 통해서 누군가 사진의 배경이나 주변 정보를 통해서 '누가 사는 곳은 어디이다' 라는 개인정보를 알아냈다면 해당 개인정보는 누구의 것인지 생각해야 한다. 즉, 데이터가 수없이 만들어지고 데이터가 가공되는 과정에서 해당되는 개인들도 인식하지 못하는 정보들은 누구의 것이며 만약 분석한 주체와 상관없이 해당 개인정보 당사자의 것이라고 한다면 당사자는 어떻게 자신도 모르지만 만들어진 개인정보가 있는지 그리고 삭제하고 싶다면 어떻게 할 수 있는지 쉽지 않은 문제이다.

그래서 소위 '잊혀질 권리'를 이야기하지만 정작 잊혀질 권리를 주장할 수 있는 개인정보가 어디에 어떻게 저장되어 있는지 본인도 제대로 확인할 수 없고 검색되지 않는 개인정보는 처리할 수 있는 방법이 없다. 그렇기 때문에 개인정보를 관리하고 가공하는 주체를 나누고 각자의 역할과 책임을 설명하고 있는 유럽연합의 GDPR - 일반 개인정보보호규정 은 지키지 못하거나 책임을 다하지 못한 상황에서 과징금이나 개인 피해에 대한 보상 규정도 포함한다. 그러나 실질적인 문제는 자신이 관리하지도 않는 개인정보를 어디에 있는지 알기 어렵다. 예를 들어 환자의 임상 데이터를 모아서 의학 발전에 도움이 되도록 모을 때 환자가 누구인지 알 수 있는 내용을 제거해서 개인정보였던 내용이 임상 데이터가 된다. 즉, 개인정보에서 개인이 누구인지 알 수 없게 하지만 임상에는 도움이 될 수 있는 데이터로 만드는 것이다. 문제는 제대로 제거했는지 확인하지 못한 상태에서 다른 기관에 임상 데이터를 넘기는데 개인정보가 제거되지 않은 상태로 넘어갔을 때 우리에게 넘어온 임상 데이터가 '당신의 개인정보가 포함되었다' 라고 당사자에게 알려준다면 환자의 의료 정보를 수집한 기관에서 제대로 데이터의 관리를 하지 않았다는 것을 동시에 알리게 된다.


데이터는 흐름이기 때문에 그 흐름에서 누구의 책임인지 찾는 것은 의외로 쉬울 수 있지만 그때 누가 어떤 책임을 가지며 어떤 처벌을 받을 수 있는지는 신중하게 생각해야 한다. 개인정보가 포함된 임상 데이터를 받았을 때 신고하면 신고한 기관은 책임을 면할 수 있다고 해도 그 데이터를 전달해준 기관은 자동으로 책임을 지게 되기 때문이다. 그래서 이런 실수를 제거하기 위해서라도 데이터와 개인정보를 구별하고 정의할 수 있는 방법이 필요하다. 앞서 설명한 것처럼 데이터를 통해서 개인정보를 찾아내는 일을 인간보다 기계가 잘 할 수 있다면 반대로 받은 임상 데이터에서 개인정보가 포함되어 있는지 확인하는 방법도 인간보다 기계가 더 잘 할 수 있을 것이다. 기계에게 임상 데이터를 받게 되었을 때 알 수 없는 환자가 누구인지 알아낼 수 있다면 알아낼 때 단서가 되는 데이터를 제거해서 개인정보가 사라진 임상 데이터로 만들면 되기 때문이다.

역설적으로 데이터에서 알아낼 수 있는 수많은 개인정보들도 기계가 잘할 수 있지만 동시에 개인정보를 찾아낼 수 있는 심지어 그 단서까지도 포함해서 개인정보를 잘 처리할 수 있는 역할을 기계가 잘할 수 있다는 점이다. 이를 응용한다면 사람이 검색과 수작업을 통해서 찾아내고 판단해야 하는 개인정보를 기계가 스스로 학습해서 개인정보를 효과적으로 제거할 수 있다. 가장 대표적인 예는 지도 서비스에서 나오는 수많은 차들이나 사람들의 얼굴 그리고 개인정보로 노출 될 수 있는 많은 개인정보들을 자동으로 흐리게 만들어서 알 수 없도록 하는 것이다. 앞서 예를 들었던 환자의 의료 정보들도 의학적 의미를 살릴 수 있는 수준까지 임상 데이터를 살리고 그 외에 불필요한 정보가 무엇인지 인간보다 더 잘 판단해서 제거할 수 있게 된다.


Human, citizen, ... Identity ...

인간에 관한 권리에 대해서 하나의 문장으로 정리하기 시작한지 그렇게 오래되지 않았다. 정말 반세기 전에는 흑인, 백인이 분명히 구별되어 차별받았던 시절이였고 여성의 참정권이 보장된 것도 그리 오래되지 않았다. 자신이 선택할 수 없는 내용으로 차별을 받지 않아야 한다는 소극적인 형태의 차별금지를 떠나서 자신의 신념, 생각과 같이 스스로 선택했던 것이 인류에 해를 줄 목적이 아니라면 그 어떠한 생각조차도 차별의 대상이 될 수 없다고 해도 여전히 차별과 협오의 시대를 살고 있다. 그러나 조금씩 그 의미에 대해서 고민하고 공론화되면서 다양한 분야에서 그런 차별의 요소를 줄이고자 하는 노력들은 분명 인류의 진보라고 믿게 된다.

예전에는 상상하기 힘들었던 동성애의 사랑을 이제는 드라마에서 쉽게 볼 수 있고 (대한민국은 여전히 아니지만...) 그런 삶의 모습도 우리의 주변에서 일어나는 일들이라고 긍정적으로 받아들일 수 있게 되었다. 그래서 현대 사회에서의 인권이란 우리의 상상력이 어떻게 작용하냐에 따라서 그 범위가 달라질 수 있다. 사회의 변화 이제는 기술의 변화로 인간의 삶이 달라지고 그 결과 얻어지는 모습들이 달라지기 때문에 그런 변화에서 만들어지는 다양한 인권의 범위도 확대해야 하는 것이 사실이다. 그러나 종종 기술이 만든 다양한 모습에 법이 따라가지 못하는 경우를 보면 법이나 규제가 가져야 하는 유연성에 대해서 적극적으로 고민해야 할 시점이라고 본다.


인간에 대한 인권만으로 설명하기 힘들어서 국가 사회에서 시민으로 가지는 권리로 시민권을 생각하게 되었듯 기술의 발달로 만들어지는 개인정보와 데이터에 대한 고민을 통해서 인간이 데이터없이 살아갈 수 없는 그리고 그 데이터로 피해를 보고 때로는 이득을 보는 현실 세상에서 개인정보에 대한 범위까지 포함할 수 있는 정체성을 가지는 자아로 설명될 수 있는 어떤 권리 장전이 필요한 시점이라고 느낀다. 많은 경우 진보적인 생각을 가진 이들과 그런 생각이 필요없는 기득권 사이에서의 계급투쟁으로 얻어지고 그 과정에서 많은 희생이 필요했던 것도 사실이지만 분명 필요한 것은 변화하는 모습에 대해서 어떤 모습의 인간이 더 행복할 수 있는 가능성이 높은지 고민하는 과정일 것이다.

그 과정 속에서 기계 혹은 인공지능으로 대변되는 기계 기술이 영화 터미네이터 (1984) 에서 그려지듯 인간을 억압하는 존재가 아니라 인간의 권리와 확대되는 정체성을 보호할 수 있는 장치로 작용할 수 있기를 바란다. 그리고 그런 작업에서 인간보다 기계가 넓은 범위에서 더 잘 할 수 있다면 기계학습을 통해서 개인정보를 어떻게 보호할 수 있을지 고민하는 것도 필요하다고 본다. 그리고 어쩔 수 없이 수많은 데이터 속에서 작업해야 하는 인간에게 그런 개인정보를 보호할 수 있는 도구로 인공지능이 활용된다면 인간의 직업을 빼앗는 인공지능이 아니라 인간이 특별히 고민하지 않고 좀 더 창의적인 내용에 더 투자할 수 있도록 잡일들을 처리해줄 수 있는 조력자로 인공지능이 존재하고 인간의 직업을 차지하는 역할이 아닌 인간의 작업내용을 더 효율적으로 처리할 수 있도록 도와주는 존재가 될 것이라고 본다.

그렇게 인공지능이 인간에게 도움이 될 수 있는 존재가 될 수 있기를 바란다면 우선 데이터와 개인정보로 넘쳐나는 현실에서 신경쓰이는 수많은 데이터 처리와 개인정보 보호의 역할을 충실하게 수행할 수 있는지 그렇게 도와줄 수 있는 기술의 형태는 어떻게 되어야 하는지 생각해야 할 것이다.


데이터와 개인정보의 시대 ─ 인간이란 무엇인가