2008년 한 익명의 트위터 이용자가 이런 트윗을 올렸다. “난 절대 지루하지 않아. 너무 바빠! 기분 죽인다!”
그게 전부였다. 다 좋다는 얘기. 그 친구와 팔로워들이나 이해할 수 있을 뿐, 대다수 트위터 이용자들에게는 무의미하기 짝이 없어 보이는 방백. 그러나 인디애나 대학 (블루밍턴)의 조한 볼렌 (Johan Bollen) 교수는 그렇지 않다고 말한다. 정보과학과 컴퓨터 과학을 가르치는 볼렌 교수는 2008년 봄과 여름에 올라온 모든 트윗 데이터를 분석해, 트위터 이용자들의 집단적 기분 변화가 전국적 행사나 사건과 일치한다는 점을 발견했다. 추수감사절 기간에는 행복 지수가 높아지는 식이었다. 영국의 시사주간 신문인 이코노미스트는 볼렌의 연구가 또 다른 주목할 만한 특징을 포착했다고 보도했다. 트위터 이용자들의 전체적인 기분의 변화와 다우존스 산업 평균 주가 (DJIA)의 변화를 비교한 결과, 그가 설정한 일곱 가지 감정 중 ‘불안감’이 우세한 경우 그로부터 약 사흘 뒤에 주가 지수가 낮아진 것이다. 그 이유는 아직 불분명하지만 한 가지 가능한 설명은 주식 매매자들이 불안감을 느끼면 주식 시장에서도 위험한 위치에서 빠져 나오려는 성향을 보이리라는 것이다.
볼렌 교수가 이 연구를 통해 개발한 알고리즘은 지난 2월 ‘컴퓨터 과학 저널’(Journal of Computational Science)에 소개됐고, 대규모 헤지펀드 회사인 더웬트 캐피틀 마켓 (Derwent Capital Markets)에 그 사용권이 팔렸다. 더웬트는 이 알고리즘을 실제 투자 결정에 활용할 계획이다.
트위터. 끝없는 방백, 독백, 대화, 논쟁의 물결. 혹은 데이터의 물결.
이코노미스트의 보도에 따르면 소셜미디어 데이터를 수집, 분석해 여러 시장 환경에 적용하려는 움직임은 더웬트만이 아니다. 미국 캘리포니아 주 어바인에 있는 와이즈윈도우(WiseWindow)라는 마케팅 회사도 그 중 하나로, 영화 제작사인 파라마운트, 컴퓨터 액세서리를 파는 벨킨 등이 영화 팬이나 소비자의 동향을 더 정확히 읽을 수 있는 단서를 제공한다. 그런가 하면 매킨지 컨설팅, IBM, IDC, 포레스터 리서치 같은 컨설팅 회사들도 소셜 미디어의 붐과 더불어 더욱 폭발적으로 늘어나는 데이터의 중요성에 주목해 그와 관련된 보고서를 내놓고 있다.
빅 데이터 (Big Data). 요즘 갑자기 유행하기 시작한 단어다. 또 다른 선배 유행어인 ‘클라우드 컴퓨팅’처럼, 그 단어만 봐서는 구체적으로 무슨 뜻인지 헤아리기 어렵다. 데이터의 양이 많다는 뜻인 줄은 알겠는데, 데이터의 폭주가 어제 오늘의 일도 아닌 터에 왜 굳이 ‘빅’이라는 말을 새삼스럽게 더했을까? 정확한 이유나 과학적 근거가 있는 것은 아니지만 소셜 미디어와 관련된 데이터가 그런 신조어에 한몫 했다는 점은 비교적 설득력 있게 들린다. 먼저 IDC 리서치의 자료를 빌려, ‘빅 데이터’의 실상이 어느 정도인지 ‘감’부터 잡아보자.
2009년, 디지털 데이터의 양은 전년도보다 62%, 혹은 80만 페타바이트(PB)가 더 늘었다. 1페타바이트는 1백만 기가바이트(GB), 혹은 10억 메가바이트(MB)로, 종이책의 평균 분량을 1MB로 잡을 경우 약 10억권에 해당하며, 2천만여 권을 장서를 가진 것으로 알려진 미 의회도서관 50개에 상응한다. 80만 PB라면 그런 도서관이 4천만 개쯤 된다는 얘기다. 이 증가세는 더 가팔라져 2010년에는 120만 PB 더 증가한 것으로 추정된다. 2020년에 이르러 전체 데이터 용량은 2009년 수준보다 44배 더 늘 전망이다.
그러나 빅 데이터는 단지 크기만을 가리키는 게 아니라고 ‘프라이버시와 빅 데이터’ (오라일리 출판사, 2011)를 쓴 테렌스 크레이그 (Terence Craig)와 메리 E. 러드로프 (Mary E. Ludloff)는 강조한다. 그것은 가용한 소스 (출처)의 가공할 규모와 데이터 형식의 무지막지한 다양성을 가리키는 것이면서, 무엇보다 그러한 데이터의 대부분이 이용자들에 의해 생성된 이른바 UGC*라는 사실이다. (*나는 한국에서 통용되는 UCC가 사안의 절반만을 표현한 것이라고 본다. 인터넷의 내용물 중에 이용자(User)가 창작한 (Created) 내용물(Content)이 과연 전체 중 얼마나 될까? 더 많은 것이 이용자가 다른 창작물이나 서비스들을 버무리고 뒤섞고 편집하고 변형한, 한마디로 생성한 (Generated) 내용물 아닌가? 그런 면에서 UCC는 UGC로 대체되어야 한다고 본다. 실제로 영어권에서는 UGC라고 하지 UCC라고 하지 않는다.)
크레이그와 러드로프에 따르면 현재 디지털 데이터의 70%가 이메일, 페이스북, 트위터, 링크트인(LinkedIn), 플리커, 유튜브 같은 수단을 통해 바로 우리 이용자들이 생성한 것이다. 이를 좀더 구체적으로 살펴보면 다음과 같다.
= 구글은 1조 개의 각기 다른 URL (웹페이지 주소)을 색인화하고 있으며, 매일 20억 회의 구글 검색이 벌어진다. = 유튜브에는 7천만 개의 비디오가 있고 (물론 계속 느는 중이다), 매일 1억 회 이상 시청된다. = 1억3,300만 개의 블로그가 있다.
= 300억 개 이상의 누적 트윗 (2010년 현재). 테크크런치에 따르면 지난 6월 현재, 매일 2억 번 이상의 트윗이 발생한다. 이 중 얼마나 많은 트윗이 실제 사람에 의한 것이거나 컴퓨터에 의해 자동 생성되는 것인지는 알 수 없다. 분명한 것은 하루 트윗 횟수가 급증하고 있다는 점이다.
= 페이스북 이용자가 8억명을 헤아린다. 페이스북의 공식 통계#에 따르면 2011년 현재, 평균 2억5,000만장의 사진이 매일 업로드 된다.
이 밖에도 누구나 접근할 수 있는 연방, 주, 지방 정부의 공개 데이터, 대학과 연구 기관들의 데이터, 위치 정보를 포함한 막대한 지리 정보 데이터, 경제 데이터, 센서스 데이터 등 소리 소문 없이 급증하는 데이터의 목록을 빼놓을 수 없다.
여기에서 중요한 것은 이런 지표의 유효성이 지극히 짧고 덧없다는 점이다. 지금 이 순간에도 이들 데이터는 급격히 늘고 있을 뿐 아니라, 그 느는 속도가 더욱 빨라지고 있기 때문이다. 매 18개월마다 마이크로프로세서의 처리 속도가 2배로 빨라진다고 했던 소위 ‘무어의 법칙’도 데이터의 폭증세에는 역부족이라는 게 여러 전문가들의 진단이다. 이는 경이로우면서도 경악할 만한 현상이 아닐 수 없다. 무궁무진한 가능성과 동시에, 섬뜩한 위험성을 내포한, 그야말로 ‘위험과 기회[危機]의 데이터 폭주’인 셈이다.
기업들은 사상 유례 없는 속도와 규모로 늘어나는 디지털 데이터로부터 위험보다 기회를 읽는다. 막강한 데이터 처리 속도와 저장 용량, 거기에 나날이 정교하게 구축되는 데이터 분석 기법 (analytics)이 소비자들의 현재와 미래의 구매 성향을 더 정확히, 더 빨리 – 많은 경우 실시간으로 - 예측할 수 있게 해줌으로써 수익성 극대화에 도움을 주리라는 기대 때문이다. 이용자들의 웹 이용 행태, 소셜 미디어 사용 패턴 등을 토대로 개별 이용자에 최적화한 이른바 ‘행태 기반 광고’ (behavioural advertising)는 그런 기대의 한 근거를 제시한다. 그 기반 데이터의 양과 분석 기법의 정교도가 높아진다면 행태 기반 광고의 정확성도 그만큼 더 높아질 것은 분명하다.
컨설팅 회사인 매킨지는 빅 데이터가 조만간 새로운 유형의 ‘기업 자산’으로 자리잡을 것이라 전망한다. 빅 데이터에 대한 첨단 분석 기법과 네트워크의 강점을 최대한 활용하는 이른바 ‘네트워크 조직’이, 웹 기반의 정보 교환을 통해 내부 소통은 물론 소비자 참여, 공급자와의 연계성 등에서 다른 경쟁 기업들에 상대적 우위를 점하리라는 전망이다. 따라서 사면팔방에서 폭증하는 온갖 종류의 디지털 데이터를 어떻게 효과적으로 수집하고 분석해 기업의 새로운 상품이나 서비스 전략에 즉각 반영, 수정, 재반영하느냐가 기업 성패의 중대 변수로 여겨질 것이다.
한편 여러 비영리 단체와 전문가들은 빅 데이터가 몰고 올 위험성에도 주목해야 한다고 강조한다. 여기에 영화 스파이더맨의 대사를 편집한 듯한 경고 문구를 더한다. “빅 데이터에는 그만큼 큰 책임(big responsibility)이 따른다”라는 것.
호주 뉴사우스웨일즈 대학의 케이트 크로포드 (Kate Crawford) 교수와 마이크로소프트의 데이나 보이드 (danah boyd) 연구원은 한 학회에 발표한 글에서 “빅 데이터만 있으면 현재는 물론 가까운 미래를 정확히 점치는 것도 가능하다는 생각이 최근 나타나고 있다”라면서 “하지만 숫자 자체만으로는, 다시 말해 빅 데이터만으로는 정확한 분석이 가능하지 않다”라고 반박했다. 이들에 따르면 “빅 데이터는 절대로 완전할 (complete) 수가 없다.” 예를 들면, 페이스북 연구자들은 흔히 소셜 네트워크의 관계망을 실제 물리적 관계의 대체물로 여기고 사람들의 사회적 관계를 분석한다. 하지만 친밀한 사회 관계, 예컨대 부모, 동거 중인 애인, 매일 보는 친구 등과의 관계는 페이스북에서 종종 실제와 다른 양상으로 나타난다. “페이스북이 곧 세계는 아니”라는 점을 인식해야 한다는 것이다.
트위터의 트윗 데이터도 마찬가지. 앞에 예로 든 볼렌 교수처럼 트윗 내용들로 사람들의 집단적 기분이나 감정, 정치적 태도, 사회적 특성을 읽고, 더 나아가 전망하려는 연구가 적지 않지만, 이것도 실상과는 적잖이 다르다고 크로포드 교수와 보이드 연구원은 입을 모은다. 그 가장 큰 근거 중 하나는 트위터를 자주 이용하는 사람들 중 무려 40%가, 직접 트윗을 날리기보다는 그저 로그인 해서 트윗 내용을 훑어보고 좇아가는 부류라는 사실이다.
빅 데이터의 폭증과 그에 따른 높은 관심이 제기하는 또 다른 큰 우려는 프라이버시 침해의 위험성도 그만큼 더 높아질 것이라는 점이다. 개별 데이터만으로는 아무런 개인 정보나 민감한 프라이버시 데이터가 아니지만 다른 수많은 관련 데이터와 연계하고, 조합하고, 분석하는 과정에서, 때로는 의도적으로, 때로는 의도와는 무관하게, 특정한 개인이나 개별 집단의 민감한 프라이버시 정보가 드러날 수 있다는 것이다.
카네기 멜론대의 프라이버시 전문가인 알레산드로 아퀴스티 (Alessandro Acquisti) 교수도 “민감한 개인 정보를 적절히 보호하면서 빅 데이터를 다루기는 거의 불가능하다”라고 우려한다. 심지어 일반에게 공개된 정보와 데이터조차도 특별한 알고리즘이나 데이터 분석 기법을 통해 민감한 프라이버시 정보를 드러낼 위험성을 안고 있다는 게 그의 주장이다.
인터넷에 있는 정보의 막대한 규모와 그 증가 속도를 고려해, 연구자들은 좀더 신중한 접근법을 쓸 필요가 있다고 이들은 말한다. 빅 데이터가 가진 위험과 기회를 잘 고려해서, 좀더 치밀하고 과학적인 연구 방법론을 개발할 필요가 있으며, 일반 기업들 역시 빅 데이터를 마케팅의 호기로만 여겨서는 안된다는 것이다. 무작정 수집해 섣불리 분석한 빅 데이터가 대규모 프라이버시 침해 사태로 이어질 경우, 그 기업이나 기관이 떠안게 될 법적 책임의 크기는 기대 수익의 규모를 넘어버릴 위험성도 있기 때문이다. (엠톡에 기고한 글)