클릭 한 번으로 800만 권을 읽다
<빅데이터 인문학:진격의 서막>/에레즈 에이든 외 지음/김재중 옮김/사계절 펴냄
2015년 02월 26일 (목) 09:00:45 [388호]
이현우 (서평가)
![]() | ||
빅데이터란 말이 등장한 것은 몇 년 되지 않는다. 전문가에 따르면 대략 2010년부터 쓰였는데, 그 원래적 의미는 ‘다루기에 너무 큰’ 데이터란다. 이제껏 다뤄보지 못했던 거대한 데이터의 축적이 가능하고 그것을 소유할 수 있게 된 게 빅데이터 시대의 첫 번째 의미다. 그리고 이를 분석할 수 있는, 즉 그 막대한 데이터에서 ‘신호와 소음’을 분리할 수 있는 툴이 이제 막 개발되고 있다는 것이 두 번째 의미다. 이 두 가지가 말하자면 빅데이터 혁명의 조건이다.
구글 엔그램 뷰어의 발단이 된 건 2004년부터 시작된 ‘구글 북스’ 프로젝트다. 세계의 모든 책을 스캔해서 디지털화하는 엄청난 규모의 프로젝트인데, 지구상에 존재하는 1억3000만 권 가운데 현재까지 3000만 권 이상의 책을 디지털화했고 2020년까지는 모두 디지털화할 수 있을 거라는 전망이다. 현황만으로도 3000만 권 이상을 소장한 디지털 도서관이 생긴 셈인데, 현재로서는 미국 의회도서관(3300만 권)만이 장서 수에서 조금 앞설 뿐이고 이 또한 곧 추월될 것이다.

![]() | ||
‘구글 엔그램 뷰어’로 검색해본 사회주의와 자본주의 빈도수 그래프 곡선. |
엔그램 뷰어는 명령어만 입력하면 설정 기간의 빈도수를 그래프 곡선을 통해서 보여준다. 누가 얼마나 유명하며 그 명성은 어떤 등락을 보여왔는지, 어떤 인물이나 사건이 역사적 기억 속에서 어떻게 억압되고 지워졌는지, 새로운 아이디어나 발명품이 어떤 속도로 전파되었는지 등 다양한 관심사에 답해준다. 이렇듯 새로운 관찰 도구를 통해서 문화와 역사에 접근하는 것을 ‘컬처로믹스’라는 신조어로 부른다. 이 컬처로믹스의 세계에서 우리가 무엇을 더 발견할 수 있을지는 정해지지 않았다. 말 그대로 ‘서막’이고, 어쩌면 우리는 예단할 수 없는 혁명의 문턱에 서 있는지도 모른다.
‘데이터토피아’라는 멋진 신세계
막대한 비용이 들어가는 거대과학은 자연과학에만 해당하는 것이었다. 힉스 입자를 찾기 위한 입자가속기 개발과 실험에 90억 달러가 들고, 인간 게놈 프로젝트에 30억 달러가 소요되는 식이다. 그와는 비교도 안 되는 적은 비용이 들어가긴 했지만 책과 역사 기록의 디지털화는 인문학에서도 거대과학 스타일의 작업이 가능하게끔 만들었다. 돌이켜보면 대학 신입생 시절 도서관에 가서 카드식 도서 목록을 뒤져 필요한 책을 찾은 다음 대출 신청서를 작성하던 게 불과 한 세대 전이다. 어느새 그런 카드식 목록 검색은 온라인 검색으로 대체되었고, 상당수의 책과 논문 자료는 전자책 형태로 열람할 수 있다. 한 세대 더 거슬러 올라가면 복사기가 없어서 모든 자료를 필사하고, 용어 색인을 만들기 위해 초인적인 노력으로 단어들을 일일이 세던 때가 있었다. 그 중간에 낀 세대로서 ‘데이터토피아’ 시대의 학문이 어떤 모습이 될지 예견하기 어렵다. 아마도 ‘멋진 신세계’이지 않을까.
댓글 없음:
댓글 쓰기