<출처: pixabay>
안녕하세요! 오늘 다룰 주제는 ‘빅데이터’인데요, 신문이나 뉴스에서 자주 등장하는 주제이기 때문에 많이 들어보셨을 거라 생각합니다. 그렇다면 빅데이터란 정확히 무엇이고, 오늘날 어떻게 이렇게 큰 입지를 갖게 됐는지 알아볼까요?
<출처: pixabay>
빅데이터란 쉽게 말해 많은 양의 데이터를 의미합니다. 현재 우리는 빅데이터 시대에 살고 있는데요, 오늘날까지 누적된 글로벌 데이터 양의 90%가 지난 2년 동안 만에 만들어졌다고 합니다. 이렇듯 디지털 정보가 마치 폭탄이 터지듯 생겨난 데이터 붐 (databoom)이 일어나기까지 우리 개개인이 알게 모르게 기여했다는 사실을 알고 계시나요? 바로 컴퓨터나 스마트폰으로 하는 모든 인터넷 활동이 데이터화 되어기록되기 때문입니다. 특히 2010년 이후 스마트폰의 본격적인 보급이 데이터 붐에 크게 이바지했습니다.저희가 하루에 스마트폰에 쏟는시간이나 내용만 잠시 생각해봐도 얼마나 많은 것이 데이터화되는지 알 수 있는데요, 포털 사이트에서의 검색은 물론이고 SNS상의 모든활동들도 포함됩니다. 따라서 페이스북, 트위터, 인스타그램 등에서 어떤 사진과 글들을 업로드 하는지, 어떤 포스트에 좋아요를 누르는지등 SNS상에서 무의식적으로 하는 활동들이 그대로 데이터로 저장됩니다. 잘 모르는 사이에 무심코 한 행동도 데이터로 저장된다니, 하루에도 얼마나 많은 양의 데이터가 생성되는지 가늠하기 힘드시죠?
디지털화된 글로벌 데이터 양은 매해를 거듭하여 기하급수적으로 증가하고 있는데요, 2010년에만 생산된 데이터는 1.2 제타바이트(zettabyte)로 이는 1,200,000,000,000 GB와 같은 크기입니다. 좀 더 쉽게 비유를 하면 매일 생성되는 데이터의 양은 2.5 Quintillion byte로 10,000,000 장의blu-ray 디스크를 채울 수 있는 양의 데이터로, 디스크를 일렬로 쌓았을 때 높이는 4개의 에펠탑을 수직으로 쌓아 올린높이라고 합니다.
그렇다면 이렇게 광대한 양의 데이터가 도대체 어떤 의미를 갖고 어떻게 쓰일까요?
<출처: pixabay>
2017년 성인 기준으로 하루 동안 스마트폰에 쏟는 시간은 평균적으로 무려 2시간 51분이나 된다고 합니다. 하루에 스마트폰에 쏟는 시간과 쓰임을 고려하면 스마트폰을 통해 기록된 데이터는 사용자의 성격이나 관심사를 잘 나타낼 수 밖에 없는데요, 이 점만으로도 빅데이터는 충분한 의미를 갖게 됩니다. 기업들은 빅데이터 이러한 특징을 참고해 경영활동을 합니다. 예를 들어, 사용자 A가 포털사이트 검색에 시계와 관련된 검색어를 찾는다면 사용자에게 맞춤화된 광고가 노출되는 것이 일상 속 한 가지 대표적인 예라고 할 수 있죠. 실제로 아마존이나Ebay와 같은e-commerce사는 사용자들의 정보와 소비패턴 등 다양한 요인들을 분석해 특정 제품의 물량이나 광고노출빈도, 각 지역마다 유통에 필요한 직원 및 트럭의 수 등을 파악할 수 있고 이는 기업 경영활동의 최적화에 큰 도움을 주고 있다고 합니다. 더 나아가 빅데이터는 기업의 매출액과도 밀접한 관련이 있는데요, 실제로 년도 별로 기업명이 구글링 된 수와 해당 년도의 기업 매출액은 비례한다고 합니다. 아무래도 기업명이 많이 구글링 될수록 소비자의 관심이 많다는 것을 말하기 때문이겠죠?
경제적인 측면 외에도 빅데이터는 다양하게 쓰이는데요, 그 중 하나가 미래를 어느 정도 정확하게 예측할 수 있다는 점 입니다. 한 가지의대표적인 사례로는 몇몇의 기관 및 개인 연구자들이 2016년 미국 대선 결과를 빅데이터로 예측한 것 인데요, 구글이 제공하는 빅데이터를통해 트럼프가 당선될 것을 미리 예측했다고 합니다. 특정 후보에 대한 검색량이 많으면 그만큼 그 후보에 대한 관심이 높다는 것을 의미하기 때문에 당선될 확률이 높다는 것을 의미합니다. 하지만 빅데이터는 데이터의 양이 방대한 만큼 데이터가 얻고자 하는 것이 무엇인가에따라 데이터를 걸러내는 작업인 데이터 클리닝 (datacleaning)이 꼭 필요합니다. 대선 결과 예측과 같은 경우 특정 후보에 대한 검색량이해당 후보에 대한 투표로 이어진다고 가정하기 전에 후보에 대한 검색이 긍정적인지 부정적인지부터 분석되어야 합니다. 보통 인물에 대한부정적인 검색은 검색량의 변동 폭이 크고 자주 있는 반면 긍정적인 검색은 많은 검색량이 변동 없이 꾸준히 있다는 성격을 갖고 있습니다. 따라서 부정적인 검색량은 걸러내어 당선 확률을 구해야 하니 빅데이터에서의 데이터클리닝은 매우 중요한 작업이라 할 수 있죠.
<출처: pixabay>
지금까지 빅데이터에 대해 간단하게나마 알아봤는데요, 앞으로도 데이터의 양은 끊임없이 늘어날 것이고 빅데이터의 입지는 계속해서 커질 예정입니다. 236,000,000개의 linkedIn 프로필을 바탕으로 한 조사 결과 현재 세계적으로 19,400명의 데이터 분석가들이 있다고 합니다. 4차 산업혁명의 뜨거운 감자, 빅데이터의 세계에 관심을 갖는 것도 빅데이터 시대에 살아가는 구성원으로서 바람직할 것 같습니다.
'Hot! Trend!' 카테고리의 다른 글
코스파족, 페이크슈머 살펴보기 (0) | 2017.09.25 |
---|---|
R 프로그래밍으로 데이터마이닝 따라잡기 (0) | 2017.08.27 |
여름 맞이 해변가 특집 (0) | 2017.08.23 |
CITY PASS : TORONTO (0) | 2017.08.23 |
그래피티 아트의 대표주자 Shepard Fairey (0) | 2017.08.22 |