IT Management: 데이터 드릴링

아티클
08/30/2016

대규모 데이터는 오늘날의 기업에 이를 분석하고 관리해야 하는 부담으로 작용하기도 하지만 과제와 기회가 공존하는 영역이기도 합니다.

Rob Sobers

사람이 만든 대규모 데이터라는 현상이 발생하는 이유는 오늘날 대규모 조직 안에서 페타바이트 및 엑사바이트 규모의 구조적 및 비구조적 데이터가 만들어지고 있기 때문입니다. 대규모 데이터에 대한 가장 큰 궁금증은 이것이 예전의 오일 러시와 같이 다수의 패자와 소수의 승자를 남기는 결과를 가져올 것인지, 아니면 업계 전체에 보편적인 이익이 될지에 대한 것입니다.

사람이 만든 콘텐츠에는 우리가 매일 만드는 모든 파일과 전자 메일이 포함됩니다. 우리는 지금 이 순간에도 프레젠테이션, 워드프로세서 문서, 스프레드시트, 오디오 파일 및 다른 문서들을 만들고 있습니다. 대부분의 조직에는 디지털 저장소 공간의 상당 부분을 차지하는 파일들이 있습니다. 이러한 파일은 꽤 오랫동안 보관해야 하며 이와 연관된 메타데이터의 양도 막대한 수준입니다.

사람이 만든 콘텐츠는 어마어마하게 많으며 이와 연관된 메타데이터는 이보다 더 많습니다. 메타데이터는 파일에 대한 정보입니다. 즉, 누가 언제 파일을 만들었고, 파일 형식은 무엇이며, 어느 폴더에 저장되어 있고, 누가 파일을 읽었고, 누가 액세스 권한을 가지고 있는지 등에 대한 내용을 포함합니다. 콘텐츠와 메타데이터는 함께 모여 사람이 만든 대규모 데이터의 거대한 우주를 형성합니다.

데이터 폭풍

문제는 아직 대부분의 큰 조직에서 사람이 만든 대규모 데이터를 활용하기 위한 도구가 준비되어 있지 않다는 것입니다. 최근 Elon University의 Imagining the Internet Center와 Pew Research Center에서 1,000명 이상의 인터넷 전문가와 다른 인터넷 사용자를 대상으로 설문 조사를 수행하고 결과를 발표했는데, 여기에서는 아직 업계가 대규모 데이터를 올바르게 처리하고 이해할 수 있는 준비가 되어 있지 않다고 결론을 내리고 있습니다.

조사에 참여한 전문가들은 2020년 무렵에는 막대한 양의 데이터로 인해 “데이터 한계점(digital exhaust)”이라는 현상이 발생하여 결과적으로 생산성이 향상되고, 조직의 투명성이 개선되며, “예측 가능한 미래”에 대한 경계가 확장될 것으로 예상하고 있습니다. 그러면서도 이들은 이러한 정보에 액세스하고, 액세스를 제어하는 주체가 누가 될지, 그리고 정부나 기업이 이 정보를 현명하게 사용할 수 있을지에 대해서는 우려를 표명했습니다.

설문 조사에는 다음과 같은 내용이 있습니다. “2020년까지 대규모 데이터에 대한 사람과 기계의 분석을 통해 사회, 정치 및 경제 분야의 인텔리전스가 발전하게 될 수 있다. 대규모 데이터라는 기술을 통해 실시간 사건 예고, 데이터 패턴을 평가하여 결과를 예측하는 ‘추정 소프트웨어’ 개발, 세계를 새로운 차원으로 이해할 수 있게 하는 고급 상관 관계 알고리즘의 발견과 같은 일이 가능해질 수 있다.”

반면에 설문 조사에 참여한 인터넷 전문가 중 39%는 대규모 데이터의 이점에 대한 반론을 제시했습니다. 이들의 관점은 다음과 같았습니다. “2020까지 대규모 데이터에 대한 사람과 기계의 분석으로는 해결되는 문제보다 오히려 유발되는 문제가 많을 것이다. 막대한 양의 분석할 데이터가 존재하면 예측에서 잘못된 확신을 낳을 뿐 아니라 많은 심각한 실수가 발생할 것이다. 게다가 이기적인 목적을 가진 권력자와 권력기관에서 대규모 데이터의 분석 결과를 자신들이 원하는 대로 악용할 수 있다.”

조사 참가자 중 기업가 Bryan Trogdon이 있습니다. 그는 “대규모 데이터는 새로운 원유입니다.”라면서 “이 자원을 뽑아낼 수 있는 회사, 정부 및 조직은 그렇지 않은 곳에 비해 엄청난 이익을 거둘 수 있게 될 것입니다. 대규모 데이터에 있어 승자와 패자를 가르는 요인은 속도, 민첩성, 그리고 혁신 유무가 될 것이며, 우리의 자세도 기존의 ‘돌다리도 두드려 보고 건너라’가 아니라 ‘작은 것부터 당장 시작하라’로 바뀌어야 될 것입니다.”라고 설명했습니다.

교수이자 블로거인 Jeff Jarvis는 조사에 참여한 후 다음과 같이 이야기했습니다. “매체와 규제기관에서는 대규모 데이터, 그리고 대규모 데이터로 인해 유발될 개인 정보에 대한 가상의 위협을 악의 축으로 규정하고 있습니다. 이러한 공황 상태가 단순히 기술 발전 때문에 일어나는 경우가 많습니다. 그러나 중요한 것은 이 데이터 안에서 가치를 발견할 수 있고, 우리에게 이를 공유할 수 있는 능력이 있다는 것입니다.

“Google의 설립자는 사용자가 Google에서 검색한 결과를 정부 규제기관이 빠르게 삭제하도록 규제하지 말라고 요청하기도 했는데, 검색 패턴과 이상 현상을 통해 독감 발생을 보건당국보다 빨리 추적할 수 있으며 비슷한 방법으로 전염병을 추적하여 수백만 명의 인명을 구할 수도 있기 때문입니다.” Jarvis는 그러면서 “크든 작든 데이터를 악의 축으로 규정하는 것은 지식을 부정하는 것이며 현명하지 못한 일입니다.”라고 말했습니다.

Mead, Mead & Clark, Interbrand의 분석 책임자인 Sean Mead는 다음과 같이 이야기했습니다. “대규모 데이터 집합이 일반에 공개되고, 사용하기 쉬운 도구와 분석 기술, 그리고 초기 단계의 인공 지능 소프트웨어가 광범위하게 도입되면 1990년 중후반의 인터넷과 PC 혁명과 비교할 수 있는 수준의 폭발적인 경제 활동과 생산성 향상을 목격할 수 있을 것입니다.” 그러면서 Mead는 “대규모 데이터 리포지토리에 대한 자유로운 액세스를 주장하고, AI의 개발과 사용을 제한하거나, AI를 ‘해방’시키려는 사회적 움직임도 발생할 것입니다.”라고 말했습니다.

분석을 넘어서

이러한 논쟁은 흥미로울 뿐 아니라 문제의 본질을 이해하는 데도 도움이 됩니다. 이제 데이터 집합은 정교한 자동화의 도움을 받지 않으면 분석하고 처리할 수 없을 만큼 커지고 있습니다. 막대한 양의 콘텐츠와 메타데이터의 물결을 감당하고 분석하려면 기술에 의존하는 수밖에 없습니다.

사람이 만든 대규모 데이터를 분석하는 일에는 막대한 잠재력이 있습니다. 또한 사람이 만든 콘텐츠를 관리하고 보호하려면 메타데이터를 제대로 활용할 수 있는 능력이 필수적입니다. 이제는 파일 공유, 전자 메일 및 인트라넷 덕분에 기업 사용자가 파일을 저장하고 공유하기가 매우 쉬워졌기 때문에 기존의 소규모 데이터 방식으로는 사람이 만든 콘텐츠를 지속 가능하게 관리 및 보호하기 어렵다는 증거가 대부분의 조직에서 포착되고 있습니다.

게다가 15년 전이라면 정적 데이터 집합을 사용하여 간단하게 대답할 수 있었던 질문에 대답할 수 없게 되면서 실질적인 문제가 대두되고 있습니다. 이러한 질문에는 중요한 데이터가 어디에 저장되어 있는지, 접근 권한이 누구에게 있는지, 그리고 접근 권한을 누구에게 부여해야 하는지 등이 포함됩니다. 업계 조사업체 IDC는 이에 따른 결과로 보호가 필요한 데이터의 절반 정도만 보호되고 있다고 추정했습니다.

이 문제는 클라우드 기반 파일 공유가 도입되면서 더 복잡해졌습니다. 이러한 서비스에 의해 관리와 보호가 필요한 사람이 만든 콘텐츠의 증가세가 더 빨라졌기 때문입니다. 게다가 클라우드 콘텐츠는 기업 인프라 외부에 위치하고 있어 제어 및 관리 프로세스가 다르기 때문에 복잡성이 한층 더해집니다.

Harvard University 부속 Berkman Center의 David Weinberger는 “인간이 예측하기 어렵고, 자유 분방하며, 무분별한 존재라는 것을 인정한다는 의미이기도 하지만, 우리는 이제 겨우 대규모 데이터를 통해 해결할 수 있는 문제의 범위를 이해하기 시작하고 있습니다. 사람이 만든 대규모 데이터의 힘을 활용하여 데이터를 보호하고 관리하는 작업의 예측하기 어렵고, 자유 분방하며, 무분별한 특성을 조금이라도 완화할 수 있다면 조직에 큰 도움이 될 것입니다.”라고 말했습니다.

사람이 만든 대규모 데이터라는 개념이 앞으로 여러 해 동안 기업에 과제와 기회를 동시에 안겨줄 것이라는 사실은 분명합니다.

Rob Sobers

Rob Sobers는 Varonis Systems에서 디자이너, 웹 개발자 및 기술 전략가로 일하고 있습니다. 현재 accidentalhacker.com에서 소프트웨어 개발과 보안에 대한 잘 알려진 블로그를 운영하고 있으며 전자책 “Learn Ruby the Hard Way(Ruby를 배우는 어려운 방법)”(ruby.learncodethehardway.org, 2011)를 공동으로 집필하기도 했습니다. 그는 12년 경력의 기술 업계 전문가이며 Varonis에 입사하기 전에는 소프트웨어 엔지니어링, 디자인 및 전문 서비스 업계에서 일했습니다.

IT Management: 데이터 드릴링

Rob Sobers

데이터 폭풍

분석을 넘어서

추가 리소스