ИТ-управление: Поиск данных

Говорят, что большие данные приведут к краху возможностей современного предприятия в области аналитики и управления, но у этой медали две стороны: и проблемы, и новые возможности.

Роб Соберс (Rob Sobers)

Под создаваемыми людьми большими данными принято понимать пета- и эксабайты структурированных и неструктурированных данных, накапливаемых в современном бизнесе. При этом существует следующий важный вопрос: будет ли это очередная золотая лихорадка, пользу от которой получат лишь немногие, или благо для всех?

Создаваемый людьми контент — это все файлы и сообщения электронной почты, которые мы создаем изо дня в день. Это презентации, тексты, электронные таблицы, звуковые файлы и другие документы, во множестве создаваемые ежечасно. Эти файлы занимают большую часть электронного пространства в большинстве организаций. Их приходится долго хранить, и с ними связаны большие объемы метаданных.

Пользовательский контент имеет невероятный объем, но соответствующих метаданных еще больше. Метаданные — это сведения о файлах: кто и когда их создал, что это за файлы, в каких папках они хранятся, кто их читает и кто имеет к ним доступ. Вместе контент и метаданные составляют создаваемые людьми большие данные.

Лавина данных

Проблема в том, что большинство крупных организаций пока не готово к тому, чтобы извлекать пользу из больших данных. Проведенный недавно Исследовательским центром Пью и Центром изучения Интернета в Элонском университете опрос, в котором приняло участие свыше 1000 интернет-экспертов и других пользователей, показал, что мир пока не готов адекватно воспринимать и использовать большие данные.

Эксперты пришли к выводу, что большие объемы данных (названные ими "электронным выхлопом"), которые будут накоплены к 2020 году, способны повышать эффективность работы и прозрачность организаций, помогая им двигаться к "изведанному будущему". Тем не менее их беспокоит вопрос о том, кто будет иметь доступ к таким данным, кто будет управлять этим доступом, а также то, насколько разумно государственные и частные организации будут пользоваться полученными возможностями.

Цитата: "Машинный и ручной анализ больших данных к 2020 году сможет существенно расширить возможности для социального, политического и экономического взаимодействия. Появление так называемых больших данных способствует прогнозированию событий в реальном времени, созданию дедуктивного ПО, выявляющего шаблоны в данных и прогнозирующего результаты тех или иных процессов, а также созданию высокоэффективных коррелирующих алгоритмов, позволяющих узнать об окружающем нас мире больше".

39 процентов опрошенных интернет-экспертов сошлись во мнении: у больших данных есть не только преимущества, но и недостатки. Вот их позиция: "Ручной и машинный анализ больших данных к 2020 году будет создавать больше проблем, чем выгод. Существование огромных объемов доступных для анализа данных вызовет ложную уверенность в наших прогностических способностях, что может привести к крупным и опасным ошибкам. Более того, большие данные в руках недобросовестных личностей и организаций, готовых пойти на подлог результатов анализа, могут стать весьма опасным явлением".

Одним из участников исследования стал предприниматель Брайан Трогдон (Bryan Trogdon). "Я бы сравнил большие данные с нефтью" — говорит он. "Частные компании и правительственные организации, имеющие к ним доступ, получат огромное преимущество над остальными. Сейчас, когда победа или поражение зависит от вашей гибкости, скорости и инновационного потенциала, появление больших данных приведет к переходу от пословицы "семь раз отмерь" к мышлению в стиле "куй железо, пока горячо".

Еще один участник опроса, Джефф Джарвис (Jeff Jarvis), профессор и блогер, утверждает: "СМИ и законодатели демонизируют большие данные, утверждая о том, что они представляют угрозу для конфиденциальности. Подобная моральная паника часто сопровождает появление новых технологий. При этом вывод остается неизменным: в этих данных есть ценность — наша новообретенная способность к взаимодействию".

"Создатели Google призывают законодателей не принимать требования по оперативному удалению поисковых запросов, так как на основе встречающихся в них шаблонов и аномалий можно, например, прогнозировать эпидемии гриппа до того, как о ней сообщат органы здравоохранения. Это может помочь предотвратить пандемию, способную унести миллионы жизней", — продолжает Джарвис. "Демонизация данных, больших или малых, — это демонизация знаний, и подобная линия поведения неразумна".

Говорит Шон Мид (Sean Mead), аналитический директор компании Mead, Mead & Clark, Interbrand: "Большие общедоступные объемы данных, простой инструментарий для работы с ними, распространение аналитических навыков и ПО с зачатками искусственного интеллекта позволят активизировать экономическую деятельность и повысить производительность подобно тому, что происходило при появлении ПК или Интернета. Появятся социальные движения, направленные на обобществление крупных репозиториев данных, а также ограничение или, напротив, либерализацию инициатив по созданию и использованию искусственного интеллекта".

Помимо анализа

Это любопытные и весьма значимые аргументы. Объемы наших данных переросли наши способности анализировать и обрабатывать без сложной автоматизации. Нам приходится полагаться на технологические решения для анализа и обработки этого цунами контента и метаданных.

Анализ пользовательских больших данных имеет огромный потенциал. Более того, использование всех возможностей метаданных — неотъемлемый элемент контроля и защиты пользовательского контента. Общие файловые ресурсы, электронная почта и интрасети настолько упростили хранение данных и обмен ими, что в большинстве организаций сейчас больше контента, чем они могут контролировать без принятия существенных мер.

Многие организации столкнулись с реальными проблемами: они уже не могут найти ответы на очевидные еще 15 лет назад вопросы. Вот ряд примеров: где находятся критически важные данные? Кто имеет к ним доступ? Кому нужен доступ к ним? В результате, по данным исследовательского центра IDC, реально защищается лишь половина данных, нуждающихся в защите.

Эта проблема также связана с облачными технологиями обмена данными. Подобные службы представляют собой новое хранилище контента, нуждающееся в управлении и контроле. Облачный контент находится вне корпоративной инфраструктуры, и управление им осуществляется отдельно, что вносит дополнительную сложность.

Дэвид Вайнбергер (David Weinberger), сотрудник Центра Беркмана в Гарвардском университете, говорит: "Мы лишь подступаем к пониманию спектра проблем, решаемых с помощью больших данных, хотя это и требует признать, что мы более предсказуемы и ограничены, чем хотелось бы верить. Если использование больших данных упростит управление данными и контроль за ними, организации вздохнут с облегчением".

В ближайшие годы концепция больших данных, создаваемых миллионами пользователей, не только поставит перед бизнесом ряд проблем, требующих решения, и создаст много новых возможностей.

Rob Sobers

Роб Соберс* — дизайнер, веб-разработчик и специалист по технической стратегии компании Varonis Systems. Он ведет популярный блог о разработке ПО и безопасности по адресу accidentalhacker.com и является соавтором книги "Учим Ruby по-сложному" (ruby.learncodethehardway.org, 2011 г.). До прихода в Varonis Соберс уже 12 лет занимался проектированием и разработкой ПО, а также консультациями.*

Связанные материалы