IT-Verwaltung: Bringen große Datenmengen einen neuen „Ölrausch“?

Große Datenmengen zu analysieren und zu verwalten, ist für die moderne Geschäftswelt häufig eine Überforderung, aber neben den Herausforderungen ergeben sich auch Chancen.

Rob Sobers

Das Phänomen der benutzererzeugten großen Datenmengen umfasst Petabytes und Exabytes an strukturierten und unstrukturierten Daten, die heutzutage in Unternehmen entstehen. Dabei stellt sich noch immer eine große Frage: Führen die großen Datenmengen zu einem neuen Ölrausch, bei dem es nur einige wenige Gewinner, dafür aber viele Verlierer geben wird, oder werden wir alle gleichermaßen profitieren?

Jeden Tag erzeugen Benutzer mit allen möglichen Dateien und E-Mails Inhalte. Stunde um Stunde erstellen wir beispielsweise neue Präsentationen, Textdokumente, Tabellen oder Audiodateien. Diese Dateien beanspruchen in den meisten Unternehmen den weitaus überwiegendsten Teil des digitalen Speicherplatzes und müssen über lange Zeiträume aufbewahrt werden. Darüber hinaus sind sie noch mit einer großen Masse an Metadaten verknüpft.

Die von Benutzern erstellten Inhalte summieren sich zu einer enormen Datenmenge. Dabei sind die dazugehörigen Metadaten noch umfangreicher. Bei diesen Metadaten handelt es sich um Daten über eine Datei: wer die Datei wann erstellt hat, um welchen Dateityp es sich handelt, in welchem Ordner sie liegt, wer sie gelesen hat und wer auf sie zugreifen darf. Inhalte und Metadaten ergeben zusammen den Kosmos der von Benutzern erzeugten großen Datenmengen.

Datenlawine

Das Problem besteht darin, dass die meisten großen Unternehmen noch nicht keine Hilfsmittel dafür haben, aus den benutzererzeugten großen Datenmengen die größtmöglichen Vorteile zu ziehen. Eine vor Kurzem durchgeführte Studie mit mehr als 1000 Internetexperten und anderen Internetanwendern des Pew Research Center und des Imagining the Internet Center der Elon University kommt zu dem Schluss, dass die Welt wohl noch nicht in der Lage ist, große Datenmengen zu verstehen und angemessen mit ihnen umzugehen.

Die Experten schlussfolgern, dass die enormen Datenmengen oder auch die „digitalen Spuren“, die bis zum Jahr 2020 anfallen werden, sehr gut dazu beitragen könnten, die Produktivität zu steigern, organisatorische Transparenz zu verbessern und die Grenze der erkennbaren Zukunft zu verschieben. Zugleich äußern sie allerdings auch Bedenken darüber, wer Zugang zu den Informationen haben wird, wer diesen Zugang kontrollieren wird und ob Regierungen oder Unternehmen verantwortungsvoll mit den Informationen umzugehen wissen.

In dem Bericht zu dieser Studie steht: „Die menschliche und maschinelle Analyse von großen Datenmengen besitzt das Potenzial, die soziale, politische und ökonomische Intelligenz bis zum Jahr 2020 zu verbessern. So wird der Zuwachs dessen, was wir als große Datenmengen bezeichnen, einiges erleichtern, wie etwa die Echtzeitvorhersage von Ereignissen, die Entwicklung von „schlussfolgernder Software“, die aus Datenmustern Projektergebnisse ableitet, oder die Formulierung von Algorithmen für erweiterte Korrelationen, mit denen ein neues Verständnis der Welt möglich wird.“

Von den befragten Internetexperten stimmten 39 Prozent dem Argument gegen die Vorteile großer Datenmengen zu. Diese entgegengesetzte Ansicht lautet: „Die menschliche und maschinelle Analyse großer Datenmengen wird bis 2020 zu mehr Problemen führen als gelöst werden können. Die für die Analyse zur Verfügung stehenden enormen Datenmengen werden zu einem falschen Vertrauen in unsere Möglichkeiten zur Vorhersage führen, und viele werden schwerwiegende und schmerzliche Fehler machen. Außerdem werden einflussreiche Personen und Institutionen mit egoistischen Plänen die Analyse großer Datenmengen missbrauchen, um Ergebnisse ihren eigenen Interessen gemäß zu manipulieren.“

Ein Teilnehmer der Studie war der Unternehmer Bryan Trogdon. Seiner Ansicht nach sind große Datenmengen das neue Öl. Dazu sagt er: „Die Unternehmen, Regierungen und Organisationen mit den Möglichkeiten, diese Ressource abzubauen, werden denjenigen gegenüber, die das nicht können, einen enormen Vorteil haben. Geschwindigkeit, Agilität und Innovationsvermögen werden Gewinner von Verlierern trennen. Durch große Datenmengen werden wir die Einstellung ‚zweimal nachmessen, dann einen Schnitt ansetzen‘ hinter uns lassen und zu der Mentalität gelangen, kleine Wetten schnell zu platzieren.“

Jeff Jarvis, ein weiterer Studienteilnehmer und Professor sowie Blogger, meint: „Medien und Regulierungsbehörden verteufeln die großen Datenmengen und die mit ihr angeblich einhergehende Bedrohung des Datenschutzes. Solche moralischen Panikanfälle gab es aufgrund technologischer Veränderungen schon häufig. Die Moral der Geschichte bleibt aber immer gleich: Diese Daten bringen uns Nutzen – Nutzen für unsere neu gewonnene Fähigkeit zu teilen.“

Jarvis meint weiter: „Die Gründer von Google haben Regierungsbehörden mit Nachdruck darum gebeten, dass Suchvorgänge nicht nach kurzer Zeit wieder gelöscht werden müssen, da Google in den Suchmustern und Abweichungen die Möglichkeit entdeckt hat, noch vor den Gesundheitsbehörden den Ausbruch einer Grippewelle zu erkennen. Deshalb ist Google davon überzeugt, dass bei einer Pandemie auf ähnliche Weise Millionen Leben gerettet werden könnten. Die Verteufelung von Daten, seien es viele oder wenige, verteufelt das Wissen, und das ist niemals klug.“

Sean Mead ist Director of Analytics bei Mead, Mead & Clark, Interbrand und meint: „Große, öffentlich zugängliche Datenmengen, einfachere Tools, die größere Verbreitung von Analysemöglichkeiten und Software mit künstlicher Intelligenz der frühen Entwicklungsstufe werden zu enorm erhöhter Wirtschaftsaktivität und Produktivität führen, die mit den Computer- und Internetrevolutionen Mitte bis Ende der 1990er Jahre vergleichbar ist. Soziale Bewegungen werden entstehen, um den freien Zugriff auf große Datenspeicher zu erstreiten, um die Entwicklung und Nutzung künstlicher Intelligenz einzuschränken und um die künstliche Intelligenz zu ‚befreien‘.“

Jenseits der Analyse

Das sind interessante Argumente, und für den Anfang erreichen sie schon den Kern der Sache. Unsere Datensammlungen sind inzwischen so groß, dass wir sie ohne ausgeklügelte Automatisierung nicht mehr analysieren und verarbeiten können. Wir sind auf die Technologie angewiesen, damit wir mit dieser riesigen Welle an Inhalten und Metadaten noch zurechtkommen und sie analysieren können.

Die Analyse der benutzererzeugten großen Datenmengen hat ein enormes Potenzial. Außerdem ist die Nutzbarmachung der Metadaten für die Verwaltung und den Schutz von benutzererzeugten Inhalten von wesentlicher Bedeutung. Mit Dateifreigaben, E-Mails und Intranet ist es für Benutzer in Unternehmen ein Leichtes, Dateien zu speichern und freizugeben. Dadurch sind in den meisten Organisationen inzwischen mehr benutzergenerierte Inhalte vorhanden, als in der Gedankenwelt kleiner Datenmengen noch effektiv verwaltet und geschützt werden können.

Viele Unternehmen haben reale Schwierigkeiten, weil sie Fragen nicht mehr beantworten können, die sie vor etwa 15 Jahren auf Grundlage einer kleineren, statischen Datenmenge noch ohne Schwierigkeiten beantworten konnten. Dazu zählen Fragen wie: Wo befinden sich die kritischen Daten? Wer hat Zugriff? Wer sollte Zugriff haben? So schätzt etwa der Marktforscher IDC, dass nur die Hälfte der Daten, die geschützt werden sollten, tatsächlich auch geschützt werden.

Das Problem hängt auch mit der cloudbasierten Dateifreigabe zusammen. Clouddienste bieten noch einen weiteren größer werdenden Speicherort für benutzergenerierte Inhalte, die verwaltet und geschützt werden müssen. Dabei liegen die Inhalte in der Cloud außerhalb der Infrastruktur des Unternehmens. Es greifen andere Kontroll- und Verwaltungsprozesse, was die Angelegenheit noch komplexer macht.

David Weinberger vom Berkman Center der Harvard University sieht das so: „Wir beginnen erst zu verstehen, welche unterschiedlichen Probleme große Datenmengen lösen können. Dabei müssen wir zugeben, dass wir weniger unvorhersagbare, weniger freie und weniger verworrene Geschöpfe sind, als wir gerne meinen. Wenn die Nutzbarmachung der benutzerdefinierten großen Datenmengen den Schutz und die Verwaltung von Daten weniger unvorhersagbar, weniger frei und weniger verworren macht, werden Organisationen dafür dankbar sein.“

Benutzergenerierte große Datenmengen werden zweifellos in den nächsten Jahren für Unternehmen in gleicher Weise Herausforderungen wie Chancen bereithalten.

Rob Sobers

Rob Sobers* ist Designer, Webentwickler und technischer Strategist bei Varonis Systems. Er schreibt einen beliebten Blog zu Softwareentwicklungen und Sicherheitsaspekten unter accidentalhacker.com und ist Koautor des E-Books „Learn Ruby the Hard Way“ (ruby.learncodethehardway.org, 2011). Sobers ist bereits seit zwölf Jahren in der Technologiebranche. Bevor er zu Varonis kam, war er in der Softwareentwicklung, als Konzeptionsdienstleister und im Bereich Professional Services tätig.*

Verwandter Inhalt