Gestion informatique : Exploitation des données

Les données volumineuses sont sur le point de submerger les capacités d'analyse et de gestion des entreprises modernes, mais elles représentent à la fois des défis à relever et des occasions à saisir.

Rob Sobers

Le phénomène des données volumineuses générées par les hommes couvre les pétaoctets et exaoctets de données structurées et non structurées créées par les entreprises d'aujourd'hui. Une grande question demeure concernant les données volumineuses : vont-elles représenter une nouvelle ruée vers l'or, avec ses rares gagnants et ses nombreux perdants, ou profiteront-elles à tous ?

Le contenu généré par les hommes inclut tous les fichiers et courriers électroniques que nous créons chaque jour. Il comprend les présentations, les documents de traitement de texte, les feuilles de calcul, les fichiers audio et d'autres documents que nous élaborons d'heure en heure. Ce sont là les fichiers qui occupent la grande majorité de l'espace de stockage numérique dans la plupart des organisations. Vous devez les conserver pendant des périodes importantes et d'énormes quantités de métadonnées leur sont associées.

Le contenu généré par les hommes est immense et les métadonnées correspondantes sont encore plus volumineuses. Les métadonnées correspondent aux informations relatives à un fichier, telles que son auteur et sa date de création, son type, le dossier qui le contient, les personnes qui l'ont consulté et celles qui y ont accès. Le contenu et les métadonnées composent ensemble l'univers des données volumineuses générées par les hommes.

Avalanche de données

Le problème est que la plupart des grandes organisations ne sont pas encore équipées des outils permettant d'exploiter les données volumineuses générées par les hommes. Une enquête récente portant sur plus de 1 000 experts et autres utilisateurs Internet, et publiée par les centres Pew Research Center et Imagining the Internet Center de l'Université d'Elon, conclut que le monde n'est peut-être pas prêt à comprendre ni à gérer correctement les données volumineuses.

Ces experts ont conclu que les immenses quantités de données, qu'ils appellent « émissions numériques », qui auront été créées en l'an 2020, pourront probablement améliorer la productivité, renforcer la transparence organisationnelle et repousser les frontières du « futur connaissable ». Toutefois, ils sont également préoccupés de savoir qui aura accès à ces informations, qui contrôlera cet accès et si le gouvernement ou des sociétés utiliseront ces informations à bon escient.

Selon cette enquête : « l'analyse humaine et informatisée des données volumineuses est susceptible d'améliorer l'intelligence sociale, politique et économique d'ici à 2020. L'essor des données volumineuses facilitera des opérations telles que la prévision en temps réel des événements, le développement de « logiciels déductifs » capables d'évaluer les modèles de données pour anticiper des résultats, et la création d'algorithmes établissant des corrélations avancées grâce auxquelles une nouvelle compréhension du monde est possible ».

Parmi les personnes interrogées, 39 % des experts Internet étaient d'accord avec le contre-argument aux avantages des données volumineuses. Ce point de vue contradictoire postule que : « l'analyse humaine et informatisée des données volumineuses posera plus de problèmes qu'elle n'en résoudra en l'an 2020. L'existence d'immenses ensembles de données d'analyse engendrera un faux sentiment de confiance en notre pouvoir de prévision et conduira de nombreuses personnes à réaliser des erreurs majeures et dommageables. De plus, l'analyse de données volumineuses sera utilisée à mauvais escient par des personnes et des institutions puissantes aux projets égoïstes qui manipuleront les résultats pour étayer leurs arguments ».

L'entrepreneur Bryan Trogdon a pris part à l'étude. « Les données volumineuses représentent le nouvel or noir », explique-t-il. « Les entreprises, les gouvernements et les organisations en mesure d'exploiter cette ressource auront un énorme avantage sur ceux qui ne le pourront pas. Avec la vitesse, l'agilité et l'innovation comme facteurs déterminant les gagnants et les perdants, les données volumineuses nous font passer du vieil adage selon lequel « on ne serait jamais assez prudent » à une logique dont le principe serait de « miser peu, mais vite ».

Une autre personne interrogée, Jeff Jarvis, professeur et blogueur, déclare : « Les médias et les organismes de réglementation diabolisent les données volumineuses et la menace qu'elles sont censées faire peser sur la confidentialité. Les évolutions technologiques ont souvent favorisé de telles paniques morales. Mais la morale de l'histoire demeure la suivante : ces données présentent un intérêt concret, celui d'une capacité retrouvée à partager.

« Les fondateurs de Google ont exhorté les organismes de réglementation gouvernementaux à ne pas les obliger à supprimer rapidement les recherches effectuées, car, dans leurs modèles et anomalies, ils ont trouvé le moyen de détecter l'éruption d'une épidémie de grippe avant les autorités sanitaires et ils pensent qu'en suivant de la même façon une pandémie, des millions de vies pourraient être sauvées », poursuit Jarvis. « La diabolisation des données, volumineuses ou non, est la diabolisation du savoir, ce qui n'est jamais bon. »

Sean Mead est directeur du service d'analyse à Mead, Mead & Clark, Interbrand. « De grands ensembles de données disponibles publiquement, des outils plus simples, une distribution plus large des capacités d'analyse, ainsi que des logiciels d'intelligence artificielle à un stade précoce généreront un regain d'activité économique et une augmentation de productivité comparables à ceux connus lors des révolutions informatique et Internet entre le milieu et la fin des années 1990 », déclare Mead. « Des mouvements sociaux naîtront pour libérer l'accès aux grands référentiels de données, pour limiter le développement et l'utilisation de l'intelligence artificielle, ainsi que pour 'débrider' cette intelligence. »

Au-delà de l'analyse

Ce sont là des arguments intéressants qui touchent véritablement le cœur du sujet. Nos ensembles de données se sont développés au-delà de notre capacité à les analyser et à les traiter sans une automatisation avancée. Nous devons nous appuyer sur la technologie pour analyser et gérer cette immense vague de contenu et de métadonnées.

L'analyse des données volumineuses générées par les hommes présente un potentiel énorme. De plus, la maîtrise de la puissance des métadonnées est devenue essentielle pour gérer et protéger le contenu généré par les hommes. Les partages de fichiers, le courrier électronique et les intranets ont tellement facilité l'enregistrement et le partage des fichiers par les utilisateurs professionnels que la plupart des organisations possèdent à présent plus de contenu généré par les hommes qu'elles ne peuvent en gérer et protéger durablement au moyen d'une logique basée sur de petits volumes de données.

De nombreuses entreprises sont confrontées à des problèmes concrets car elles ne peuvent plus répondre à des questions auxquelles elles pouvaient encore répondre 15 ans plus tôt sur des ensembles de données statiques de plus petite taille. Les types de questions suivants en sont des exemples : Où résident les données critiques ? Qui y a accès ? Qui devrait y avoir accès ? Par conséquent, le cabinet de recherche sur l'industrie IDC estime que seule la moitié des données censées être protégées sont effectivement protégées.

Le problème est aggravé par le partage des fichiers dans le cloud. Ces services créent un magasin supplémentaire de contenu généré par les hommes, qui est en pleine expansion et nécessite des efforts de gestion et de protection. Le contenu cloud réside en dehors de l'infrastructure de l'entreprise et est soumis à des processus de contrôle et de gestion différents, ce qui génère des niveaux de complexité supplémentaires.

David Weinberger du Centre Berkman de l'Université de Harvard déclare : « nous commençons tout juste à comprendre l'éventail des problèmes que les données volumineuses peuvent résoudre, même si cela signifie que nous reconnaissons être des créatures moins imprévisibles, libres et excentriques que nous voudrions le penser. Si la maîtrise de la puissance des données volumineuses générées par les hommes peut rendre la gestion et la protection des données moins imprévisibles, libres et débridées, les organisations en seront les premières bénéficiaires. »

Le concept de données volumineuses générées par les hommes sera certainement source d'autant de défis que d'opportunités pour les entreprises au cours des prochaines années.

Rob Sobers

Rob Sobers* est concepteur, développeur Web et stratège technique chez Varonis Systems. Il rédige un blog populaire sur la sécurité et le développement de logiciels sur le site accidentalhacker.com et il est coauteur du livre électronique « Learn Ruby the Hard Way » (ruby.learncodethehardway.org, 2011). Il travaille depuis 12 ans dans le secteur de la technologie et, avant de rejoindre Varonis, M. Sobers a occupé divers postes d'ingénierie logicielle, de conception et de services professionnels.*

Contenu associé