Administración de TI: La extracción de datos

Artículo
08/24/2016

Los grandes datos están a punto de sobrepasar las capacidades de análisis y administración de las empresas modernas, pero existen tanto desafíos como oportunidades.

Rob Sobers

El fenómeno de los grandes datos generados por usuarios incluye los petabytes y exabytes de datos estructurados y no estructurados producidos por las empresas de hoy. Sin embargo, aún queda la pregunta principal: ¿Se trata de una nueva fiebre por el petróleo que dejará pocos ganadores y muchos perdedores, o será una experiencia que nos beneficiará a todos?

Los contenidos generados por usuarios comprenden todos los archivos y correos electrónicos que producimos día a día. Estos incluyen presentaciones, documentos de procesamiento de texto, hojas de cálculo, archivos de audio y otros tipos de documentos generados a cada hora. Son estos tipos de archivos los que ocupan gran parte del espacio de almacenamiento digital en la mayoría de las organizaciones. Estos contenidos, que cuentan con grandes cantidades de metadatos asociados, deben almacenarse durante lapsos considerables de tiempo.

El contenido generado por usuarios es enorme, y sus metadatos lo son aún más. Los metadatos son la información relacionada a un archivo: quién lo creó y dónde lo hizo, qué tipo de archivo es, en qué carpeta está almacenado, quién lo usó y quién tiene acceso a este. El contenido junto a los metadatos conforman el universo de grandes datos generados por usuarios.

Avalancha de datos

El problema radica en que la mayoría de las grandes organizaciones aún no cuenta con las herramientas necesarias para aprovechar al máximo los grandes datos generados por usuarios. Según una encuesta reciente en la que participaron más de 1.000 expertos y usuarios de Internet publicada por el Pew Research Center y el Imagining the Internet Center de la Universidad de Elon, el mundo no está lo suficientemente preparado para usar y comprender este tipo de información.

Los expertos concluyeron que para el 2020, las grandes cantidades de datos bautizadas como "tubo de escape digital" podrían incrementar la productividad, mejorar la transparencia a nivel organizacional y expandir las fronteras del "futuro conocible". Sin embargo, existe preocupación sobre quién tendrá acceso a esta información, quién controlará ese acceso y si los gobiernos y entidades corporativas usarán esta información con inteligencia.

Según la encuesta: "Para el 2020, los análisis humano y mecanizado de grandes datos podrían mejorar la inteligencia social, política y económica. El surgimiento de lo que se conoce como grandes datos facilitará tareas como la predicción de eventos en tiempo real; el desarrollo de 'software inferencial' destinado a analizar patrones de información y pronosticar resultados, y la creación de algoritmos de correlación avanzada que permitirán comprender el mundo de una mejor manera".

Del total de entrevistados, un 39 por ciento de los expertos en Internet estuvo de acuerdo con el contraargumento sobre los beneficios de los grandes datos. Este punto de vista contrario plantea lo siguiente: "Para el 2020, los análisis humano y mecanizado de grandes datos causarán más problemas de los que solucionan. La existencia de grandes conjuntos de datos generará una falsa confianza en nuestro poder predictivo y podría provocar errores importantes y graves. Además, personas e instituciones poderosas con propósitos egoístas usarán el análisis de grandes datos con el fin de manipular resultados a su conveniencia".

Una de las personas que participó en este estudio fue el empresario Bryan Trogdon. "Los grandes datos son el nuevo petróleo", comenta. "Las compañías, gobiernos y organizaciones que exploten este recurso tendrán una gran ventaja sobre aquellos que no lo usen. En un contexto donde los ganadores y perdedores se determinan a través de la velocidad, agilidad e innovación, los grandes datos nos permiten pasar desde el concepto de 'medir dos veces y cortar una' al de 'hacer pequeñas apuestas rápidamente'".

Otro de los entrevistados, el profesor y bloguero Jeff Jarvis, agrega: "Los medios y sus encargados están demonizando los grandes datos y su supuesta amenaza a la privacidad. Los avances tecnológicos generalmente provocan este tipo de pánico moral. Pero se mantiene la moraleja: estos datos ofrecen valor, el valor de nuestra nueva habilidad para compartir".

"Los fundadores de Google solicitaron a los agentes de gobierno que no se les haga borrar las búsquedas porque, dentro de sus patrones y anomalías, descubrieron la habilidad de rastrear el brote de una gripe antes que los funcionarios de salud; de este modo, se cree que el seguimiento de una pandemia podría salvar millones de vidas", afirma Jarvis. "Demonizar cualquier tipo de dato, ya sea grande o pequeño, equivale a demonizar el conocimiento, y eso no es prudente".

Sean Mead es director de análisis en Mead, Mead & Clark, Interbrand. En sus palabras, "los conjuntos de datos de gran volumen y acceso público, herramientas más fáciles de usar, una distribución más amplia de habilidades analíticas y la fase inicial del software de inteligencia artificial conducirán a un crecimiento en la actividad económica y a un incremento en la producción comparable solamente con la revolución generada por Internet y los equipos entre mediados y fines de la década de los 90". "Emergerán movimientos sociales exigiendo el libre acceso a los grandes volúmenes de datos almacenados, restringir el desarrollo y uso de IA y 'liberar' la IA".

Más allá del análisis

Estos interesantes argumentos apuntan hacia el centro de la discusión. Nuestros conjuntos de datos han sobrepasado nuestra habilidad de análisis y procesamiento al punto de requerir automatización sofisticada para llevar a cabo dichas tareas. Debemos confiar en la tecnología para así poder analizar y hacer frente a esta enorme ola de contenidos y metadatos.

El análisis de grandes datos generados por usuarios ofrece un gran potencial. Asimismo, el aprovechamiento del poder de los metadatos ha sido esencial para administrar y proteger los contenidos generados por usuarios. Los archivos compartidos, el correo electrónico y la intranet permiten que los usuarios empresariales guarden y compartan archivos fácilmente; a tal punto ha llegado esta modalidad que un gran número de organizaciones cuentan con más contenido que el que pueden administrar y proteger mediante el uso de pequeños sistemas de administración de datos.

La mayoría de las empresas enfrentan problemas reales debido a que ya no pueden resolver las interrogantes que solían responder hace 15 años a través de conjuntos de datos pequeños y estáticos. Algunas de estas preguntas incluyen: ¿En qué lugar están ubicados los datos críticos?, ¿quién tiene acceso a estos datos?, ¿quién debería tener acceso a estos datos? A raíz de esto, la firma investigadora IDC estima que solo la mitad de los datos que deberían estar a salvo se encuentran efectivamente protegidos.

Este problema se ve complementado por el sistema de intercambio de archivos en la nube. Este tipo de servicio crea otro espacio creciente de almacenamiento de contenidos generados por usuarios que se necesita administrar y proteger. En este sentido, los contenidos en la nube se encuentran fuera de la estructura corporativa, poseen distintos tipos de control y procesos de administración, agregando de este modo nuevos niveles de complejidad.

David Weinberger, del Berkman Center de la Universidad de Harvard comenta: "Estamos comenzando a comprender la gran cantidad de problemas que se pueden resolver gracias a los grandes datos, incluso si esto implica reconocer que somos criaturas menos impredecibles, libres y precipitadas que lo que nos gustaría ser. Así, las organizaciones estarían agradecidas si el aprovechamiento del poder de los grandes datos generados por usuarios logran que la protección y la administración de contenidos sea menos impredecible, libre y precipitada".

No cabe duda que el concepto de grandes datos generados por usuarios presentará tanto desafíos como oportunidades para las empresas dentro de los próximos años.

Rob Sobers

Rob Sobers* es diseñador, desarrollador web y analista técnico en Varonis Systems. Escribe en un conocido blog sobre desarrollo y seguridad de software en accidentalhacker.com y es coautor del libro electrónico "Learn Ruby the Hard Way" (ruby.learncodethehardway.org, 2011). Rob Sobers es un veterano en la industria de la tecnología con 12 años de carrera. Antes de incorporarse a Varonis, Sobers ocupó cargos de ingeniería en software, diseño y servicios profesionales.*

Contenido relacionado

Share via

Administración de TI: La extracción de datos

Rob Sobers

Avalancha de datos

Más allá del análisis

Recursos adicionales