IT 管理：挖掘数据

项目
08/17/2016

大数据注定将超出现代企业的分析和管理能力范围，但挑战与机遇并存。

Rob Sobers

人为生成大数据的现象促使当今的企业生成了数千兆字节和数千兆兆字节的结构化和非结构化数据。大数据带来的大问题依然如旧：这又将是一个少数人获胜、多数人失败的“寻油热潮”，还是会让我们都满载而归？

人为生成的内容包括我们每天创建的所有文件和电子邮件，其中有演示文稿、 Word 处理文档、电子表格、音频文件以及我们时刻在生成的其他文档。对于大多数组织而言，这些文件占用了很大一部分数字存储空间。您必须将它们保留很长一段时间，而它们还有海量的相关元数据。

人为生成的内容的数量极其庞大，而其元数据甚至更多。元数据是有关文件的信息，包括文件的创建者、创建时间和类型以及存储文件的文件夹、正在阅读文件的人员和具有相应访问权限的人员。内容和元数据共同构成了整个人为生成的大数据。

数据雪崩

问题在于，大多数大型组织都尚未配备用于挖掘人为生成的大数据的工具。皮尤研究中心和依隆大学的互联网创想中心 (Imagining the Internet Center) 最近发布的一项针对 1,000 个以上的 Internet 专家和其他 Internet 用户的调查表明，全世界可能还没做好正确处理和了解大数据的准备。

这些专家得出了这样的结论：在 2020 年之前创建的海量数据（他们称为“数字化排放”）可以显著提高工作效率、增加组织透明度和扩大“可预知的将来”的边界。但是，他们也对有权访问此信息的人员、控制访问权限的人员以及政府或企业实体是否会妥善使用此信息感到担忧。

调查发现： “到 2020 年，对大数据的人员和机器分析可以提高社会、政治和经济方面的情报工作。所谓的大数据的增加将促进以下构想的实现：事件实时预测；开发用于评估项目成果的数据模式的‘推理软件’；创建出帮助获得对世界的全新认识的高级关联的算法”。

在上述调查中，39% 的 Internet 专家都对“大数据有益”持有反面观点。此反面观点断定： “到 2020 年，大数据的人员和机器分析所导致的问题将会超过它所解决的问题。用于分析的大量数据集的存在将使我们对自身的预测能力产生虚假的信心，并且会导致很多人犯下严重和伤筋动骨的错误。此外，大数据的分析将被掌有实权的人员和机构出于私人目的而滥用，他们会利用发现来为所欲为。

Bryan Trogdon 是参与了此项调研的企业家之一。 “大数据就像一个新油田，”他说， “能够开采此资源的公司、政府和组织相比那些不能开采的群体具有巨大的优势。由于速度、灵活度和创新决定了胜败者，因此大数据让我们的心态从“两次测量，一次剪裁”变成了“快速下小赌注”。

另一个受调查者 Jeff Jarvis（教授和博主）谈到： “媒体和监管者将大数据以及它对隐私的假想威胁妖魔化了。已经发生的此类道德恐慌通常归因于技术上的改变。但故事的寓意仍然是这样的：数据中的价值还有待发现，价值就在于我们新发现的共享能力。”

“Google 创始人曾力劝政府监管机构不要让他们快速删除搜索结果，因为他们在自己的模式和异常数据中发现自己能够比卫生官员更早地跟踪流感的爆发，并且他们相信，通过以类似的方式跟踪流行病，数百万生命可以得到挽救。”Jarvis 继续谈到， “将大数据或小数据妖魔化就是将知识妖魔化，这决不是明智的行为。”

Sean Mead 是国际品牌 Mead & Clark 的 Mead 业务分析主管。 “相比 20 世纪 90 年代中后期的 Internet 和 PC 革命，公开提供的大型数据集、更易于使用的工具、分析技能的更广泛的传播和早期人工智能软件将导致经济活动急剧增加和工作效率显著提升，”Mead 说， “社会运动将会出现，从而放开对大型数据存储库的访问、限制 AI 的开发和使用以及‘解放’AI”。

分析之外

上面所述的都是有趣的论点，而它们确实开始成为了问题的核心。我们的数据集已经增长过大，我们不使用先进的自动化技术就无法分析和处理它们。我们必须依赖技术才能分析和处理这样数量巨大的内容和元数据。

分析人为生成的大数据具有巨大的潜力。此外，利用元数据的力量已成为管理和保护人为生成的内容的关键。文件共享、电子邮件和 Intranet 使得商业用户能够如此轻松地保存和共享文件，以至于大多数组织现在所拥有的人为生成的内容的数量已经超过了他们使用小数据思维可以持续管理和保护的范围。

很多企业面临现实的问题，因为他们无法再回答 15 年前只有较小的静态数据集的情况下能回答的问题。这些问题的类型包括：关键数据位于何处？谁具有访问权限？谁应该具有访问权限？因此，行业研究机构 IDC 估计只有一半应该受到数据得到了保护。

除了此问题之外，还有基于云的文件共享的问题。这些服务又产生了对人为生成且需要管理和保护的内容的不断增长的存储。云内容位于企业基础结构之外，其控制和管理过程与在企业内有所不同，这进一步增加了复杂度。

哈佛大学 Berkman 中心的 David Weinberger 谈到“我们还只是刚开始了解大数据能解决的问题的范围，即使这意味着承认了我们人类比自己想象的还要缺乏预测能力、随便和鲁莽。如果利用人为生成的大数据的力量可以降低数据保护和管理的不可预测性、随意性和鲁莽性，组织就会欣喜万分。”

在接下来的几年，人为生成的大数据的理念毫无疑问会同时为企业带来机遇和挑战。

Rob Sobers

Rob Sobers* 是 Varonis Systems 的设计师、Web 开发人员和技术战略专家。他在 accidentalhacker.com 上撰写了一篇人气很旺的有关软件开发和安全性的博客，并且与人共同编写了电子书“Learn Ruby the Hard Way”（ruby.learncodethehardway.org，2011 年）。 Sobers 是一名拥有 12 年技术行业经验的资深人士，在加入 Varonis 之前，他曾经从事过软件工程、设计和专业服务方面的工作。*

IT 管理： 挖掘数据

Rob Sobers

数据雪崩

分析之外

其他资源

IT 管理：挖掘数据