文档指纹

项目
04/04/2023

适用于：Exchange Server 2013

组织中的信息工作人员每天会处理大量的敏感信息。 文档指纹 识别通过识别整个组织中使用的标准表单，可以更轻松地保护此信息。本主题介绍文档指纹所基于的概念。如果您想了解如何创建文档指纹，请参阅使用文档指纹保护表单数据。

文档指纹的基本方案

文档指纹是数据丢失防护 (DLP) 功能，可将标准表单转换为敏感信息类型，可用于定义传输规则和 DLP 策略。例如，您可以基于空白父模板来创建文档指纹，然后创建 DLP 策略，用于检测和阻止所有包含敏感内容的传出父模板。您也可以选择设置策略提示，以通知发件人他们所发送的是敏感信息，发件人应确认收件人有资格接收这些父模板。此过程与组织中使用的任何基于文本的表单一起使用。您可以上载的其他表单示例包括：

政府表单
符合《健康保险可携性与责任法案》 (HIPAA) 的表单
人力资源部的员工信息表单
组织专门创建的自定义表单

理想情况下，贵组织已经创建使用特定表单传输敏感信息的业务实践。上载要转换为文档指纹的空白表单并设置相应的策略后，DLP 将检测出站邮件中与该指纹匹配的任何文档。

文档指纹的工作原理

您可能已经猜到，文档并非真的有指纹，只是"指纹"这个词可以表明其功能。人的指纹各不相同，同理，文档的单词模式也各不相同。上载文件后，DLP 代理将确定文档中的独特单词模式、创建基于该模式的文档指纹，并使用该文档指纹检测包含相同指纹的出站文档。这也是为什么上载表单或模板可以创建最有效的文档指纹的原因。填写表单的每个人使用相同的单词集，然后在文档中添加自己的词句。只要出站文档未进行密码保护且包含原始表单中的所有文本，DLP 代理就能确定文档是否与文档指纹匹配。

下列示例说明了当您基于父模板创建文档指纹时发生了什么，但您可以使用任何表单作为基础来创建文档指纹。

与文档指纹匹配的专利文档。

专利模板包含空白字段“专利标题”、“发明人”和“说明”以及每个字段的说明，即单词模式。上传原始专利模板时，它采用受支持的文件类型之一和纯文本格式。 DLP 代理使用算法将此单词模式转换为文档指纹，该指纹是一个小型 Unicode XML 文件，其中包含表示原始文本的唯一哈希值，并且指纹在 Active Directory 中保存为数据分类。 (作为安全措施，原始文档本身不存储在服务上;仅存储哈希值，并且无法从哈希值重新构造原始文档。) 然后，专利指纹将成为可与 DLP 策略关联的敏感信息类型。将指纹与 DLP 策略关联后，DLP 代理将检测包含与专利指纹匹配的文档的任何出站电子邮件，并根据组织的策略处理它们。例如，你可能想要设置一个 DLP 策略，以防止普通员工发送包含专利的传出消息。 DLP 代理将使用专利指纹来检测专利并阻止这些电子邮件。或者，你可能希望让法律部门能够向其他组织发送专利，因为它有这样做的业务需要。可以通过在 DLP 策略中为这些部门创建例外来允许特定部门发送敏感信息，也可以允许他们用业务理由替代策略提示。有关创建 DLP 策略规则和例外的更多详细信息，请参阅 DLP 过程，若要详细了解如何设置用户可以替代的策略提示，请参阅 Exchange 2013 中的策略提示。

支持的文件类型

文档指纹支持与传输规则中相同的文件类型。有关支持的文件类型列表，请参阅传输规则内容检查支持的文件类型。关于文件类型的简短说明：传输规则或文档指纹均不支持 .dotx 文件类型，它们可能会混淆，因为这是 Word 中的模板文件。当您在本主题或其他文档指纹主题中看到"template"一词时，它是指您构建为标准模板的文档，而非模板文件类型。

文档指纹的限制

在下列情况下，文档指纹 DLP 代理不会检测敏感信息：

密码保护的文件
仅包含图片的文件
不包含用于创建文档指纹的原始表单中所有文本的文档

详细信息

使用文档指纹保护表单数据

将敏感信息规则与传输规则集成

DLP 过程