管理爬网规则 (Office SharePoint Server)

您可以添加爬网规则以在爬网内容时包含或排除特定路径。在包含某个路径时,可以选择提供备用帐户凭据以对该路径进行爬网。除添加新的爬网规则外,您还可以测试、编辑、删除或重新排序现有爬网规则。

将按照所列顺序应用爬网规则。

若要管理爬网规则,则必须首先打开“管理爬网规则”页面:

  1. 打开共享服务提供程序 (SSP) 的管理页面。

    若要打开 SSP 的管理页面,请执行下列操作:

    1. 在顶部导航栏上,单击“应用程序管理”。

    2. 在“应用程序管理”页上的“Office SharePoint Server 共享服务”部分,单击“创建或配置此服务器场的共享服务”。

    3. 在“管理此服务器场的共享服务”页上,单击要打开其管理页面的 SSP。

  2. 在“共享服务管理”主页上的“搜索”部分,单击“搜索设置”。

  3. 在“配置搜索设置”页面上的“爬网设置”部分,单击“爬网规则”。

您希望做什么?

  • 添加爬网规则

  • 对 URL 测试爬网规则

  • 编辑爬网规则

  • 删除爬网规则

  • 对爬网规则重新排序

添加爬网规则

  1. 在“管理爬网规则”页上,单击“新建爬网规则”。

  2. 在“添加爬网规则”页上的“路径”部分的“路径”框中,键入受此规则影响的路径。可在路径中使用标准通配符。例如:

    • http://server1/folder* 包含 URL 以 http://server1/folder 开头的所有 Web 资源。

    • *://*.txt 包含扩展名为 txt 的所有文档。

  3. 在“爬网配置”部分,选择下列选项之一:

    • 排除此路径中的所有项目:如果要从爬网范围中排除指定路径中的所有项目,请选择此选项。

    • 包含此路径中的所有项目:如果要对路径中的所有项目进行爬网,请选择此选项。选择此选项时,可以通过选择下列任意组合的选项来进一步优化所包含的内容:

    • 使用该 URL 上的链接,而不对该 URL 本身进行爬网:如果要对 URL 中包含的链接进行爬网但不对 URL 本身进行爬网,请选择此选项。

    • 对复杂 URL (包含问号(?)的 URL)进行爬网:如果要对包含使用问号 (?) 符号的参数的 URL 进行爬网,请选择此选项。

    • 将 SharePoint 内容作为 HTTP 页面进行爬网:通常使用特殊协议对 SharePoint 内容进行爬网。如果要改为将 SharePoint 内容作为 HTTP 页面进行爬网,请选择此选项。使用 HTTP 协议对内容进行爬网时,不会存储项目权限。

  4. 在“指定验证”部分,执行下列操作之一:

    • 若要使用默认的内容访问帐户,请选择“使用默认内容访问帐户(NT AUTHORITY\LOCAL SERVICE)”。

    • 如果要使用其他帐户,请选择“指定其他内容访问帐户”,然后执行下列操作:

    1. 在“帐户”框中,键入可访问此爬网规则所定义的路径的帐户名称。例如用户名和域\用户名。

    2. 在“密码”和“确认密码”框中,键入此帐户的密码。

    3. 若要阻止使用基本身份验证,请选中“不允许基本身份验证”复选框。服务器会尝试使用 Windows NTLM 身份验证。如果 NTLM 身份验证失败,那么除非选中“不允许基本身份验证”复选框,否则服务器会尝试使用基本身份验证。

    • 若要将客户端证书用于身份验证,请选择“指定客户端证书”,然后单击“证书”菜单上的证书。
  5. 单击“确定”。

对 URL 测试爬网规则

您可以对某个 URL 测试爬网规则,以确定在对该 URL 进行爬网时将应用哪些规则,以及应用这些规则会产生怎样的结果(包含或排除内容)。但对 URL 测试爬网规则时实际上并不会对该 URL 进行爬网。

  1. 在“管理爬网规则”页上的“键入某个 URL,然后单击‘测试’以了解其是否符合规则”框中,键入要测试的 URL。

  2. 单击“测试”。

  3. 测试结果将列在“键入某个 URL,然后单击‘测试’以了解其是否符合规则”框的下方。

编辑爬网规则

如果编辑爬网规则,则所做更改将在下次启动完全爬网后生效。

  • 在“管理爬网规则”页上的爬网规则列表中,单击要编辑的爬网规则菜单上的“编辑”。

    您可以在“添加爬网规则”部分中找到有关爬网规则的设置的信息。

删除爬网规则

如果删除爬网规则,则删除操作将在下次启动完全爬网后生效。

  1. 在“管理爬网规则”页上的爬网规则列表中,单击要删除的爬网规则菜单上的“删除”。

  2. 在确认要删除爬网规则的消息框中,单击“确定”。

对爬网规则重新排序

  • 在“管理爬网规则”页上的爬网规则列表中的“顺序”列中,选择下拉列表中指定希望规则占用的位置的值。其他值将会相应移位。

    将按照所列顺序应用爬网规则。因此,如果两个规则包含相同或重叠的内容,将应用列出的第一个规则。

    您也可以使用全局排除规则,应用该规则时不考虑其所列出的顺序。有关如何管理爬网规则的详细信息,请参阅以下资源中的“管理爬网规则”部分:Book Excerpt - Chapter 16 Enterprise search and indexing architecture and administration(该链接可能指向英文页面)。