管理爬网规则 (SharePoint Server 2010)

 

适用于: SharePoint Server 2010

上一次修改主题: 2011-11-11

您可以添加爬网规则以在对内容进行爬网时包含或排除特定路径。在包含某个路径时,可以选择提供备用帐户凭据以对该路径进行爬网。除创建或编辑爬网规则外,您还可以测试、删除或重新排序现有爬网规则。

本文内容:

  • 创建或编辑爬网规则

  • 对 URL 测试爬网规则

  • 删除爬网规则

  • 重新排序爬网规则

创建或编辑爬网规则

  1. 确保执行此过程的用户帐户是 Search Service 应用程序的服务应用程序管理员。

  2. 在管理中心的“应用程序管理”部分,单击“管理服务应用程序”。

  3. 在“管理服务应用程序”页上的服务应用程序列表中,单击“Search Service 应用程序”。

  4. 在“搜索管理”页上的“快速启动”中,单击“爬网规则”。即会显示“管理爬网规则”页。

  5. 若要创建新的爬网规则,请单击“新建爬网规则”。若要编辑现有爬网规则,请在爬网规则列表中,指向要编辑的爬网规则的名称,单击出现的箭头,然后单击“编辑”。

  6. 在“添加爬网规则”页上的“路径”部分:

    • 在“路径”框中,键入将应用爬网规则的路径。可以在路径中使用标准通配符。

    • 选中“与此规则匹配时遵循正则表达式语法”复选框,以使用正则表达式而不是通配符。

    • 如果希望提供的路径中的大小写与实际路径中的大小写完全匹配,请选中“区分大小写”复选框。

  7. 在“爬网配置”部分,选择下列选项之一:

    • 排除此路径中的所有项目。如果要从爬网中排除指定路径中的所有项目,请选择此选项。如果选择此选项,则可以通过选择以下项来细化所排除的内容:

      • 排除复杂 URL(即包含问号(?)的 URL)。如果要排除的 URL 包含使用问号 (?) 符号的参数,请选择此选项。
    • 包含此路径中的所有项目:如果要对路径中的所有项目进行爬网,请选择此选项。如果选择此选项,则可以通过选择下列各项的任意组合来进一步细化所包含的内容:

      • 使用该 URL 上的链接,而不对该 URL 本身进行爬网:如果要对 URL 中包含的链接进行爬网但不对起始 URL 本身进行爬网,请选择此选项。

      • 对复杂 URL (包含问号(?)的 URL)进行爬网:如果要对包含使用问号 (?) 符号的参数的 URL 进行爬网,请选择此选项。

      • 将 SharePoint 内容作为 HTTP 页面进行爬网:通常使用特殊协议对 SharePoint 网站进行爬网。如果要改为将 SharePoint 网站作为 HTTP 页面进行爬网,请选择此选项。使用 HTTP 协议对内容进行爬网时,不会存储项目权限。

  8. 在“指定验证”部分,执行下列操作之一:

    备注

    除非在“爬网配置”部分选择“包含此路径中的所有项目”选项,否则此选项不可用。

    • 若要使用默认内容访问帐户,请选择“使用默认内容访问帐户”。

    • 如果要使用其他帐户,请选择“指定其他内容访问帐户”,然后执行下列操作:

      1. 在“帐户”框中,键入可访问此爬网规则中所定义的路径的用户帐户名称。

      2. 在“密码”和“确认密码”框中,键入此用户帐户的密码。

      3. 若要阻止使用基本身份验证,请选中“不允许基本身份验证”复选框。服务器会尝试使用 NTLM 身份验证。如果 NTLM 身份验证失败,那么除非选中“不允许基本身份验证”复选框,否则服务器会尝试使用基本身份验证。

    • 若要将客户端证书用于身份验证,请选择“指定客户端证书”,展开“证书”菜单,然后选择一个证书。

    • 若要将窗体凭据用于身份验证,请选择“指定窗体凭据”,在“窗体 URL”框中键入窗体 URL(接受凭据信息的页面的位置),然后单击“输入凭据”。当远程服务器的登录提示在新窗口中打开时,请键入要用于登录的窗体凭据。如果登录成功,系统将会提示您。如果登录成功,则进行身份验证所需的凭据将存储在远程网站上。

    • 若要使用 Cookie,请选择“将 Cookie 用于爬网”,然后选择以下任一选项:

      • 从 URL 获取 Cookie。选择此选项可以从网站或服务器获取 Cookie。

      • 指定 Cookie 进行爬网。选择此选项可以从本地文件系统或文件共享导入 Cookie。您可以选择在“错误页(以分号分隔)”框中指定错误页面。

  9. 单击“确定”。

对 URL 测试爬网规则

  1. 确保执行此过程的用户帐户是 Search Service 应用程序的服务应用程序管理员。

  2. 在管理中心的“应用程序管理”部分,单击“管理服务应用程序”。

  3. 在“管理服务应用程序”页上的服务应用程序列表中,单击“Search Service 应用程序”。

  4. 在“搜索管理”页上的“快速启动”中,单击“爬网规则”。

  5. 在“管理爬网规则”页上的“键入某个 URL,然后单击‘测试’以了解其是否符合规则”框中,键入要测试的 URL。

  6. 单击“测试”,测试结果将显示在“键入某个 URL,然后单击‘测试’以了解其是否符合规则”框的下方。

删除爬网规则

  1. 确保执行此过程的用户帐户是 Search Service 应用程序的服务应用程序管理员。

  2. 在管理中心的“应用程序管理”部分,单击“管理服务应用程序”。

  3. 在“管理服务应用程序”页上的服务应用程序列表中,单击“Search Service 应用程序”。

  4. 在“搜索管理”页上的“快速启动”中,单击“爬网规则”。

  5. 在“管理爬网规则”页上的爬网规则列表中,指向要删除的爬网规则的名称,单击出现的箭头,然后单击“删除”。

  6. 单击“确定”以确认要删除此爬网规则。

重新排序爬网规则

  1. 确认执行此过程的用户帐户是 Search Service 应用程序的服务应用程序管理员。

  2. 在管理中心的“应用程序管理”部分,单击“管理服务应用程序”。

  3. 在“管理服务应用程序”页上的服务应用程序列表中,单击“Search Service 应用程序”。

  4. 在“搜索管理”页上的“快速启动”中,单击“爬网规则”。

  5. 在“管理爬网规则”页上的爬网规则列表的“顺序”栏中,指定规则要占据的爬网规则位置。其他值将相应移位。