使用爬网规则来确定要进行爬网的内容 (Search Server 2008)

更新时间: 2009年8月

应用到: Microsoft Search Server 2008

 

上一次修改主题: 2009-08-10

提示

除非另有说明,否则本文中的信息对 Microsoft Search Server 2008 和 Microsoft Search Server 2008 Express 均适用。

本文内容:

  • 创建爬网规则

  • 编辑爬网规则

  • 删除爬网规则

  • 对爬网规则重新排序

在执行这些过程之前,请确认以下内容:

Important重要信息
您必须是搜索服务管理员才能执行本文中包含的过程。有关详细信息,请参阅添加或删除搜索服务管理员 (Search Server 2008)

可以创建新的爬网规则或编辑现有的爬网规则以确定要进行爬网的内容。也可以对爬网规则重新排序以指定应用这些规则的顺序。

创建爬网规则

使用以下过程可创建爬网规则。

创建爬网规则

  1. 在“搜索管理”页面上的“爬网”部分中,单击“爬网规则”。

  2. 在“管理爬网规则”页上,单击“新建爬网规则”。

  3. 在“添加爬网规则”页面上“路径”部分的“路径”框中,键入受此规则影响的路径。可在路径中使用标准通配符。例如:

    • “http://server1/folder*”包含具有以 http://server1/folder 开头的 URL 的所有 Web 资源。

    • “*://*.txt”包含具有 txt 文件扩展名的每个文档。

  4. 在“爬网配置”部分中,选择下列选项之一:

    • 排除此路径中的所有项目:如果要从爬网范围中排除指定路径中的所有项目,请选择此选项。

    • 包含此路径中的所有项目:如果要对路径中的所有项目进行爬网,请选择此选项。

  5. 如果您选择排除此路径中的所有项目,请跳到步骤 7。否则,您可以通过选择下面的任意组合来进一步优化所包含的内容:

    • 使用该 URL 上的链接,而不对该 URL 本身进行爬网:如果要对 URL 中包含的链接进行爬网但不对 URL 本身进行爬网,请选择此选项。

    • 对复杂 URL (包含问号(?)的 URL)进行爬网:如果要对包含使用问号 (?) 符号的参数的 URL 进行爬网,请选择此选项。

    • “将 SharePoint 内容作为 HTTP 页面进行爬网”。通常,将使用特殊协议对 SharePoint 内容进行爬网。如果要改为将 SharePoint 内容作为 HTTP 页面进行爬网,请选择此选项。使用 HTTP 协议对内容进行爬网时,不会存储项目权限。这意味着与特定搜索查询匹配的所有项目都会出现在搜索结果页面上,而不管启动此查询的用户是否具有对这些项目的访问权。

      此设置旨在使搜索管理员能够对其没有显式控制权的远程 SharePoint 网站进行爬网,从而使得无法向用于对这些远程网站进行爬网的域帐户强制授予这些网站的完全读取权限。

    提示

    有关“指定验证”部分中的设置的信息,请参阅使用爬网规则指定其他内容访问帐户或身份验证方法 (Search Server 2008)

  6. 单击“确定”。

  7. 对于要创建的每个新爬网规则,重复步骤 2 到步骤 5。

编辑爬网规则

可以随时编辑现有的爬网规则,方式是单击此爬网规则,然后对路径和配置进行必要的修改,如上一过程中所述。

提示

这将需要对受已更改的爬网规则影响的内容进行完全爬网。

删除爬网规则

使用以下过程可删除不再需要的爬网规则。

删除爬网规则

  1. 在“共享服务管理”页上的“搜索”部分,单击“搜索设置”。

  2. 在“配置搜索设置”页上的“爬网设置”部分,单击“爬网规则”。

  3. 在“管理爬网规则”页上,指向要删除的爬网规则,单击出现的箭头,然后在出现的菜单上单击“删除”。

  4. 单击“确定”确认删除。

提示

这将需要对受已删除的爬网规则影响的内容进行完全爬网。

对爬网规则重新排序

在创建新的爬网规则后,我们建议您指定在对内容进行爬网时要应用规则的顺序。将按照所列顺序应用爬网规则。因此,如果两个规则涵盖相同或重叠的内容,则将应用列出的第一个规则。请使用下面的过程指定爬网规则的顺序。

对爬网规则重新排序

  • 在“共享服务管理”页上的“搜索”部分,单击“搜索设置”。

  • 在“配置搜索设置”页上的“爬网设置”部分,单击“爬网规则”。

  • 在“管理爬网规则”页上的爬网规则列表的“顺序”栏中,在指定规则要占用的位置的列表中选择一个值。其他值将相应移位。

    您还可以使用全局排除规则,对排除规则的应用与它在列表中的位置无关。有关管理爬网规则的详细信息,请参阅以下资源中的“管理爬网规则”部分:Book Excerpt - Chapter 16 Enterprise search and indexing architecture and administration(该链接可能指向英文页面)。

提示

这将需要对受已重新定位的爬网规则影响的内容进行完全爬网。