使用爬网规则来确定要爬网的内容 (Office SharePoint Server 2007)

SharePoint 2007

更新: 2009-08-10

本文内容:

在执行这些过程之前,请确认以下内容:

Important 重要说明:

您必须是共享服务管理员,才能执行本文中包含的过程。

可以创建新的爬网规则或编辑现有的爬网规则以确定要爬网的内容。也可以对爬网规则重新排序以指定应用这些规则的顺序。

创建爬网规则

使用以下过程可创建爬网规则。

创建爬网规则

  1. 根据您的安装状态,完成以下步骤之一。

    • 如果已安装 Microsoft Office Server 的基础结构更新,请在“管理中心”的“快速启动”上,单击“共享服务管理”组中的一个共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索管理”。

      在“搜索管理”页面的“快速启动”上,单击“爬网”部分的“爬网规则”。

      Note 注意:

      有关详细信息,请参阅 Microsoft Office Server 基础结构更新说明 (http://go.microsoft.com/fwlink/?linkid=121886&clcid=0x804)。

    • 如果未安装 Microsoft Office Server 的基础结构更新,请在“管理中心”的“快速启动”上,单击“共享服务管理”组中的一个共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索设置”。

      在“配置搜索设置”页面上的“爬网设置”部分,单击“爬网规则”。

  2. 在“管理爬网规则”页上,单击“新建爬网规则”。

  3. 在“添加爬网规则”页上的“路径”部分的“路径”框中,键入受此规则影响的路径。可在路径中使用标准通配符。例如:

    • “http://server1/folder*”包含具有以 http://server1/folder 开头的 URL 的所有 Web 资源。

    • “*://*.txt”包含具有 txt 文件扩展名的每个文档。

  4. 在“爬网配置”部分,选择下列选项之一:

    • “排除此路径中的所有项目”。如果要从爬网范围中排除指定路径中的所有项目,请选择此选项。

    • “包含此路径中的所有项目”。如果要对路径中的所有项目进行爬网,请选择此选项。

  5. 如果您选择排除此路径中的所有项目,请跳到步骤 7。否则,您可以通过选择下面的任意组合来进一步优化所包含的内容:

    • “使用该 URL 上的链接,而不对该 URL 本身进行爬网”。如果要对 URL 中包含的链接进行爬网但不对 URL 本身进行爬网,请选择此选项。

    • “对复杂 URL (包含问号(?)的 URL)进行爬网”。如果要对包含使用问号 (?) 表示法的参数的 URL 进行爬网,请选择此选项。

    • “将 SharePoint 内容作为 HTTP 页面进行爬网”。通常,将使用特殊协议对 SharePoint 内容进行爬网。如果要改为将 SharePoint 内容作为 HTTP 页面进行爬网,请选择此选项。使用 HTTP 协议对内容进行爬网时,不会存储项目权限。这意味着与特定搜索查询匹配的所有项目都会出现在搜索结果页面上,而不管启动此查询的用户是否具有对这些项目的访问权。

      此设置旨在使搜索管理员能够对其没有显式控制权的远程 SharePoint 网站进行爬网,从而使得无法向用于对这些远程网站进行爬网的域帐户强制授予这些网站的完全读取权限。

    Note 注意:

    有关“指定验证”部分中的设置的信息,请参阅使用爬网规则来指定其他内容访问帐户或身份验证方法 (Office SharePoint Server 2007)

  6. 单击“确定”。

  7. 对于要创建的每个新爬网规则,重复步骤 4 到步骤 7。

编辑爬网规则

可以随时编辑现有的爬网规则,方式是单击此爬网规则,然后对路径和配置进行必要的修改,如上一过程中所述。

Note 注意:

这将需要对受已更改的爬网规则影响的内容进行完全爬网。

删除爬网规则

使用以下过程可删除不再需要的爬网规则。

删除爬网规则

  1. 根据您的安装状态,完成以下步骤之一。

    • 如果已安装 Microsoft Office Server 的基础结构更新,请在“管理中心”的“快速启动”上,单击“共享服务管理”组中的一个共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索管理”。

      在“搜索管理”页面的“快速启动”上,单击“爬网”部分的“爬网规则”。

      Note 注意:

      有关详细信息,请参阅 Microsoft Office Server 基础结构更新说明 (http://go.microsoft.com/fwlink/?linkid=121886&clcid=0x804)。

    • 如果未安装 Microsoft Office Server 的基础结构更新,请在“管理中心”的“快速启动”上,单击“共享服务管理”组中的一个共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索设置”。

      在“配置搜索设置”页面上的“爬网设置”部分,单击“爬网规则”。

  2. 在“管理爬网规则”页上,指向要删除的爬网规则,单击出现的箭头,然后在出现的菜单上单击“删除”。

  3. 单击“确定”确认删除。

Note 注意:

这将需要对受已删除的爬网规则影响的内容进行完全爬网。

对爬网规则重新排序

在创建新的爬网规则后,我们建议您指定在对内容进行爬网时要应用规则的顺序。爬网规则将按照所列顺序应用。因此,如果两个规则包含相同或重叠的内容,将应用列出的第一个规则。请使用下面的过程指定爬网规则的顺序。

对爬网规则重新排序

  1. 根据您的安装状态,完成以下步骤之一。

    • 如果已安装 Microsoft Office Server 的基础结构更新,请在“管理中心”的“快速启动”上,单击“共享服务管理”组中的一个共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索管理”。

      在“搜索管理”页面的“快速启动”上,单击“爬网”部分的“爬网规则”。

      Note 注意:

      有关详细信息,请参阅 Microsoft Office Server 基础结构更新说明 (http://go.microsoft.com/fwlink/?linkid=121886&clcid=0x804)。

    • 如果未安装 Microsoft Office Server 的基础结构更新,请在“管理中心”的“快速启动”上,单击“共享服务管理”组中的一个共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索设置”。

      在“配置搜索设置”页面上的“爬网设置”部分,单击“爬网规则”。

  2. 在“管理爬网规则”页上的爬网规则列表的“顺序”列中,在列表中选择一个用于指定规则要占用的位置的值。其他值将会相应移位。

    您也可以使用全局排除规则,应用该规则时不考虑其所列出的顺序。有关管理爬网规则的详细信息,请参阅以下资源中的“管理爬网规则”部分:Book Excerpt - Chapter 16 Enterprise search and indexing architecture and administration(该链接可能指向英文页面)。

Note 注意:

这将需要对受已重新定位的爬网规则影响的内容进行完全爬网。

显示: