添加爬网程序影响规则 (Office SharePoint Server 2007)

本文介绍如何添加用于对网站进行爬网的爬网程序影响规则。在执行此过程之前,请确认以下内容:

添加爬网程序影响规则时,可指定下列限制之一,以便对指定的网站进行爬网:

  • 爬网程序每次可从网站中请求的最大文档数。

  • 爬网程序可从网站中请求文档的频率。

本文内容:

  • 添加爬网程序影响规则

  • 在网站名称中使用通配符

添加爬网程序影响规则

使用此过程可添加爬网程序影响规则。

添加爬网程序影响规则

  1. 根据安装的状态,完成以下步骤之一。

    • 如果安装了 Microsoft Office Server 的基础结构更新,请在管理中心的“快速启动”上的“共享服务管理”组中单击共享服务。

      在“共享服务管理”页面上的“搜索”部分中,单击“搜索管理”。

      在“搜索管理”页面上的“爬网”部分中,单击“爬网程序影响规则”。

      Note

      有关详细信息,请参阅 Microsoft Office Server 基础结构更新说明 (https://go.microsoft.com/fwlink/?linkid=121886&clcid=0x804)。

    • 如果未安装 Microsoft Office Server 的基础结构更新,请在管理中心的“应用程序管理”选项卡上的“搜索”部分中,单击“管理搜索服务”。

      在“管理搜索服务”页面上的“服务器场级搜索设置”部分中,单击“爬网程序影响规则”。

  2. 在“爬网程序影响规则”页上,单击“添加规则”。

  3. 在“添加爬网程序影响规则”页面上的“网站”部分的“网站”框中,键入将与此爬网程序影响规则关联的网站名称。有关在网站名称中和通配符的详细信息,请参阅在网站名称中使用通配符。

    备注

    键入 URL 时,不得包含协议。例如,不要包括 http:// 或 file://。

  4. 在“请求频率”部分中,选择下列选项之一:

    • 一次最多请求指定的文档数,并且在两次请求之间不等待。如果您选择此选项,则使用“同时请求数”列表来选择您希望爬网程序在对此 URL 进行爬网时一次请求的文档数量。可以指定 Office SharePoint Services 搜索服务在对此 URL 进行爬网时一次发出的最大请求数。

    • 一次请求一个文档,并在两次请求之间等待指定的时间。您可以指定在对此 URL 进行爬网时两次请求之间的延迟(秒)。选择此选项时,Office SharePoint Server 搜索服务一次向每个网站发出一个请求,然后等待指定的时间,之后再发出下一个请求。在“等待时间(秒)”框中,键入两次请求之间的等待时间(秒)。两次请求之间的最短等待时间为 1 秒,最长时间为 1,000 秒。

  5. 单击“确定”。

在网站名称中使用通配符

可使用爬网程序影响规则指定单个网站,或者可以使用通配符,以便将规则应用于多个网站。下表列出了在添加爬网程序影响规则时可以在网站名称中使用的通配符。

使用 执行以下操作

* 作为网站名称

将规则应用于所有网站。

*.* 作为网站名称

将规则应用于名称中有句点的网站。

*.网站名称.com 作为网站名称

将规则应用于 网站名称.com 域中的所有网站(例如,*.adventure-works.com)。

*.顶级域名(例如 *.com 或 *.net)作为网站名称

将规则应用于以特定顶级域名(例如,.com 或 .net)结尾的所有网站。

?

表示网站名称的单个字符。例如,*.adventure-works?.com 适用于诸如 adventure-works1.com、adventure-works2.com 等域中的所有网站。

例如,管理员可以为 *.com 创建一个爬网程序影响规则,该规则适用于地址以 .com 结尾的所有 Internet 网站。门户管理员可以为 samples.microsoft.com 添加内容源。除非 samples.microsoft.com 有专用的爬网程序影响规则,否则 *.com 规则也适用于此网站。

另请参见

概念

编辑爬网程序影响规则 (Office SharePoint Server 2007)