管理爬网程序影响规则(Office SharePoint Server 管理中心帮助)

爬网程序影响规则定义 Windows SharePoint Services 帮助搜索服务在爬网过程中向网站请求文档的频率。此频率可以定义为同时请求的文档数,也可以定义为两次请求之间的延迟时间。如果缺少爬网程序影响规则,则请求的文档数将介于 5 到 16 之间,具体取决于硬件资源。

利用爬网程序影响规则,可以在您对网站进行爬网时修改网站承受的负载。

网站名称表达式按顺序求值。通常,您应按从最具体到最一般的顺序列出爬网程序影响规则,原因是将会应用第一个匹配的规则。例如,* 必须始终是列表中的最后一个规则;否则,不会应用列在其后面的所有规则。如果在爬网正在进行时新建规则,则新规则在您保存它之后立即生效,而无需等到爬网完成(虽然已爬网的内容不会遵从新规则)。

若要对爬网程序影响规则执行添加、编辑、删除或重新排序操作,您必须先打开“爬网程序影响规则”页面:

  1. 在顶部导航栏上,单击“应用程序管理”。

  2. 在“应用程序管理”页面上的“搜索”部分中,单击“管理搜索服务”。

  3. 在“管理搜索服务”页面上的“服务器场级搜索设置”部分,单击“爬网程序影响规则”。

您希望做什么?

  • 添加爬网程序影响规则

  • 编辑爬网程序影响规则

  • 删除爬网程序影响规则

  • 对爬网程序影响规则重新排序

添加爬网程序影响规则

  1. 在“爬网程序影响规则”页面上,单击“添加规则”。

  2. 在“添加爬网程序影响规则”页面上,在“网站”部分中的“网站”框中键入网站的 URL,但不包括协议(例如,不要包括 http://)。下表显示了在添加规则时可以在网站名称中使用的通配符。

    使用 以便

    * 作为网站名称

    将规则应用于所有网站。

    *.* 作为网站名称

    将规则应用于名称中带点的网站。

    *.网站名称.com 作为网站名称

    将规则应用于“网站名称.com”域中的所有网站(例如,*.adventure-works.com)。

    *.顶级域名(例如,*.com 或 *.net)作为网站名称

    将规则应用于以特定顶级域名(例如,.com 或 .net)结尾的所有网站。

    ?

    替换规则中的单个字符。例如,*.adventure-works?.com 将应用于 adventure-works1.com、adventure-works2.com 等域中的所有网站。

    您可以创建一个 *.com 爬网程序影响规则,该规则应用于其地址以 .com 结尾的所有 Internet 网站。例如,门户管理员可能会为 samples.microsoft.com 添加内容源。*.com 规则应用于此网站,除非您专门为 samples.microsoft.com 添加一个爬网程序影响规则。

  3. 在“请求频率”部分中,选择下列选项之一:

    • 一次最多请求指定的文档数,并且在两次请求之间不等待。可以指定 Windows SharePoint Services 帮助搜索服务一次能向网站发出的最大请求数。在“同时请求数”菜单中,单击要执行的同时请求数。

    • 一次请求一个文档,并在两次请求之间等待指定的时间。您可以指定两次请求之间的延迟。搜索服务一次向每个网站发出一个请求,然后等待指定的时间,之后再发出下一个请求。在“等待时间(秒)”框中,键入两次请求之间的等待时间。两次请求之间的最短等待时间为 1 秒,最长时间为 999 秒。

    如果请求频率过高,搜索服务可能会使一些网站因收到大量请求而过载。

  4. 单击“确定”。

编辑爬网程序影响规则

  • 在“爬网程序影响规则”页面上的规则列表中,在您要编辑的规则的菜单上单击“编辑”。

    “添加爬网程序影响规则”一节中介绍了您可以编辑的设置。

删除爬网程序影响规则

  • 在“爬网程序影响规则”页面上的规则列表中,在您要删除的规则的菜单上单击“删除”。

对爬网程序影响规则重新排序

  • 在“爬网程序影响规则”页面上的规则列表中,在“顺序”列中,在指定规则要占用的位置的下拉列表中选择一个值。

    当前占用该位置的规则将向下移动一个位置,它下面的所有规则也是如此。