管理爬网程序影响规则(Office SharePoint Server 管理中心帮助)
爬网程序影响规则定义 Windows SharePoint Services 帮助搜索服务在爬网过程中向网站请求文档的频率。此频率可以定义为同时请求的文档数,也可以定义为两次请求之间的延迟时间。如果缺少爬网程序影响规则,则请求的文档数将介于 5 到 16 之间,具体取决于硬件资源。
利用爬网程序影响规则,可以在您对网站进行爬网时修改网站承受的负载。
网站名称表达式按顺序求值。通常,您应按从最具体到最一般的顺序列出爬网程序影响规则,原因是将会应用第一个匹配的规则。例如,* 必须始终是列表中的最后一个规则;否则,不会应用列在其后面的所有规则。如果在爬网正在进行时新建规则,则新规则在您保存它之后立即生效,而无需等到爬网完成(虽然已爬网的内容不会遵从新规则)。
若要对爬网程序影响规则执行添加、编辑、删除或重新排序操作,您必须先打开“爬网程序影响规则”页面:
在顶部导航栏上,单击“应用程序管理”。
在“应用程序管理”页面上的“搜索”部分中,单击“管理搜索服务”。
在“管理搜索服务”页面上的“服务器场级搜索设置”部分,单击“爬网程序影响规则”。
您希望做什么?
添加爬网程序影响规则
编辑爬网程序影响规则
删除爬网程序影响规则
对爬网程序影响规则重新排序
添加爬网程序影响规则
在“爬网程序影响规则”页面上,单击“添加规则”。
在“添加爬网程序影响规则”页面上,在“网站”部分中的“网站”框中键入网站的 URL,但不包括协议(例如,不要包括 http://)。下表显示了在添加规则时可以在网站名称中使用的通配符。
使用 以便 * 作为网站名称
将规则应用于所有网站。
*.* 作为网站名称
将规则应用于名称中带点的网站。
*.网站名称.com 作为网站名称
将规则应用于“网站名称.com”域中的所有网站(例如,*.adventure-works.com)。
*.顶级域名(例如,*.com 或 *.net)作为网站名称
将规则应用于以特定顶级域名(例如,.com 或 .net)结尾的所有网站。
?
替换规则中的单个字符。例如,*.adventure-works?.com 将应用于 adventure-works1.com、adventure-works2.com 等域中的所有网站。
您可以创建一个 *.com 爬网程序影响规则,该规则应用于其地址以 .com 结尾的所有 Internet 网站。例如,门户管理员可能会为 samples.microsoft.com 添加内容源。*.com 规则应用于此网站,除非您专门为 samples.microsoft.com 添加一个爬网程序影响规则。
在“请求频率”部分中,选择下列选项之一:
一次最多请求指定的文档数,并且在两次请求之间不等待。可以指定 Windows SharePoint Services 帮助搜索服务一次能向网站发出的最大请求数。在“同时请求数”菜单中,单击要执行的同时请求数。
一次请求一个文档,并在两次请求之间等待指定的时间。您可以指定两次请求之间的延迟。搜索服务一次向每个网站发出一个请求,然后等待指定的时间,之后再发出下一个请求。在“等待时间(秒)”框中,键入两次请求之间的等待时间。两次请求之间的最短等待时间为 1 秒,最长时间为 999 秒。
如果请求频率过高,搜索服务可能会使一些网站因收到大量请求而过载。
单击“确定”。
编辑爬网程序影响规则
在“爬网程序影响规则”页面上的规则列表中,在您要编辑的规则的菜单上单击“编辑”。
“添加爬网程序影响规则”一节中介绍了您可以编辑的设置。
删除爬网程序影响规则
- 在“爬网程序影响规则”页面上的规则列表中,在您要删除的规则的菜单上单击“删除”。
对爬网程序影响规则重新排序
在“爬网程序影响规则”页面上的规则列表中,在“顺序”列中,在指定规则要占用的位置的下拉列表中选择一个值。
当前占用该位置的规则将向下移动一个位置,它下面的所有规则也是如此。