爬网内容 (Office SharePoint Server 2007)
对内容进行爬网是指系统访问和分析内容及其属性(有时称为“元数据”)从而建立可提供搜索查询服务的内容索引的过程。
通过成功地对内容进行爬网,爬网程序可以访问和读取您希望用于搜索查询的单个文件或内容片段。这些文件的关键字和元数据存储在内容索引(有时称为“索引”)中。该索引包含关键字和元数据,关键字存储在索引服务器的文件系统中,而元数据存储在搜索数据库中。该系统可维护关键字、与单个内容片段关联的元数据以及从中对内容进行爬网的源的 URL 之间的映射。
备注
爬网程序不会更改主服务器上的文件,而是访问和读取这些文件,并将这些文件的相关文本和元数据发送到索引服务器以编制索引。但是,由于爬网程序会读取主服务器上的内容,因此某些承载特定内容源的服务器可能会更新已爬网文件的上次访问日期。
确定何时对内容进行爬网
当服务器场已部署并运行一段时间后,搜索服务管理员通常必须更改爬网计划。其原因如下:
为了适应停机期和高峰使用期的变化。
为了适应作为内容宿主的服务器上内容更新频率的变化。
计划爬网的目的是:
独立于较快主服务器上承载的内容,对较慢主服务器上承载的内容进行爬网。
对新的内容源进行爬网。
爬网的频率与目标内容更新的频率相同。例如,可能需要对每日更新的库执行每日爬网,并对很少更新的库执行较低频率的爬网。
执行爬网
通常情况下,您需要通过安排爬网时间来自动完成大多数爬网。但有时,您可能需要手动启动爬网。例如,您可能需要启动爬网以对要爬网和编制索引的内容应用爬网规则等管理更改,或者确定爬网日志中的错误是否已解决。
此外,不管是手动启动爬网还是按计划启动爬网,您都可能需要停止或暂停一个或多个爬网。例如,其服务器承载待爬网内容的管理员可能通知您爬网会给服务器带来太多负载,或者您要爬网的服务器当前处于脱机状态。在上述任一情况下,您都可能需要停止或暂停爬网。
应考虑完全爬网比增量爬网需要更多的时间和服务器资源。完全爬网:
比增量爬网占用索引服务器上更多的内存和 CPU 周期。
在爬网服务器场中的内容时占用前端 Web 服务器上更多的内存和 CPU 循环。这不适用于服务器场外部的内容。
比增量爬网使用更多的网络带宽。
重要说明: |
---|
如果停止爬网任何内容源,则当下次爬网该内容源时,Microsoft Office SharePoint Server 2007 会自动对其执行完全爬网。即使您尝试执行增量爬网,也是如此。因此,请仔细考虑是否应该暂停爬网而不是停止爬网。 |
还必须注意不要同时暂停太多内容源的爬网,因为暂停的每个内容源都会消耗索引服务器上的内存和 CPU 资源。
若要启动完全爬网或增量爬网,停止、暂停或继续爬网,请执行以下过程之一:
计划爬网
以下各节提供了有关按计划爬网内容时注意事项的详细信息。
停机期和使用高峰期
应考虑承载待爬网内容的服务器的停机期和使用高峰期。例如,如果要对您的服务器场以外的众多不同服务器承载的内容进行爬网,则这些服务器可能会按不同的计划备份且具有不同的使用高峰期。通常,您无法对您的服务器场以外的服务器进行管理控制。因此,建议您与承载待爬网内容的服务器的管理员协调爬网事宜,以确保不会在服务器停机或使用高峰期尝试爬网其中的内容。
备注
因为主服务器的使用高峰期和停机期会改变,所以我们建议您定期重新评估所有内容源的爬网计划,而不仅仅是重新评估新的内容源的爬网计划。
常见的一种情况是与您的 SharePoint 网站内容相关的内容不在贵组织的控制范围内。您可以将此内容的开始地址添加到现有内容源中或者为外部内容创建一个新内容源。由于外部网站的可用性千差万别,因此为不同的外部内容添加单独的内容源会很有帮助。这样,就可以在您的其他内容源的爬网时间以外爬网外部内容的内容源。您可以根据每个网站的可用性按爬网计划更新外部内容。
频繁更新的内容
制定爬网计划时,应考虑某些内容源的更新频率通常高于其他内容源。例如,如果您知道某些网站集或外部源中的内容只在周五进行更新,那么对这些内容进行爬网的频率若高于每周一次就会浪费资源。但是,您的服务器场可能包含从周一到周五持续更新,但周六和周日通常不会更新的其他网站集。在这种情况下,您可能希望一周数次爬网这些网站而周末则不进行爬网。
在所在环境的网站集中存储内容的方式可指导您为每个 Web 应用程序中的各个网站集创建其他内容源。例如,如果网站集只存储归档信息,则爬网该网站集的频率就不必像爬网存储经常更新内容的网站集那样频繁。在这种情况下,您可能需要使用不同的内容源来爬网这两个网站集,以便按不同的计划对它们进行爬网。
完全和增量爬网计划
作为搜索服务管理员,您可以为每个内容源单独配置爬网计划。对于每个内容源,您可以指定不同的完全爬网时间和增量爬网时间。
备注
您必须先对某个特定内容源运行完全爬网,然后才能运行增量爬网。
建议您根据运行搜索服务的服务器和承载爬网内容的服务器的可用性、性能及带宽因素来制定爬网计划。
在制定爬网计划时,应考虑以下最佳方案:
基于类似的可用性以及承载内容的服务器可接受的总体资源使用率,对内容源中的开始地址进行分组。
将每个内容源的增量爬网安排在承载内容的服务器可用并且对服务器资源的需求较低时进行。您也可以添加或编辑一个或多个爬网程序影响规则,以便减少被爬网服务器上的负载。有关爬网程序影响规则的信息,请参阅管理爬网程序影响 (Office SharePoint Server 2007)。
使服务器场内各服务器的爬网计划交错,以便场内各服务器上的负载在时间上分布均匀。
仅当下一节中列出的原因为必需原因时,才安排完全爬网。我们建议您执行完全爬网的频率应低于执行增量爬网的频率。
将要求完全爬网的管理更改安排在完全爬网前不久执行。例如,我们建议您在执行下一次计划的完全爬网之前尝试安排创建爬网规则,以便消除额外的完全爬网。
是否同时进行爬网取决于要爬网的索引服务器的容量。建议您错开爬网时间以便索引服务器不会同时使用多个内容源进行爬网。索引服务器的性能和承载该内容的服务器的性能决定爬网的重叠程度。随着时间推移,您会逐渐了解爬网每个内容源通常所需的时间,从而可以制定爬网计划策略。建议您记录在环境中爬网所需时间的趋势数据。
执行完全爬网的原因
搜索服务管理员执行完全爬网的原因包括:
服务器场中的服务器上安装了一个或多个修补程序或 Service Pack。有关详细信息,请参阅该修补程序或 Service Pack 的说明。
SSP 管理员添加了一个新的托管属性。
要重新对 Windows SharePoint Services 3.0 或 Office SharePoint Server 2007 网站上的 ASPX 页面编制索引。
备注
爬网程序无法确定 Windows SharePoint Services 3.0 或 Office SharePoint Server 2007 网站上的 ASPX 页面何时发生了变化。因此,在删除单独的列表项时,增量爬网不会对视图或主页重新编制索引。我们建议您定期对包含 ASPX 文件的网站进行完全爬网,以确保对这些页面重新编制索引。
要检测在上次对文件共享执行完全爬网之后对文件共享所做的安全更改。
解决连续的增量爬网失败问题。在极少数情况下,如果在某个存储库中的任何级别上执行增量爬网时连续失败了一百次,则索引服务器将从索引中删除受影响的内容。
已添加、删除或修改爬网规则。
要修复损坏的索引。
搜索服务管理员已创建一个或多个服务器名称映射。
分配给默认内容访问帐户或爬网规则的帐户已更改。
在以下情况下,即使请求执行增量爬网,系统也会执行完全爬网:
SSP 管理员停止了先前的爬网。
从备份还原了内容数据库。
备注
如果您运行的是 Microsoft Office Server 的基础结构更新,则可以使用 Stsadm 命令行工具的还原操作来更改内容数据库还原是否会导致完全爬网。
服务器场管理员已分离并重新附加内容数据库。
从未对此网站执行完全爬网。
更改日志不包含正在执行爬网的地址的条目。如果更改日志中没有对应于待爬网项的条目,则无法进行增量爬网。
分配给默认内容访问帐户或爬网规则的帐户已更改。
要修复损坏的索引。
如果在索引中检测到损坏情况,则根据损坏的严重程度,系统可能会尝试执行完全爬网。
在初始部署后,您可以依据服务器场中的服务器以及承载内容的服务器的性能和容量来调整计划。
另请参见
概念
对内容进行爬网 (Office SharePoint Server 2007)
计划完全爬网 (Office SharePoint Server 2007)
计划增量爬网 (Office SharePoint Server 2007)