配置专用于爬网的前端 Web 服务器 (Office SharePoint Server 2007)

SharePoint 2007

更新: 2011-02-03

默认情况下,Microsoft Office SharePoint Server 2007 使用服务器场中的所有前端 Web 服务器来对该服务器场中的内容进行爬网。当以这种方式配置服务器场时,爬网程序的行为将取决于服务器场中的前端 Web 服务器的数量。如果服务器场中只有一台前端 Web 服务器,则索引服务器将直接向该服务器发出 GET 请求。如果服务器场中存在多台前端 Web 服务器,则索引服务器将向网络负载平衡器发出 GET 请求,网络负载平衡器再将每个请求转发给某台前端 Web 服务器。(如果服务器场中具有多台前端 Web 服务器,则该服务器场必须使用网络负载平衡器在前端 Web 服务器中分发用户对内容的请求。)随着时间的推移,网络负载平衡器会将请求分散到所有前端 Web 服务器中。前端 Web 服务器在收到内容请求之后,它将从与正在被爬网的 SharePoint 网站关联的内容数据库中获取相应的内容,并将该内容返回给索引服务器。

本文内容:

将所有前端 Web 服务器用于爬网所导致的性能问题

将服务器场中的所有前端 Web 服务器用于爬网非常适合于中小规模的组织。但是,大型组织通常要对更多的内容进行爬网。这类组织进行爬网的内容数量可能高达 GB 甚至 TB 级。对服务器场中的内容进行爬网会导致网络流量大涨,并会对前端 Web 服务器资源(例如磁盘、处理器和内存)提出相当高的要求。对大量内容进行爬网为服务器场的前端 Web 服务器带来的网络流量会超过所有用户请求带来的网络流量的总和。此流量将给服务器场中的所有前端 Web 服务器的性能造成负面影响,从而减少了对最终用户请求 SharePoint 网站内容的响应次数。

建议的解决方案

建议您使用专用的前端 Web 服务器来进行爬网,特别是在前端 Web 服务器上对内容进行爬网所产生的流量超过用户请求所产生的流量时。可以指定服务器场中的任何前端 Web 服务器来进行爬网。不过,为了获得最佳性能,建议您将索引服务器配置为专用于爬网的前端 Web 服务器(如果索引服务器具有同时担当这两个角色所需的能力)。通过将同一计算机同时用作索引服务器和专用的前端 Web 服务器,在对内容进行爬网时,索引服务器不必向其他计算机发送请求。这将减少总的网络流量并提高爬网性能。

还建议您不要在用于传入的用户内容请求的网络负载平衡的循环中包含专用的前端 Web 服务器。否则,当网络负载平衡器将用户请求定向到专用于爬网的前端 Web 服务器时,可能会导致出现性能不一致的情况。

何时不配置专用于爬网的前端 Web 服务器

在下列任一情况下,请不要配置专用于爬网的前端 Web 服务器:

  • 索引服务器上正在运行其他应用程序(如 Excel Calculation Service)。配置专用于爬网的前端 Web 服务器可能会阻止该应用程序与服务器场中的其他服务器进行通信。

    如果索引服务器上正在运行其他应用程序,则在配置专用于爬网的前端 Web 服务器之前,请将这些应用程序移动到另一台应用程序服务器上。

  • 希望将索引服务器用作专用于爬网的前端 Web 服务器,但该索引服务器同时被配置为查询服务器。

  • 查询服务器的 NetBios 名称也是 SharePoint 网站的主机名。

在上述任一情况下,配置专用于爬网的前端 Web 服务器可阻止索引服务器将索引传播到另一台服务器中。

关于配置专用于爬网的前端 Web 服务器

有两种用来配置专用于爬网的前端 Web 服务器的方法:

  • 使用管理中心的“配置 Office SharePoint Server 搜索服务设置”页。

  • 直接更新主机文件。

在配置专用于爬网的前端 Web 服务器之前,建议您阅读以下部分以确定要使用哪种配置方法。

使用用户界面配置专用于爬网的前端 Web 服务器时对主机文件的影响

当对内容进行爬网时,Office SharePoint Server 2007 会读取索引服务器上的主机文件,以确定是将所有前端 Web 服务器均用于爬网(默认值),还是使用一台专用的前端 Web 服务器来进行爬网。

使用管理中心的“配置 Office SharePoint Server 搜索服务设置”页来选择专用于爬网的前端 Web 服务器时,SharePoint 定时服务将在主机文件中写入以下条目:

  • 用于指定前端 Web 服务器的 IP 地址和计算机名的条目。

  • 与在配置为使用主机标头的前端 Web 服务器上的每个 Web 应用程序相对应的条目。每个这样的条目将指定前端 Web 服务器的 IP 地址(后跟主机标头)。

每个条目在主机文件中单独占一行,如:

111.11.111.111 MyMossMachine #Added by Office SharePoint Server Search (7/15/2008 2:56 PM).

111.11.111.111 Marketing #Added by Office SharePoint Server Search (7/15/2008 2:56 PM).

111.11.111.111 Human Resources #Added by Office SharePoint Server Search (7/15/2008 2:57 PM).

可能出现的问题

在某些情况下,定时服务会将不正确的 IP 地址写入到主机文件中。(有关详细信息,请参阅 http://go.microsoft.com/fwlink/?linkid=135698&clcid=0x804(该链接可能指向英文页面) 上的博客文章。)这可能会导致无法对内容进行爬网或无法查看网站(如搜索服务提供程序 (SSP) 或管理中心网站)等一系列问题。在以下情况下,定时服务可能会将不正确的 IP 地址添加到主机文件中:

  • 指定为专用于爬网的前端 Web 服务器的服务器具有分配给一个或多个网卡的多个 IP 地址。

  • 服务器场正在使用网络负载平衡。

如果满足上述任一条件,建议您直接将条目添加到主机文件中,而不是使用用户界面来指定专用于爬网的前端 Web 服务器。

Important 重要说明:

当使用管理中心中的“配置 Office SharePoint Server 搜索服务设置”页来指定专用于爬网的前端 Web 服务器时,如果定时服务添加了错误的 IP 地址,您将无法手动更改主机文件。这是因为,定时服务每隔几分钟就会反复地覆盖主机文件中的条目。如果发生这种情况,请使用管理中心中的“配置 Office SharePoint Server 搜索服务设置”页来指定将所有前端 Web 服务器用于爬网,然后删除定时服务写入到主机文件中的条目。

若要配置专用于爬网的前端 Web 服务器,请执行以下过程之一:

显示: