估计搜索环境的性能和容量要求

本文内容:

  • 主要特征

  • 测试环境

  • 建议

此性能和容量规划方案包含在企业环境中用于搜索和索引 Office SharePoint Server 内容的单个 Microsoft Office SharePoint Server 2007 场。

Important 重要说明:

本文中的一些指导已针对 Office SharePoint Server 2007 SP1 进行了更新。有关 Office SharePoint Server 2007 SP1 更新的详尽列表,请参阅可下载书籍:在多服务器环境中规划和部署 Office SharePoint Server 2007 Service Pack 1

主要特征

主要特征描述环境因素、使用情况特征和基于此方案的部署中可能存在的其他注意事项。

此方案的主要特征包括:

  • 用户响应时间   常见的、特殊的、长时间运行的以及极少执行的操作的目标用户响应时间都会在 规划软件边界 (Office SharePoint Server) 的“用户响应时间”表中列出。一些组织可能会容许较慢的用户响应时间,也可能会要求较快的用户响应时间。预期的用户响应时间是决定总吞吐量 目标的主要因素。吞吐量是指服务器场每秒可以处理的请求的数目。如果您有更多用户,则需要更高的吞吐量目标以达到相同的用户响应时间。

  • 用户并发   假定并发速率为 10%,同时 1% 的并发用户在一个给定的时刻发出请求。例如,对于 10,000 个用户而言,1,000 个用户正在活跃地同时使用解决方案,以及 100 个用户正在活跃地发出请求。

  • 长时间运行的异步任务   类似于爬网内容和备份数据库的任务会增加服务器场的性能负载。示例拓扑的一般性能特征假定这些任务在非高峰时间段(例如夜间)运行。因此,工作时间内的用户响应速率不会受到影响。

测试环境

测试此方案可有助于估计不同的场配置对各种因素的变化的响应方式,这些因素包括:

  • 有多少个并发用户正在使用该系统。

  • 正在执行哪些类型的用户操作。

  • 有多少个文档位于所查询的索引中。

值得注意的是,虽然可以从测试结果中得到某些结论,但是本节中的特定容量和性能数据与现实环境中的数据将会不同。本文中的数据旨在为设计适当缩放的环境提供起始点。在完成初始系统设计之后,应测试配置以确定系统是否支持环境中固有的因素。

备注

这些测试是模拟具有数百万个文档和大型用户群的企业环境而进行的。用于测试环境的硬件配置了稳固的处理器和大容量的内存和磁盘。请参阅本文的建议一节中关于起始点硬件建议的硬件建议。

有关测试部署的详细信息,请参阅用于性能和容量规划的工具 (Office SharePoint Server)

假设

  • 64 位体系结构   测试环境中仅使用了 64 位服务器。尽管可以在 32 位服务器上部署 Office SharePoint Server 2007,但是我们建议您在 Office SharePoint Server 2007 场部署中采用 64 位服务器。有关详细信息,请参阅关于性能和容量规划 (Office SharePoint Server)文章中的“64 位对比 32 位”一节。

  • 启用基于磁盘的缓存   通过使用基于磁盘的缓存,将不再需要为代码片段或较大的二进制文件(例如,图像、声音和视频文件)多次访问数据库。启用基于磁盘的缓存将会提高整个部署的性能。请注意,默认情况下不启用基于磁盘的缓存。有关启用基于磁盘的缓存的信息,请参阅二进制大型对象的基于磁盘的缓存(https://go.microsoft.com/fwlink/?linkid=82617&clcid=0x804)。

实验室拓扑

测试中使用了许多场配置,包括一到八台查询服务器、一台索引服务器、一个 SSP 和一台运行 Microsoft SQL Server 2005 数据库软件的数据库服务器计算机。所有服务器计算机都在 Microsoft Windows Server 2003 Service Pack 1 (SP1) Enterprise x64 Edition 操作系统上运行 Office SharePoint Server 2007 Enterprise Edition 的默认配置。

下表列出用于测试的特定硬件。

计算机角色 硬件 硬盘容量

查询服务器

4 个双核 Intel Xeon 2.66 GHz 处理器

32 GB RAM

40 GB 用于操作系统(独立磁盘冗余阵列 (RAID) 5)

956 GB 用于内容索引和操作系统页面文件 (RAID 10)

索引服务器

4 个双核 Intel Xeon 2.66 GHz 处理器

32 GB RAM

40 GB 用于操作系统 (RAID 5)

956 GB 用于内容索引和操作系统页面文件 (RAID 10)

数据库服务器

4 个双核 Intel Xeon 2.66 GHz 处理器

32 GB RAM

40 GB 用于操作系统 (RAID 5)

956 GB 用于带有专用小型计算机系统接口 (SCSI) 控制器 (RAID 10) 的 SharedServices_Search_DB 数据库

下列磁盘共享 SCSI 控制器:

273 GB 用于 SharedServices_DB 数据库 (RAID 10)

273 GB 用于 TempDb 数据库 (RAID 10)

273 GB 用于日志文件 (RAID 10)

136 GB 用于 SharePoint_Config 数据库 (RAID 10)

测试环境中使用了千兆位(10 亿位/秒)网络。我们建议在 Office SharePoint Server 场的服务器之间使用一个千兆位的网络以确保足够的网络带宽。

使用情况配置文件

下表显示了 Office SharePoint Server 2007 搜索测试环境的使用情况配置文件。

备注

对于此方案的测试,仅使用了查询用户操作来确定系统性能。

对大约 5,000 万个项目进行了爬网测试。下表显示爬网的项目的类型和数量。项目的大小为 10 千字节 (KB) 到 100 KB,并包括列表项、网页和各种文档类型。

项目类型 项目数量

SharePoint 网站上的内容

1,000 万个项目,其中包括:

  • 420 个网站集

  • 4,000 个网站

  • 24,200 个列表

  • 47,780 个文档库

文件共享上的内容

1,500 万个项目

HTTP 内容

1,500 万个项目

用户配置文件

250 万

Stitch(用于在内存中生成文档的内存中测试工具)

750 万

属性(元数据)

100 万

下表显示了磁盘空间使用情况。

使用情况的类型

查询服务器上的索引大小

100 GB*

索引服务器上的索引大小

100 GB*

搜索数据库大小

600 GB

备注

测试过的索引大小比生产环境中可能观察到的大小要小一些。在测试生成的文档集中,唯一词的数目受到限制且经常重复。

测试期间执行完全爬网的时间是 35 天(大约为 15 个文档/秒)。请注意,这些测试结果是在网络延迟和爬网储存库的响应影响了爬网速度的生成环境中观察得到的。测量的爬网速度(单位为文档数/每秒)在纯粹的测试环境中或具有更高带宽和更高响应的爬网储存库的环境中可能要快很多。

如果在测试环境中使用的文档集大小变化了百分之二,捕获这些变化的增量爬网需要大约 8-12 个小时,具体时间取决于滞后时间和所爬网的网站的响应性。请注意,对元数据和出站链接的更改需要比文档内容的更改更长的处理时间。

建议

本节提供一般的性能和容量建议。使用这些建议可以确定在规划冗余 (Office SharePoint Server) 一文中创建的启始拓扑的容量和性能特征,并可以确定是否需要扩展或扩充启始拓扑。

备注

扩展 意味着在某个特定角色中添加更多的服务器,而扩充 意味着通过增加内存、硬盘容量或处理器速度来提高给定服务器的性能或容量。

硬件建议

下表列出了 Web 服务器、索引服务器和数据库服务器的建议硬件。

备注

Web 服务器、索引服务器和数据库服务器的内存要求取决于场的大小、并发用户的数量以及场中的功能和页的复杂性。下表中的内存建议可能适合于使用较少的场,但应仔细监视内存使用情况以确定是否必须添加更多内存。

服务器角色 推荐使用的硬件

Web(查询)服务器

双 2.5 GHz 或更快的处理器(推荐使用 3 GHz 或更快的处理器)

推荐至少使用 2 GB RAM

3 GB 可用磁盘空间

DVD 驱动器,可通过本地或网络访问

索引服务器

双 2.5 GHz 或更快的处理器(推荐使用 3 GHz 或更快的处理器)

推荐至少使用 4 GB RAM

3 GB 可用磁盘空间

DVD 驱动器,可通过本地或网络访问

数据库服务器

双 2.5 GHz 或更快的处理器(推荐使用 3 GHz 或更快的处理器)

推荐至少使用 4 GB RAM

内容数据库的硬盘空间基于 1:1.2 的内容大小与数据库容量的比例。也就是说,如果规划 100 GB 的内容,则需要至少 120 GB 可用于内容数据库的磁盘空间,加上用于事务日志的额外空间。

搜索数据库的硬盘空间基于 1:4 的索引大小与数据库容量的比例。也就是说,如果您的索引大小为 100 GB,则需要至少 400 GB 可用于搜索数据库的磁盘空间,加上用于事务日志的额外空间。

DVD 驱动器,可通过本地或网络访问

备注

数据库服务器上的事务日志所需的硬盘空间量取决于日志设置。有关详细信息,请参阅了解和管理事务日志(https://go.microsoft.com/fwlink/?linkid=82925&clcid=0x804)。

有关最小值和推荐的系统要求的详细信息,请参阅Determine hardware and software requirements (Search Server 2008)

起始点拓扑

通过将拓扑与规划冗余 (Office SharePoint Server) 中提供的起始点拓扑进行比较,可以估计起始点拓扑的性能。这样做可以帮助您快速确定是否需要扩展或扩充起始点拓扑以达到性能和容量目标。

扩展和扩充拓扑的容量和性能

若要提高一个起始点拓扑的容量和性能,可通过实现具有更大容量的服务器计算机来扩充拓扑,或通过向拓扑中添加额外的服务器来扩展拓扑。本节描述几种扩充或扩展拓扑的一般性能特征。示例拓扑代表了以下几种用于扩充或扩展搜索环境的拓扑的常用方法:

  • 若要容纳更多的用户负载,可添加查询服务器计算机。还可以添加索引服务器和专用查询服务器以减轻来自 Web 服务器的部分处理负担。

  • 若要容纳更多的数据负载,可通过增加单台(群集或镜像)服务器的容量、通过升级为 64 位服务器或通过添加群集或镜像服务器来向数据库服务器角色添加容量。

  • 保持查询服务器计算机与(群集或镜像)数据库服务器计算机的比率不超过 8:1。经过我们实验室的测试,得到的最佳比率为 7x1x1(七台查询服务器、一台索引服务器和一台数据库服务器)。

估计吞吐量目标

本节提供的测试数据显示了数量不断增加的查询服务器和更多的用户连接所对应的场吞吐量。

因为 Office SharePoint Server 2007 可通过多种方式进行部署和配置,所以没有一种简单的方法来估算给定数量的服务器可以支持多少用户。因此,在生产环境中部署 Office SharePoint Server 2007 之前在自己的环境中执行测试是重要的。

有几个因素会影响吞吐量,其中包括用户数量、用户操作的复杂性和频率、缓存以及页和 Web 部件的自定义。这些因素中的每一个都会对场吞吐量产生重大影响。当您规划部署时,应该仔细考虑每一个因素。

有关 Office SharePoint Server 2007 中缓存的详细信息,请参阅以下资源:

如果组织具有一个现有搜索解决方案,则可以查看 Internet Information Services (IIS) 日志以确定当前环境中的使用模式和趋势。有关分析 IIS 日志的详细信息,请参阅分析日志文件 (IIS 6.0)(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=78825&clcid=0x804)(该链接可能指向英文页面)。

如果组织正在规划新的搜索解决方案部署,请使用下节中的信息来估计使用模式。

测试结果:根据场配置计算出的吞吐量

本节中的表显示了各种用户操作配置文件的测试结果,这些结果是在使用本文前面的测试环境中列出的硬件和使用情况配置文件的情况下得出的。请注意,对于每种场配置,都会将一台索引服务器和一台数据库服务器与一到八台查询服务器一起进行测试。因此,3x1x1 场配置表示使用三台查询服务器以及一台索引服务器和一台数据库服务器。未对包含多台索引或数据库服务器的场执行测试。

下表显示与搜索相关的用户操作的测试结果。

场大小 RPS 查询服务器 CPU 利用率百分比 索引服务器 CPU 利用率百分比 数据库服务器 CPU 利用率百分比 数据库服务器每秒磁盘写入数的平均值

1x1x1

24.01

99.49

1.98

7.23

6.11

2x1x1

48.04

96.98

3.95

13.02

2.66

3x1x1

71.07

94.73

5.61

20.56

2.29

4x1x1

93.11

91.77

8.81

29.21

2.41

5x1x1

114.95

90.50

10.27

39.38

2.45

6x1x1

133.34

87.29

11.91

52.94

2.83

7x1x1

148.52

80.20

15.24

63.72

3.14

8x1x1

146.94

65.65

15.15

69.15

2.87

下图显示了查询服务器的数量发生更改时搜索操作的吞吐量中的变化。

每秒请求数与查询服务器的数量对比

估计爬网窗口

在 Office SharePoint Server 2007 搜索环境中,对内容爬网的操作通常是运行时间最长的操作(不是由用户启动的)。您将需要在自己的环境中执行测试以确定使用特定内容源对内容爬网所花费的时间量,并确定通过对此内容爬网而消耗的吞吐量是否会干扰目标用户响应时间。通常,应验证对特定内容源爬网的操作是否可以在 12 个小时的夜间时间范围内完成。

估计磁盘空间需求

使用下面的信息来规划您环境中的索引服务器、查询服务器和数据库服务器的磁盘空间要求。

索引服务器和查询服务器的磁盘空间要求

使用以下信息来规划服务器场中索引服务器和查询服务器的磁盘空间要求。

备注

内容索引的大小通常比文档集小,因为在对内容编制索引之前已移除了所有干扰词。

备注

如果在不是索引服务器的服务器上启用了查询服务器角色,则会自动将索引传播到这些查询服务器。若要将内容索引的副本存储在查询服务器上的文件系统中,则每台查询服务器所需的磁盘空间量将与索引服务器用于内容索引的磁盘空间量相同。有关详细信息,请参阅规划冗余 (Office SharePoint Server)

若要估计包含内容索引的硬盘的磁盘空间要求:

  1. 估计您计划要对多少内容进行爬网以及每个文件的平均大小。如果不知道文档集中文件的平均大小,请使用每文档 10 KB 作为起始点。

    使用以下公式来计算您需要多少磁盘空间来存储内容索引:

    所需磁盘空间 (GB) = 文档集总大小 (GB) x 文件大小修饰符 x 2.85

    其中“文件大小修饰符”是以下范围中的一个数字,具体情况视文档集中文件的平均大小而定:

    • 如果文档集包含的文件非常小(文件平均大小 = 1KB),则为 1.0。

    • 如果文档集包含中型文件(文件平均大小 = 10KB),则为 0.12。

    • 如果文档集包含大文件(文件平均大小 = 100KB 或更大),则为 0.05。

备注

此公式仅用于建立一个起始点估计。实际结果可能会根据所编制索引的文档大小和类型以及爬网操作期间所编制索引的元数据的多少而变化很大。

在此公式中,您将文档集总大小 (GB) 乘以文件大小修饰符来获得索引文件的估计大小。接着,您乘以 2.85 以考虑将爬网的数据与索引合并时的主合并开销。最终结果就是估计的磁盘空间要求。

例如,对于主要包含平均大小为 10KB 的文件的 1 GB 文档集大小,将使用以下值来计算索引文件的估计大小:

1 GB x 0.12 = 0.12GB

根据此计算,索引文件的估计大小为 120MB。

接着,将索引文件的估计大小乘以 2.85:

120 MB x 2.85 = 342MB

因此,索引文件所需的磁盘空间以及进行索引操作所需的磁盘空间为 342MB(即 0.342GB)。

备注

爬网的数据量可能因所爬网的内容而不同。内容源是一组选项,可以用来指定要在爬网时使用的协议、从中开始进行爬网的 URL、爬网的深度以及何时进行爬网。

  1. 根据估计值,如果内容索引适合放在索引服务器和查询服务器上的可用硬盘空间内,请转到步骤 3。否则,请增加磁盘空间或在进行步骤 3 之前重新计算步骤 1。

  2. 对部分内容进行爬网。

  3. 计算内容索引的大小和所爬网文件的数量。使用此信息来提高您在步骤 1 中所执行计算的准确度。

  4. 如果剩余的硬盘空间足够,则再对一部分内容进行爬网。否则,根据需要增加硬盘空间或重新计算您计划要对多少内容进行爬网。

  5. 重复步骤 3 到 5,直至已对所有内容进行爬网。

    对整个文档集进行爬网后,建议您记录下每次爬网的内容索引和搜索数据库大小,以便可以确定平均增长率。由于文档集往往会因为向服务器场中添加了新内容而随时间增长,因此您应监控可用硬盘空间以确保保持用于索引操作的足够容量。

搜索数据库的磁盘空间要求

通常,用于存储搜索系统元数据和爬网程序历史信息的搜索数据库比索引需要更多的磁盘空间。如果您主要对包含大量元数据的 SharePoint 网站进行爬网,则尤为如此。

备注

所有已索引内容的元数据和爬网程序历史记录存储在搜索数据库中。因此,搜索数据库需要比内容索引更大的存储空间。

使用以下公式来计算搜索数据库需要多少磁盘空间:

所需磁盘空间 (GB) = 文档集总大小 (GB) x 文件大小修饰符 x 4

其中“文件大小修饰符”是以下范围中的一个数字,具体情况视文档集中文件的平均大小而定:

  • 如果文档集包含的文件非常小(文件平均大小 = 1KB),则为 1.0。

  • 如果文档集包含中型文件(文件平均大小 = 10KB),则为 0.12。

  • 如果文档集包含大文件(文件平均大小 = 100KB 或更大),则为 0.05。

例如,对于主要包含平均大小为 10KB 的文件的 1 GB 文档集大小,将以下值代入公式中来计算索引文件的估计大小:

1GB x 0.12 = 0.12GB(即 120MB)

然后,将索引文件的估计大小乘以 4:

120MB x 4 = 480MB

因此,搜索数据库所需的磁盘空间为 480MB(即 0.48GB)。

确定索引、查询和数据库服务器的规范

在 Office SharePoint Server 2007 中,搜索是一种可用在 SSP 级别上的共享服务。Office SharePoint Server 2007 搜索系统由两个主服务器角色组成:索引服务器和查询服务器。

爬网和索引是资源密集型操作。系统通过对内容进行爬网这一过程来访问和分析内容及其属性,以建立可提供搜索查询服务的内容索引。爬网在索引服务器、查询服务器或服务爬网操作的服务器、承载所爬网的内容资源库的服务器和正在服务 Office SharePoint Server 2007 场的数据库服务器上消耗处理和内存资源。

爬网会影响系统的整体性能,并直接影响用户响应时间和场中其他共享服务以及服务爬网操作的查询服务器上的 Web 服务的性能。您可以将一台查询服务器专用于爬网操作以减少其他场服务器上的负载。

如果未将爬网操作分配给一台专用的查询服务器,则索引已爬网的内容还会影响系统的总体性能。如果与搜索相关的操作构成了场操作的一大部分,请考虑部署专用的查询服务器。有关详细信息,请参阅本文中“专用于爬网的查询服务器”一节。

确定索引服务器的规范

使用本节中的信息以指定 Office SharePoint Server 2007 场中索引服务器的要求。

索引服务器 CPU

索引服务器处理器速度会影响爬网速度和可实例化的爬网线程数。尽管未建议特定数量或类型的处理器,但在确定索引服务器要求时应考虑将要爬网的内容量。在企业环境中,索引服务器应有多个处理器,以处理较大的索引负载。

下表显示了爬网速度如何随着索引服务器上可用的处理器数的增加而提高。

处理器数量 爬网速度提高的百分比

1

0.00

2

10.89

4

19.77

8

30.77

索引服务器内存

在索引服务器上, 爬网程序引擎会在缓冲区中加载文档以进行处理。在一个具有包含大约 100 万个文档的文档集的场中,索引服务器需要大约 1.5 GB 的内存。文档在内存中进行处理之后将写入到磁盘中。内存容量越大,爬网程序可以并行处理文档就越多,这将提高爬网速度。

若要对包含 100 万个文档以上的文档集进行爬网,建议索引服务器上至少需要 4 GB RAM。

索引服务器磁盘速度

我们建议您指定 RAID 10 和 2 毫秒 (ms) 的访问时间,对于快速磁盘写入,指定 150 MB/ 秒以上的写入时间。

单个索引和相关性

在 SharePoint Portal Server 2003 中,内容索引可能跨多个服务器进行拆分以创建索引内容的子集并更好地适应增长需要。尽管 Office SharePoint Server 2007 支持使用多个索引服务器来进行扩展,但是每个索引服务器需要一个单独的 SSP,并且无法组合单独的索引。

索引服务器的数量

在需要完全隔离各个 SSP 或扩展系统的情况下,可以将多个索引服务器部署到一个场中。尽管场中的索引服务器的数量没有硬性限制,但在已进行的测试中一个场中最多使用四个索引服务器。

场中使用的索引服务器的数量取决于想要针对的搜索体验的方式。如果搜索体验要求正在爬网的内容需要包含在单个结果集中,则应该使用单个索引服务器部署一个 SSP。大多数组织希望所有已爬网的内容都可由用户搜索,因此不需要多个搜索范围。

如果搜索体验可以跨不同的范围进行拆分以针对不同的内容库提供单独的相关搜索结果集,则可以使用多个 SSP 和索引服务器。以下是一个需要不同搜索范围的场景示例:企业的一个部门需要维护必须仅可由一组特定的用户搜索的敏感文档。

根据您的扩展和安全要求,可以将所有的 SSP 与单个索引服务器进行关联,或者将每个 SSP 与一个单独的索引服务器进行关联。

备注

在 Office SharePoint Server 2007 中不支持跨多个 SSP 进行查询来获取一组相关结果。

一个具有稳固硬件配置的单个索引服务器可以支持多达 500 万个文档。如果您要构建此大小的索引,我们建议在场中使用的索引服务器不要超过一台,因为索引会传播到场中的所有查询服务器。如果添加第二台索引服务器,也会将来自第二个索引服务器的索引传播到场中的所有查询服务器,这将增加查询服务器的负载。

若要通过添加 SSP 来提高搜索容量,还将需要进行扩展。至少,您应该添加另一台索引服务器、数据库服务器和专用 Web 服务器。如果您的硬件当前支持在一个 SSP 内对 1000 万个文档进行索引,则可以通过使用相同的硬件来进行扩充以承载 20 个 SSP。

备注

在 Microsoft Office SharePoint Server 2007 for Search 中,只可以使用一个 SSP。

这将使您能够对每个 SSP 索引大约 200 万个文档,并且总共能够索引大约 4000 万个文档。

备注

一个 SSP 总是只与一个索引服务器相关联。但是,索引服务器可以容纳多个 SSP。

专用于爬网的查询服务器

将一台查询服务器专用于爬网操作是一种最佳实践。

在已启用搜索的场中,默认情况下场中的所有查询服务器都服务于爬网操作。当爬网操作开始时,索引服务器发送请求到查询服务器,查询服务器接着提取要进行爬网的内容并将其发送给索引服务器。当用户负载很高时,爬网操作可能会降低系统对用户请求的响应性。

若要减轻爬网操作对场性能的影响,您可以配置一台专用的查询服务器进行爬网。将一台查询服务器专用于爬网将强制通过专用服务器来服务于所有爬网操作,而场中的所有其他查询服务器将继续服务于用户请求。此配置对于以下环境特别有用:不能将爬网操作限于夜间窗口的环境,或地理上分散的环境(用户将二十四小时不停地发出请求)。

有关如何将一台查询服务器专用于爬网的详细信息,请参阅配置专用于爬网的前端 Web 服务器 (Office SharePoint Server 2007)

备注

将查询服务器专用于爬网可能会影响在服务器上运行的其他服务。以这种方式使用的查询服务器不能保持负载平衡,而且不会服务于最终用户的请求。

索引服务器性能优化

索引操作会增加数据库服务器上的负载, 并且可以降低场的响应性。索引操作还会影响运行搜索索引服务的应用程序服务器上的其他共享服务。您可以将每个索引服务器的索引性能级别调整到以下三个值之一:

  • 减少

  • 部分减少

  • 最大值

默认设置是“减少”。您可以仅对特定的索引服务器(而不是针对 SSP)配置此设置。

爬网会影响数据库服务器的性能,因为 Office SharePoint Server 搜索服务将从已爬网的文档中收集的所有元数据写入到数据库表中。索引服务器生成数据的速率可能会造成数据库服务器过载。

您应执行自己的测试以平衡爬网速度、网络滞后时间、数据库负载和所爬网的内容库上的负载。

下表显示了性能级别设置与测试的索引和数据库服务器上的 CPU 使用率之间的关系。

性能级别设置 索引服务器 CPU 利用率百分比 数据库服务器 CPU 利用率百分比

减少

20

20

部分减少

24

24

最大值

25

26

请考虑以下列表中性能级别设置的方案和建议:

  • 如果索引服务器和数据库服务器仅用于 Office SharePoint Server 搜索服务,则可以将级别设置为“最大值”。但是,我们建议与索引服务器的活动相关的数据库服务器 CPU 使用率的最大增长不要超过 30%。如果将性能级别设置为“最大值”时数据库服务器 CPU 使用率的增加超过 30%,我们建议将性能级别设置为下一个较低设置。

  • 如果应用程序服务器和数据库服务器在多个共享服务(如 Office SharePoint Server 搜索服务和 Excel 计算服务)之间进行共享,我们建议您选择较低的性能级别设置。但是,减少允许的最大索引活动会减少索引项目的速度,这可能会导致搜索结果过时。监视本地服务器性能以帮助确定适当的索引服务器性能级别。

使用以下过程可以指定索引服务器上的性能级别设置。

调整索引服务器的性能

  1. 单击“开始”,指向“所有程序”,指向“Microsoft Office Server”,然后单击“SharePoint 3.0 管理中心”。

  2. 在管理中心主页上单击“操作”。

  3. 在“操作”页上的“拓扑结构和服务”部分,单击“服务器上的服务”。

  4. 在“服务器上的服务”页面上,在“服务器”菜单上,选择想要管理的索引服务器。

  5. 在“启动下表中的服务”部分中,单击“Office SharePoint Server 搜索”。

  6. 在“配置 Office SharePoint Server 搜索服务设置”页面上的“索引器性能”部分中,选择想要应用的性能级别。

  7. 单击“确定”保存更改。

爬网程序影响规则

爬网程序影响规则是一些场级别的搜索配置设置,用于指定在 Office SharePoint Server 搜索服务使用指定内容源爬网时生成的并发请求数。并发请求数越大,爬网速度就越快。请注意,爬网程序影响规则中指定的请求频率直接影响数据库服务器上的负载和承载所爬网的内容的服务器上的负载。如果增加对给定网站的请求频率,应仔细监视所爬网的服务器以便评估是否可以接受更大的负载。

默认值为索引服务器上的进程数。因此,对于带有四个处理器的计算机,默认值为 8。我们建议您调整值并测量目标服务器上的负载以确定最佳的并发请求数。可以从以下可用值中选择并发请求数:1、2、4、8、16、32、64。

还可创建规则以一次请求一个文档并等待请求之间指定的秒数。这样的规则可用于对具有稳定的用户负载的网站爬网。

下表显示并发请求数与索引服务器和数据库服务器上的 CPU 使用率之间的关系。

爬网线程数 索引服务器 CPU 利用率百分比 数据库服务器 CPU 利用率百分比

4

35

12

8

40

15

12

45

15

16

60

20

可以通过使用以下步骤创建一个爬网程序影响规则。

创建爬网程序影响规则

  1. 单击“开始”,指向“所有程序”,指向“Microsoft Office Server”,然后单击“SharePoint 3.0 管理中心”。

  2. 在管理中心主页上单击“应用程序管理”。

  3. 在“应用程序管理”页面上的“搜索”部分中,单击“管理搜索服务”。

  4. 在“管理搜索服务”页面上的“服务器场级搜索设置”部分中,单击“爬网程序影响规则”。

  5. 在“爬网程序影响规则”页面上,单击“添加规则”。

  6. 在“添加爬网程序影响规则”页面上的“网站”部分中,键入想要为其创建规则的网站名称。不包括协议(例如,不包括 http://)

  7. 在“请求频率”部分中,指定爬网程序将如何从此网站请求文档。

    1. 若要同时请求多个文档,请选择“一次最多请求指定的文档数,并且在两次请求之间不等待”,然后从“并发请求”列表中选择所需的值。

    2. 若要一次请求一个文档,请选择“一次请求一个文档,并在两次请求之间等待指定的时间”,然后在“等待时间(秒)”框中键入请求之间等待的秒数。

  8. 单击“确定”以创建规则。

确定查询服务器的规范

使用本节中的信息可确定 Office SharePoint Server 2007 场中查询服务器的规范。

查询服务器内存

可用的内存越多,Office SharePoint Server 搜索服务访问硬盘来执行给定的查询所需的时间就越少。具有足够的内存还允许进行更有效地缓存。理想情况下,应在查询服务器上安装足够的内存以适应整个索引。

下图显示了查询服务器上的索引大小与每个查询的用户响应时间之间的关系。

针对搜索的性能和容量分析

查询服务器磁盘速度

我们建议使用 RAID 10 以进行快速磁盘写入。

查询服务器的数量

可以在场中部署多个查询服务器以便实现冗余和负载平衡。所使用的查询服务器的数量取决于场中存在的用户数和预期的高峰负载。在我们的测试中,每个场最多有八个查询服务器。

下图显示了查询吞吐量、搜索数据库的数据库服务器 CPU 利用率百分比和查询服务器 CPU 利用率百分比(作为查询服务器添加到场中)。在生成此数据的测试中,使用的数据库服务器在内容数据库和服务数据库之前进行共享。

搜索服务器性能图形

远程服务器延迟时间

服务器延迟时间是影响爬网性能的主要因素。场服务器之间的性能必须进行权衡以便总体爬网性能达到其潜能。例如,如果正在爬网的数据库服务器不能足够快速地响应,则强大的索引服务器在工作时只能发挥其容量的 25%。在这种情况下,您可以扩充数据库服务器,经过扩充的数据库服务器又会在整个场中提高爬网速度。

您应执行自己的测试以评估环境中的服务器的响应。服务目标场的数据库服务器在爬网性能很差情况下经常会产生瓶颈。若要提高爬网性能,您可以:

  • 通过添加或升级处理器、添加内存以及升级到具有更快的查找和写入时间的硬盘来扩充数据库服务器硬件。

  • 增加场中的查询服务器上的内存

  • 在非高峰时间内爬网,以便所爬网的数据库服务器可以在白天服务用户通信,而在非高峰时间内响应爬网。

确定数据库服务器的规范

Office SharePoint Server 2007 搜索系统爬网与内容关联的文本数据和元数据。在 Office SharePoint Portal Server 2003 中,由索引系统收集的所有元数据已存储在 JET 数据库属性存储区。在 Office SharePoint Server 2007 中,反转全文本索引存储在索引服务器上,并且元数据存储在搜索数据库中。索引服务器将元数据写入到数据库,并且查询服务器读取该数据以处理由用户颁发的基于属性的查询。

使用本节中的信息以确定 Office SharePoint Server 2007 场中数据库服务器的规范。

数据库吞吐量

数据库元数据存储由索引服务器和场中所有的查询服务器进行共享。索引服务器写入所有元数据,并且查询服务器读取此数据来处理搜索请求。查询吞吐量很大程度上取决于元数据存储的响应性。

随着场中的查询服务器的数量增加,数据库服务器上的负载也会增加并影响整个查询吞吐量。将索引服务器或查询服务器添加到场以确保保持足够的数据库性能时,您应仔细监视数据库服务器。

数据库服务器硬盘分布

因为 Office SharePoint Server 搜索服务在爬网期间会将大量数据写入到搜索数据库,我们建议使用独立的 SharedServices_Search_Db、SharedServices_Db 和 TempDb 数据库心轴以在索引包含 5000 万以上的项目的方案中获得更好的性能。

数据库服务器磁盘速度

我们建议使用 RAID 10 以进行快速磁盘写入。

下载此书籍

本主题包含在以下可下载书籍内,以方便您阅读和打印:

有关可下载书籍的完整列表,请参阅 Office SharePoint Server 2007 的可下载书籍

另请参见

概念

配置专用于爬网的前端 Web 服务器 (Office SharePoint Server 2007)