规划全局企业级搜索

本文内容:

  • 建议的搜索体系结构

  • 集中式搜索

  • 具有同步内容的区域 SSP

  • 集中式搜索与分布式搜索相结合

  • 分布式搜索

  • 联合搜索

建议的搜索体系结构

如果您打算按照地理位置部署多个运行 Microsoft Office SharePoint Server 2007 的服务器场,有几个搜索体系结构对于广域网 (WAN) 环境很实用。本文讨论了这些体系结构。以下海报大小的模型是通过 Microsoft Office Visio 创建的,它对支持的全局解决方案和建议的搜索体系结构进行了概述:按照地理位置部署 Microsoft Office SharePoint Server(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=110982&clcid=0x804)(该链接可能指向英文页面)。如果尚未安装 Visio,则可以下载免费查看器(https://go.microsoft.com/fwlink/?linkid=73526&clcid=0x804)。绘图仪最适合用来打印此文件。

备注

尚未用有关联合搜索体系结构的信息更新此海报。

规划搜索体系结构以便基于组织的优先级来权衡以下各类需求:

  • 通过使用搜索查询来查找内容的用户体验。用户体验包括:

    • 与发出查询请求和接收搜索结果相关的性能问题。

    • 返回结果的相关性和完整性。

  • 与通过 WAN 对内容进行爬网相关的性能问题。

  • 管理全局搜索环境所需的成本。

在某些情况下,了解 WAN 环境中的搜索体系结构选项将有助于确定最适合于组织的支持的全局解决方案。有关这些解决方案的详细信息,请参阅支持的 Office SharePoint Server 全局解决方案

本文不讨论通过 WAN 发出搜索查询或通过 WAN 对内容进行爬网的性能特征。但是,了解 WAN 环境对这些操作类型的支持程度对于规划全局环境至关重要。有关 Office SharePoint Server 2007 如何通过 WAN 执行操作的详细信息,请参阅规划带宽需求

集中式搜索

使用集中式搜索体系结构,中央服务器场中的搜索服务将对所有区域服务器场中的内容进行爬网。区域用户的搜索查询将发送到中央服务器场。

下图演示了集中式搜索体系结构。

集中式体系结构 - 全局搜索部署

如果 WAN 链接支持对区域网站中的内容进行爬网,建议使用此体系结构,原因是此体系结构会为用户提供统一的搜索体验,其中包括以下几个方面:

  • 用户始终访问中央服务器场以进行搜索。

  • 搜索结果中保留搜索相关性。

  • 用户可以搜索其有权查看的组织内所有内容。

但是,此体系结构有一个缺点,即:无法区分搜索结果中的本地内容或确定其优先级,除非搜索范围是基于内容的服务器场位置创建的。也就是说,如果区域网站的用户搜索存储在区域网站上的文档,则在搜索结果中列出这些文档时,将难以区分这些文档所在的位置。

如果 WAN 链接未顺利执行,此体系结构会带来一些风险。对内容进行爬网会导致 WAN 链接过载,从而降低处理用户请求的能力。如果存在大量数据且更改速率很快,则为作业建立索引的操作可能无法与这些更改保持一致。不过,可以通过一些方法优化 Office SharePoint Server 2007,从而优化通过 WAN 进行的内容爬网。通过进行这些优化,可减少在建立索引的过程中使用的时间和网络通信。有关详细信息,请参阅针对 WAN 环境优化 Office SharePoint Server中的“优化内容爬网”。

虽然 WAN 链接最终会对您是否能够对内容进行远程爬网产生影响,并由此确定是否能够使用集中式搜索体系结构,但是速度较慢的 WAN 链接可能也会影响搜索对区域用户的可用程度。速度较慢的 WAN 链接会促使用户放弃发出查询。通过将内容爬网操作和其他会导致性能降低的操作安排在非高峰时间内执行,可以优化工作时间内的 WAN 的性能。但是,即使进行了优化,您仍应确定集中式搜索体系结构通过现有 WAN 链接对区域用户需求的满足程度。

在许多情况下,提供集中式搜索体系结构有助于缩放 Office SharePoint Server 2007,以便为区域用户提供服务。

下表汇总了集中式搜索体系结构的优点和缺点。

优点 缺点

保留搜索相关性。

集中化管理共享服务提供程序 (SSP)。

通过 WAN 对内容进行爬网会占用带宽。

在具有大量数据且更改速率很快的环境中难以保持索引最新。

查询性能受 WAN 链接的性能影响。

具有同步内容的区域 SSP

如果 WAN 链接不支持集中式搜索体系结构,并且您希望将搜索作为一项服务提供给区域网站,您可以在每个区域网站上承载一个 SSP。

以下是几种不同的搜索体系结构,它们包含区域网站上的宿主 SSP。其中的第一个体系结构依赖于同步组织内的内容,以使每个区域网站具有一个其工作者所必需的所有内容的副本。设计全球信息体系结构和管理中介绍了用于管理全球性组织内的内容的方法。由于内容进行了同步,因此无需通过 WAN 对内容进行远程爬网。

下图演示了此体系结构。

同步的搜索体系结构

本图内容:

  • 将准备在组织内共享的项目发布到中心网站,而不管内容的创建位置。

  • 将内容发布到中心网站后,只读版本的项目将同步到所有网站。

  • 每个服务器场中的搜索服务仅对该服务器场中的内容进行爬网。

同样,按照同一方式在组织内同步公司信息,如下图所示。

共享服务提供程序全局搜索方案

虽然此体系结构不需要通过 WAN 对内容进行爬网,但它需要使用 WAN 链接来同步环境中的内容。若要将对 WAN 性能的影响降低到最小,可以将这些操作安排在非高峰时间执行。主要优点是区域用户可使用本地搜索服务对内容进行本地访问。对于此体系结构,将对 WAN 链接的使用进行计划和管理,并且用户在履行其工作职责时不会受 WAN 链接性能的影响。

下表汇总了此搜索体系结构的优点和缺点。

优点 缺点

在本地对内容进行爬网。

搜索查询性能不受 WAN 链接性能的影响。

在每个服务器场中保留搜索相关性。

多个 SSP 会增加管理成本。

同步组织中的内容会增加解决方案的复杂程度。

集中式搜索与分布式搜索相结合

可以设计一类结合了集中式搜索和分布式搜索的搜索体系结构。使用此体系结构,每个区域的搜索服务都将对该区域中的所有内容进行爬网,并且中央服务器场将对组织中所有服务器场内的内容进行爬网。

利用此体系结构,区域用户无需使用 WAN 链接即可搜索本地内容。区域用户可以通过在中央服务器场内发出查询在全球性组织内进行搜索。

下图演示结合了集中式搜索和分布式搜索的体系结构。

分布式和集中式搜索的场配置

本图示内容:

  • 每个服务器场均承载一个 SSP。本地 SSP 提供的搜索服务将对每个区域服务器场中的本地内容进行爬网。

  • 由中央服务器场内的 SSP 提供的搜索服务也会对区域服务器场中的内容进行爬网。

此体系结构的主要优点是:在将全局搜索作为一个选项提供时,将针对本地内容优化查询性能。此体系结构非常适合下列情况:

  • 区域工作者主要使用搜索来访问本地内容。

  • WAN 链接支持对区域网站中的内容进行爬网。

此体系结构与中心搜索体系结构类似,不过,它需要大量使用 WAN 链接才能对内容进行爬网。但在使用本地搜索作为选项时,全局搜索在整个搜索体系结构中所起的作用将不再明显,可以将它作为在制定爬网计划和服务级别协议时需考虑的因素。

下表汇总了此搜索体系结构的优点和缺点。

优点 缺点

针对本地内容优化查询性能。

与集中式搜索模型相比,此选项大大减少了通过 WAN 执行的查询数。

基于搜索范围(本地或全局)优化搜索相关性。

多个 SSP 会增加管理成本。

通过 WAN 对内容进行爬网会占用带宽。

对于执行全局查询的区域用户,查询性能受 WAN 链接性能的影响。

分布式搜索

如果 WAN 链接无法提供在全局环境中同步内容或对区域服务器场中的内容进行远程爬网的能力,可以仅提供区域服务器场级别的搜索。通过使用分布式搜索体系结构,每个区域服务器场都将承载自己的 SSP,并且由每个区域 SSP 提供的搜索服务只会对本地内容进行爬网。

下图演示了分布式搜索体系结构。

分布式体系结构中的 SSP 全局搜索

在下列情况下,请考虑使用分布式搜索体系结构:

  • 区域网站未通过 WAN 链接正确连接。

  • 区域网站对于其他区域网站是自治的。

  • 区域网站不是非常依赖与中心网站(例如,包含自行运营的分支机构的组织)的连接。

  • 存在大量区域网站,并且业务模型和 WAN 链接不支持集中式模型,例如,具有大量分支机构(这些分支机构未通过 WAN 链接很好地连接)的组织。

下表汇总了分布式搜索体系结构的优点和缺点。

优点 缺点

保留搜索相关性。

不通过 WAN 链接对内容进行爬网。

搜索不是企业范围的搜索。

区域服务器场的用户必须连接到中央服务器场才能搜索该服务器场中的内容。

联合搜索

联合搜索是 Microsoft Office Server 的基础结构更新的一项新增功能。Microsoft Search Server 2008 中也包括了此功能。利用联合搜索,最终用户可以发出搜索多个源并在单一搜索结果页上的单独 Web 部件中显示结果的查询。这些源可以是企业内容库、其他搜索引擎或 Search Server 索引的某些部分。使用联合,您将能为用户提供更广泛的查询结果,而不必投入服务器资源来对内容进行爬网和编制内容索引。

在服务器场位于不同区域的分布式环境中,可以在表示不同联合位置的每个区域上配置联合搜索。用户将在不同的联合结果 Web 部件中看到每个区域的搜索结果。结果可以在收到后立即显示。例如,来自本地服务器场的搜索结果将很可能在通过 WAN 连接收到的搜索结果之前返回。

下图演示了在地理上分散的环境(其中 Microsoft Office SharePoint Server 已部署到每个区域)中如何使用联合搜索。

指向远程服务器场的联合搜索连接

在此图示中:

  • 位于区域服务器场 2 的用户发出查询。

  • 查询流量发送到位于本地服务器场的 Web 服务器。该 Web 服务器将查询转发到联合搜索位置。

  • 查询 A 和 B 是联合位置,并且发送到地理上分散的服务器场。

  • 查询 C 是由本地服务器场进行的本地搜索。

  • 搜索结果显示在一个网页上的单独 Web 部件中。

在分布式环境中配置联合搜索

使用联合搜索,每个服务器场都会对其自己的内容进行爬网。对于运行 Office SharePoint Server 的服务器场,这需要每个区域服务器场中有 SSP。您通过(在本地服务器场上)创建一个 OpenSearch 联合位置来创建与运行 Office SharePoint Server 的远程服务器场的联合连接。OpenSearch 联合位置必须指向远程服务器场上搜索中心内的搜索结果页的 RSS 源。您通过创建“本地搜索索引”类型的联合位置,从而将本地服务器场包括在联合搜索中。若要在分布式环境中实现联合搜索,请将每个服务器场配置为具有连接到其他服务器场的联合位置。

下图更加详细演示了与远程服务器场的联合搜索连接。

联合搜索、地理位置分布;每个区域拥有自己的部署

在此图示中:

  • 在中央服务器场上,向“公司信息”网站集中添加了一个搜索中心。此搜索中心配置为具有允许用户跨服务器场搜索的范围。此搜索中心包括一个“搜索结果”页面。已为该页面启用了 RSS 源。

  • 在区域服务器场上,配置了一个联合搜索连接(标注 A)以连接到中央服务器场的“搜索结果”页面。这样,区域服务器场的本地用户将能在位于中央服务器场的内容中进行搜索。

在许多具有多个服务器场的环境中,并非服务器场上的所有内容都与靠近其他服务器场的用户相关。例如,特定区域的公司政策可能仅适用于该区域。如果您知道有可供其他区域的用户搜索的相关内容的子集,请在服务器场上创建一个范围,它可将搜索的范围划定为相关的内容子集。在创建与远程服务器场的联合连接时,请连接到相同的“搜索结果”页面 RSS 源,但添加范围作为 URL 参数。例如:https://server/searchcenter/_layouts/srchrss.aspx?k={searchTerms}&s=<yourcustomscope>

有关实现搜索中心的详细信息,请参阅以下文章:

完成创建和配置联合搜索位置的过程之后,您需要将其中每个位置连接到联合结果 Web 部件,以便用户能够从搜索中心中显示的位置查看结果。请为每个服务器场配置一个不同的联合结果 Web 部件。在配置联合结果 Web 部件属性时,请确保选择以异步方式呈现结果的选项(这是默认设置)。通过此设置,将在收到结果时显示结果,并且用户不必等待较慢的连接完成才开始查看结果。默认情况下,如果未选择异步方式,在每个联合位置返回结果或超时之前,结果将不会呈现。超时期限设置为 90 秒,并且无法更改。

在使用联合搜索时要评估的一项重要注意事项是搜索结果的安全修整。默认情况下,将对以下各项返回的结果持续进行搜索结果的安全修整:

  • 本地搜索索引位置(本地服务器场)。

  • 使用公用凭据(适用于所有用户的一组凭据)的 OpenSearch 位置。

  • 使用每用户 Kerberos 身份验证的 OpenSearch 位置。

但是,将不会为 Kerberos 以外的其他身份验证协议自动传递用户凭据。若要确保针对这些方案的当前用户对结果进行安全修整,请扩展联合结果 Web 部件以收集用户凭据。有关详细信息,请参阅创建带有凭据 UI 的自定义联合搜索 Web 部件 [Search Server 2008](该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=121779&clcid=0x804)(该链接可能指向英文页面)。

还可以考虑使用顶部联合结果 Web 部件,该部件将显示多个联合位置中最匹配的结果。但是,此 Web 部件配置为以同步方式显示结果,并且无法更改此设置。因此,页面加载时间将取决于顶部联合结果 Web 部件中配置的最慢位置。在未使用 Kerberos 身份验证的情况下,如果要确保针对每个用户对 OpenSearch 位置(除本地服务器场外的所有其他位置)的搜索结果进行安全修整,您将也需要扩展此 Web 部件以收集用户凭据。

最后,尽管联合搜索允许用户查看多个搜索源,但用户只能使用标准搜索选项。高级搜索选项不能用于联合搜索。

将联合搜索用于运行 Windows SharePoint Services 的服务器场

若要将联合搜索用于运行 Windows SharePoint Services 的服务器场,请将运行 Windows SharePoint Services 的服务器场升级为 Search Server 2008 Express 或 Search Server 2008。升级所带来的好处是:将能在服务器场范围内搜索运行 Windows SharePoint Services 的服务器场,而不是进行范围仅限定为每个内容数据库的搜索。此外,要想在结果上提供 RSS 源,Search Server 必不可少。必须要有 RSS 才能创建指向远程服务器场结果的 OpenSearch 联合位置,以便结果可以显示在聚合页面上。

下图演示了一个地理上分散的环境,在各个区域位置有运行 Windows SharePoint Services(已升级为 Search Server 2008)的服务器场。

地理位置分布环境;服务器场在各个区域位置进行了升级。

联合搜索摘要

在地理部署中使用联合搜索有很多好处。有了联合搜索,将不再需要通过 WAN 连接对内容爬网或通过 WAN 连接使内容同步。在单独的 Web 部件中显示结果将可帮助用户区分内容所在的位置,从而可轻松地确定本地内容。了解内容所在位置还可帮助用户确定哪些结果最有可能相关。

不过,此体系结构也有一些缺点。首先,无法在搜索结果中实现企业范围的相关性。相反,相关性的范围被划定为每个联合位置。其次,远程位置的查询性能受到 WAN 链接的约束。但是,用户通常会非常快地收到本地服务器场的搜索结果。

下表汇总了联合搜索体系结构的优点和缺点。

优点 缺点

提供企业范围内的搜索。

可搜索的文档或项目的数量不受限制。

不通过 WAN 链接对内容进行爬网或同步。

针对本地内容优化了查询性能,同时提供远程内容的结果。

用户可搜索不同的位置,而无需单独连接到每个位置。

可单独管理每个内容存储。

可在区域服务器场使用 Windows SharePoint Services 及 Search Server 2008,而不是 Office SharePoint Server。

如果使用 Kerberos 身份验证,将为本地服务器场和远程服务器场保留安全修整。

未实现企业范围的搜索相关性。相关的范围被划定为每个内容源。

管理多个 SSP 或 Search Server 2008 的部署将会提高管理成本。

远程位置的查询性能受 WAN 链接的约束。

由于内容在环境中不同步,因此用户将会在带宽使用的高峰期通过 WAN 链接下载文档。

用户无法使用高级搜索选项。

在未使用 Kerberos 情况下,如果保留搜索结果的安全修整,将需要扩展联合搜索 Web 部件。

下载此书籍

本主题包含在以下可下载书籍内,以方便您阅读和打印:

有关可下载书籍的完整列表,请参阅 Office SharePoint Server 2007 的可下载书籍

另请参见

概念

支持的 Office SharePoint Server 全局解决方案
设计全球信息体系结构和管理
规划带宽需求