SharePoint Server 中的搜索体系结构概述

适用于:yes-img-132013 yes-img-162016 yes-img-192019 yes-img-seSubscription Edition no-img-sopSharePoint in Microsoft 365

搜索体系结构包含搜索组件和数据库。 您结构化体系结构的方式取决于您使用搜索的位置:企业或 Internet 网站。 在构建搜索体系结构时,有一些注意事项,例如高可用性和容错、内容量和估计的页面视图数和每秒查询数。

若要了解适用于不同用例的搜索拓扑,请参阅技术图表 SharePoint Server 2016 的企业级搜索体系结构SharePoint Server 2016 的 Internet 网站搜索体系结构

搜索组件和搜索数据库的概述

以下各表概述了所有可用搜索组件和搜索数据库。 有关搜索组件和数据库如何交互的详细信息,请参阅 Search architectures for SharePoint Server 2016(SharePoint Server 2016 的搜索体系结构)技术图表。

搜索组件

搜索组件名称 说明
爬网组件 对内容源进行爬网可从已爬网项目中收集已爬网属性和元数据,并将此信息发送到内容处理组件。
内容处理组件 转换已爬网项目并将其发送到索引组件。 此组件还会将已爬网属性映射到托管属性。
分析处理组件 执行搜索分析和使用情况分析。
索引组件 从内容处理组件中搜索已处理的项目并将其写入搜索索引。 此组件还可以处理传入查询、从搜索索引中检索信息并将结果集发送回查询处理组件。
查询处理组件 分析传入查询。 这有助于提高精确度、改进检索和提高相关性。 查询将发送到索引组件,该组件将为查询返回一组搜索结果。
搜索管理组件 运行搜索的系统进程,添加并初始化搜索组件的新实例。

搜索数据库

搜索数据库名称 说明
爬网数据库 存储跟踪信息和有关已爬网项目(如文档和 URL)的历史信息。 还将存储上一次爬网时间、上一次爬网 ID 和上一次爬网期间的更新类型(添加、更新、删除)等信息。
链接数据库 存储由内容处理组件提取的未处理信息和有关搜索单击的信息。 分析处理组件将分析此信息。
分析报告数据库 存储使用情况分析的结果。
搜索管理数据库 存储搜索配置数据。

关于爬网组件

爬网组件会对内容源进行爬网。 可以对各种内容源进行爬网,例如文件共享、SharePoint Server 内容、业务线应用程序等。 为了检索信息,爬网组件将通过调用相应的索引连接器或协议处理程序来连接到内容源。 检索内容之后,爬网组件会将已爬网项目传递到内容处理组件。

有关对内容源进行爬网的详细信息,请参阅在 SharePoint Server 中规划爬网和联合

关于内容处理组件

内容处理组件处理已爬网项目并将这些项目发送到索引组件。 内容处理组件将执行文档分析和属性映射等操作。 它还执行语言检测和实体提取等语言处理。 此组件将已爬网项目转换为搜索索引中包含的项目。 内容处理组件还将有关链接和 URL 的信息写入链接数据库。

有关内容处理的详细信息,请参阅在 SharePoint Server 中规划爬网和联合

关于分析处理组件

分析处理组件执行两种分析:搜索分析和使用情况分析。 此组件使用这两种分析中的信息来改进搜索相关性、创建搜索报告并生成建议和深层链接。

  • 搜索分析是指从链接数据库提取信息,例如链接、某个项的点击次数、定位文本、用户相关数据和元数据。 此信息对于相关性很重要。

  • 使用情况分析是指分析通过事件存储从前端接收的使用情况日志信息。 使用情况分析可生成使用情况和统计报告。

分析结果将添加到搜索索引中的项。 此外,使用情况分析结果存储在分析报告数据库中。

有关详细信息,请参阅 SharePoint Server 中的分析处理概述

关于索引组件

可以将搜索索引划分为多个离散部分(称作索引分区)。 搜索索引是所有索引分区的聚合。 每个索引分区保留一个或多个包含相同信息的索引副本。 为达到容错和冗余,请为每个索引分区创建附加索引副本,并在多个服务器之间分配索引副本。

索引组件是索引副本的逻辑表示形式。 在搜索拓扑中,您必须为每个索引副本设置一个索引组件。

索引组件可执行以下操作:

  • 接收来自内容处理组件的已处理项目并将这些项目写入索引文件中。 索引文件存储在承载索引组件的服务器上的磁盘中。

  • 从查询处理组件接收查询并返回结果集。

有关搜索架构和搜索索引的详细信息,请参阅 SharePoint Server 中的搜索架构概述

关于查询处理组件

查询组件分析和处理查询与结果。 它可执行断词和词干分解等语言处理。 在查询处理组件从搜索前端接收查询时,它会分析和处理该查询以提高精确度、改进检索和提高相关性。 已处理查询将提交到索引组件。 索引组件会将一个基于已处理查询的结果集返回给查询处理组件,反过来,查询处理组件会处理该结果集,然后将其返回给搜索前端。

有关详细信息,请参阅在 SharePoint Server 中规划查询转换和结果排序

关于搜索管理组件

搜索管理组件运行搜索的系统进程。 此组件执行设置,即添加和初始化其他搜索组件的实例。

关于爬网数据库

爬网数据库存储跟踪信息和有关已爬网项目的历史信息。 例如,存储有关上一次爬网时间、上一次爬网 ID 和上一次爬网期间的更新类型的信息。

链接数据库存储由内容处理组件提取的信息。 还存储有关搜索单击以及用户已单击搜索结果页中的搜索结果的次数的信息。 所存储的信息未经处理,需由分析处理组件执行分析。

关于分析报告数据库

分析报告数据库存储使用情况分析的结果。 此外,它将存储分析的统计信息。 SharePoint Server 使用此信息来创建 Excel 报表,以显示不同的统计信息。

关于搜索管理数据库

搜索管理数据库存储搜索配置数据,例如拓扑、爬网规则、查询规则以及已爬网属性与托管属性之间的映射。 它还会存储爬网组件的访问控制列表 (ACL)。 每个 Search Service 应用程序只能有一个搜索管理数据库。

另请参阅

在 SharePoint Server 中管理搜索拓扑