在 SharePoint Server 中规划爬网和联合

 

**上一次修改主题:**2018-03-06

**摘要:**规划对 SharePoint Server 2016 和 SharePoint Server 2013 中的搜索进行爬网或联合。

您必须对希望可用于搜索的内容进行爬网或联合,然后用户才可以在 SharePoint Server 中执行搜索。在对内容进行爬网时,Search Service 会构建一个搜索索引,以供用户运行查询(搜索请求)。您也可以配置搜索系统,将来自外部提供程序(如必应 Bing)的搜索结果显示在本地搜索索引结果的旁边。从外部提供程序获取搜索结果并将其显示在本地的过程称为联合

本文内容:

  • 规划内容源

    • 规划对不同种类的内容的爬网

    • 按不同的计划对内容进行爬网

    • 进行完全爬网的原因

    • 限制或增加要对其进行爬网的内容数量

    • 规划连接器

    • 规划爬网规则以优化爬网

    • 规划爬网程序身份验证

  • 规划内容处理

    • 包含或排除文件类型

    • 规划使用(自定义)实体提取程序

  • 关于结果源和联合

规划内容源

内容源是定义为一组爬网设置,如要对哪台主机进行爬网、将要对其进行爬网的内容类型(如 SharePoint 内容或文件共享)、爬网计划以及爬网深度。

创建 Search Service 应用程序时,服务应用程序会自动提供预配置的内容源本地 SharePoint 网站。您可以使用此内容源来指定如何在与 Search Service 应用程序相关的 Web 应用程序中对所有 SharePoint 内容进行爬网。

如果您只有一种内容类型(如所有内容都是 SharePoint 网站或文件共享类型),则应当考虑只定义一个内容源。但是,如果有多种不同类型的内容或每个主机有自己独特的要求,则应当定义多个内容源。在您必须执行下列操作时需规划创建其他内容源:

  • 对不同类型的内容(例如,文件共享和业务线应用程序中的数据)进行爬网

  • 按与其他内容不同的计划对某些内容进行爬网

  • 限制或增加要对其进行爬网的内容的数量

  • 为不同网站的爬网设置不同的优先级

  • 使某些类型的内容状态比其他内容状态更新

您可以在每个 Search Service 应用程序中创建大量内容源,但没有与每个内容源关联的开销。因此,我们建议您创建满足您其他运行要求的最小数目的内容源,如爬网优先级和爬网计划差异。每个内容源最多可以包含 100 个开始地址。

规划对不同种类的内容的爬网

您只能对每个内容源的一种内容进行爬网。例如,您可以创建一个包含 SharePoint 网站的开始地址的内容源和另一个包含文件共享的开始地址的内容源。但是,您不能创建同时包含 SharePoint 网站和文件共享的开始地址的单个内容源。下表列出了您可以配置的内容源种类。

使用此种内容源 对于此内容

SharePoint 网站

来自同一服务器场或不同的 SharePoint Server 场的 SharePoint 网站。

来自同一服务器场或不同的 SharePoint Server 2013、SharePoint Server 2010、SharePoint Foundation 2010 或 Microsoft Search Server 2010 场的 SharePoint 网站。

来自同一服务器场或不同的 Office SharePoint Server 2007、Windows SharePoint Services 3.0 或 Search Server 2008 场的 SharePoint 网站。

网站

组织中不在 SharePoint 网站上的其他 Web 内容。

Internet 上的网站上的内容。

文件共享

组织中文件共享上的内容。

安全注释Security
在 Search Service 对文件共享进行爬网时,如果共享上的文件权限不同于包含此文件的文件夹权限,则文件权限占先并用于搜索结果的安全修整。因此,为了确保搜索结果中仅出现相应的项,请确保文件共享上的文件具有合适的权限。如果文件权限不合适,则可以从搜索索引或搜索结果删除特定项。有关详细信息,请参阅Delete items from the search index or from search results in SharePoint Server

Exchange 公用文件夹

Exchange 2007 和 Exchange Server 2010 公用文件夹。

Lotus Notes

存储在 Lotus Notes 数据库中的电子邮件。

备注

与所有其他种类的内容源不同,在安装并配置相应的必备软件之前,Lotus Notes 内容源选项不会显示在用户界面中。有关详细信息,请参阅Configure and use the Lotus Notes connector for SharePoint Server(同样适用于 SharePoint Server)。

Documentum

来自 EMC Documentum 系统的内容。

备注

在安装和配置相应的必备软件和用于 Documentum 的 Microsoft SharePoint 2016 索引连接器之前,无法对 EMC Documentum 内容进行爬网。有关详细信息,请参阅Configure and use the Documentum connector in SharePoint Server(同样适用于 SharePoint Server)。

业务线数据

存储在业务线应用程序中的业务数据。

自定义存储库

仅在安装和注册自定义连接器之后才能对其进行爬网的内容源。

业务线数据的内容源

业务数据内容源要求在 Business Data Connectivity Service 应用程序的“应用程序模型”中指定托管数据的应用程序。可以创建一个内容源,对 Business Data Connectivity Service 中注册的所有应用程序进行爬网,也可以创建单独的内容源对各个应用程序进行爬网。有关详细信息,请参阅 SharePoint 2013 中的搜索连接器框架(这篇 MSDN 文章同样适用于 SharePoint Server)。

通常,计划将业务数据集成到网站集的人员与参与整体内容规划流程的人员并不相同。因此,应在内容规划流程中加入业务应用程序管理员,这样他们可以就如何将业务应用程序数据集成到内容以及使其在网站集中有效显示提出建议。

按不同的计划对内容进行爬网

考虑根据以下原因的不同计划定义内容源:

  • 适应停机时间和高峰使用时间段。

  • 对较频繁更新的内容进行更频繁地爬网。

  • 分别对位于较慢服务器上的内容和位于较快服务器上的内容进行爬网。

  • 因高新鲜度要求而对 SharePoint 内容源持续进行爬网。有关详细信息,请参阅Manage continuous crawls in SharePoint Server

进行完全爬网的原因

Search Service 应用程序管理员对一个或多个内容源进行完全爬网的原因包括:

  • 已创建 Search Service 应用程序,但尚未对预配置内容源“本地 SharePoint 网站”进行爬网。

  • 一些其他内容源是新建的,且尚未进行爬网。

  • Search Service 应用程序管理员更改了内容源。

  • 软件更新或 Service Pack 已安装在服务器场中的服务器上。请参阅软件更新或 Service Pack 的说明以获取详细信息。

  • Search Service 应用程序管理员或网站集管理员添加或更改了托管属性。需要对所有受影响内容源进行完全爬网才能使新的或更改的托管属性生效。

  • 在文件共享的最后一次完全爬网之后,您想要检测对文件共享上的本地组所做的安全更改。

  • 您想要解决连续增量爬网故障。如果对任何特殊内容的增量爬网连续失败很多次,则系统会从搜索索引中删除受影响的内容。

  • 已添加、删除或修改爬网规则。

  • 您想要替换损坏的搜索索引。

  • 分配给默认内容访问帐户的用户帐户权限已更改。

在以下情况下,即使安排了增量爬网或连续爬网,系统也会执行完全爬网:

  • 搜索管理员停止了上一次爬网。

  • 内容数据库已还原,或者服务器场管理员已分离或重新附加了内容数据库。

  • 内容源的完全爬网从未从此 Search Service 应用程序执行。

  • 爬网数据库不包含正在爬网的地址的条目。爬网数据库中若没有用于爬网的项目条目,则不会发生增量爬网。

限制或增加要对其进行爬网的内容的数量

每个内容源的属性中可用的选项因所选内容源类型而异。您可以使用爬网设置选项来限制或增加要对其进行爬网的内容数量。对于每个内容源,您可以指定要在多大范围内对开始地址进行爬网。大多数内容源类型都允许您指定要对层次结构中每个开始地址以下多深的层次进行爬网。此行为适用于特定内容源中的所有开始地址。如果您必须对较深层次上的一些网站进行爬网,则可以创建包括这些网站的其他内容源。下表描述了配置爬网设置选项时的最佳实践。

对于此种内容源 如果属于此情况 使用此爬网设置选项

SharePoint 网站

您希望包括网站自身的内容并且不希望包括子网站上的内容,或者您希望按不同计划对子网站上的内容进行爬网。

仅对每个开始地址的 SharePoint 网站爬网。

SharePoint 网站

您希望包括网站自身的内容。

- 或 -

您希望按相同计划对开始地址下的所有内容进行爬网。

对每个开始地址的主机名称下的所有内容进行爬网。

网站

链接网站上提供的内容不太可能相关。

仅在每个开始地址的服务器中进行爬网。

网站

相关内容只位于第一页上。

仅对每个开始地址的第一页爬网。

网站

您希望限制对开始地址上的链接进行的爬网的深度。

自定义 — 指定要对其进行爬网的页面深度和服务器跃点数。

备注

对于连接紧密的网站,建议您从小数量开始,因为指定大于 3 的页面深度或大于 3 的服务器跃点数会对整个 Internet 进行爬网。

文件共享

Exchange 公用文件夹

子文件夹中提供的内容不太可能相关。

仅对每个开始地址的文件夹爬网。

文件共享

Exchange 公用文件夹

子文件夹中的内容很可能相关。

对每个开始地址的文件夹和子文件夹爬网。

业务数据

业务数据目录元数据存储中注册的所有应用程序都包含相关内容。

对整个业务数据目录元数据存储进行爬网。

业务数据

并非 BDC 元数据存储中注册的所有应用程序都包含相关内容。

- 或 -

您希望按不同计划对一些应用程序进行爬网。

对选择的应用程序爬网。

规划连接器

爬网程序使用连接器(在 SharePoint Server 的早期版本中称为“协议处理程序”)来获取和索引内容。对于最常用的协议,SharePoint Server 提供并自动使用适当的连接器。如果要对需要默认情况下不提供的连接器的内容进行爬网,则必须首先安装第三方连接器或构建自定义连接器。有关默认安装的连接器的列表,请参阅 Default connectors in SharePoint Server(同样适用于 SharePoint Server)。

规划内容源时的其他注意事项

对于相同类型的内容库(如 SharePoint 网站),关于是否使用一个或多个内容源的决定很大程度上取决于管理注意事项。为简化管理,应以管理员可以方便地更新内容源、爬网规则和爬网计划的方式组织内容源。

  • 您不能在同一 Search Service 应用程序中使用多个内容源对相同开始地址进行爬网。例如,如果您使用特定内容源对网站集及其所有子网站进行爬网,则不能使用其他内容源按不同的计划单独对其中一个子网站进行爬网。

  • 管理员通常会更新内容源。更改内容源需要对该内容源进行完全爬网。因此,请考虑创建单独的内容源,以便您可以在需要时同时运行多个完全爬网,并让针对任何特殊内容源的完全爬网花费更少时间。

规划爬网规则以优化爬网

爬网规则应用于 Search Service 应用程序中的所有内容源。您可以将爬网规则应用于特定 URL 或一组 URL 以执行以下操作:

  • 通过排除一个或多个 URL 来避免对不相关内容进行爬网。这还有助于减少使用的服务器资源和网络流量。

  • 对 URL 上的链接进行爬网而不对 URL 本身进行爬网。当包含链接的网页不包含相关信息时,此选项对具有相关内容链接的网站很有用。

  • 允许对复杂 URL 进行爬网。此选项指示系统对包含使用问号指定的查询参数的 URL 进行爬网。这些 URL 可能不包括相关内容,具体取决于相关网站。因为复杂 URL 通常会重定向到不相关网站,最好仅在您知道其复杂 URL 中提供的内容具有相关性的网站上启用此选项。

  • 允许将 SharePoint 网站上的内容作为 HTTP 页面进行爬网。此选项允许搜索系统对防火墙之后的 SharePoint 网站进行爬网,或在要对其进行爬网的网站限制对爬网程序(搜索拓扑中的一个爬网组件)所用 Web 服务的访问的情况下,允许系统对 SharePoint 网站进行爬网。

  • 指定是使用默认内容访问帐户、其他内容访问帐户还是使用客户端证书来对指定 URL 进行爬网。

因为对内容进行爬网会占用资源和带宽,所以包括少量您知道是相关的内容优于包括大量可能不相关的内容。在初始部署后,您可以查看查询和爬网日志并将内容源和爬网规则调整为更相关和包括更多内容。

规划爬网程序身份验证

当爬网程序访问内容源中列出的开始地址时,爬网程序必须经承载该内容的服务器验证并有权访问这些服务器。默认情况下,系统使用默认内容访问帐户。您也可以使用爬网规则来指定要在对特定内容进行爬网时使用的其他内容访问帐户。无论您是使用默认内容访问帐户还是使用由爬网规则指定的其他内容访问帐户,您使用的内容访问帐户都必须至少对要对其进行爬网的所有内容具有读取权限。如果内容访问帐户没有读取权限,则不会对内容进行爬网和编制索引,因而不可用于查询。

建议您指定为默认内容访问帐户的帐户有权访问大多数已爬网内容。仅当安全注意事项需要不同的内容访问帐户时,才使用其他内容访问帐户。

对于您规划的每个内容源,应确定默认内容访问帐户无法访问的开始地址,然后计划为这些开始地址添加爬网规则。

重要

确保用作默认内容访问帐户或任何其他内容访问帐户的域帐户不是与您要对其进行爬网的任何 Web 应用程序相关的应用程序池使用的域帐户。这样做会导致对 SharePoint 网站中的未发布内容和 SharePoint 网站中的次要版本文件(即历史记录)进行爬网和编制索引。

另一个重要的注意事项是爬网程序必须与主机服务器使用相同的身份验证协议。默认情况下,爬网程序通过使用 NTLM 进行身份验证。如果需要,您可以将爬网程序配置为使用其他身份验证协议。

如果使用的是基于声明的身份验证,请确保要对其进行爬网的任何 Web 应用程序上已启用 Windows 身份验证。

规划内容处理

爬网程序对内容源指定的内容存储库进行爬网,然后将已爬网项目的内容以及元数据提供给内容处理组件。内容处理组件会读取、分析已爬网属性,然后将属性报告给搜索管理数据库。

可以将已爬网属性映射到托管属性,并通过编辑搜索架构来配置属性设置。内容处理组件读取此搜索架构并利用它来执行映射。搜索索引中仅包含托管属性。托管属性可用于创建精简程序。有关详细信息,请参阅 SharePoint Server 中的搜索架构概述

包含或排除文件类型

搜索索引中可以包含任何文件类型的内容。但对于要索引的内容,首先必须由爬网组件进行爬网,然后由内容处理组件进行分析。爬网组件仅可爬网其文件扩展名包含在“管理文件类型”页面文件扩展名列表中的文件。内容处理组件仅可在以下条件下分析爬网文件的内容:

  • 内容处理组件具有一个可分析文件格式的格式处理程序。

  • 已启用内容处理组件来分析具有相应文件格式和文件扩展名的文件。

如果内容处理组件不能分析文件,则搜索索引仅包含文件属性,如文件名。

默认情况下,SharePoint Server 可满足许多类型的文件的要求,而且可以爬网和分析这些文件类型,无需安装其他格式处理程序。有关文件类型的概述,请参阅 Default crawled file name extensions and parsed file types in SharePoint Server

备注

通过添加基于第三方筛选器的格式处理程序(比如 iFilter),您可以扩展 SharePoint Server 能够分析的文件格式的初始集合。第三方 iFilter 可以覆盖内置格式处理程序。

如果您计划在搜索索引中包含的内容来自文件类型在“管理文件类型”页面的内容存储库,请查看以下内容:

  • 要爬网文件类型,请将该文件类型添加到“管理文件类型”页面。

  • 要分析文件类型:

    • 如果 SharePoint Server 没有该格式的格式处理程序,则在每台在 Search Service 应用程序中托管内容处理组件的服务器上,为该文件格式安装基于第三方筛选器的格式处理程序。

    • 在每台在 Search Service 应用程序中托管内容处理组件的服务器上,启用文件格式和文件扩展名的分析

有关详细信息,请参阅Add or remove a file type from the search index in SharePoint Server

规划使用(自定义)实体提取程序

您可以配置搜索系统以在非结构化内容(例如正文文本或文档标题)中查找“实体”。这些实体可以是词或短语,如产品名称。若要指定要查找的实体,您可以创建和部署自己的词典。

所提取的实体将作为单独的托管属性存储在搜索索引中,这些托管属性会自动配置为可供搜索、查询、检索、排序和精简。例如,您可以在搜索精简条件中使用这些属性以帮助用户筛选其搜索结果。

对于公司,可以使用 SharePoint Server 提供的预填充公司提取词典。

此外,您还可以以自定义实体提取词典的形式部署几种类型的自定义实体提取程序。可使用 Microsoft PowerShell 来部署这些词典。这些词典中的实体(单个字或多个字)将以区分大小写或不区分大小写的方式与内容中的词语或词语的一部分进行匹配。有关详细信息,请参阅在 SharePoint Server 中创建和部署自定义实体提取程序

自定义实体提取程序/词典 说明

Word 提取

不区分大小写,最多 5 个词典。例如,条目“anchor”与“anchor”和“Anchor”匹配,但与“anchorage”不匹配。

Word 部分提取

不区分大小写,最多 5 个词典。例如,条目“anchor”与“anchor”、“Anchor”和“anchorage”内部匹配。

Word 精确提取

区分大小写,最多 1 个词典。例如,条目“anchor”与“anchor”匹配,但与“Anchor”或“Anchorage”不匹配。

Word 部分精确提取

区分大小写,最多 1 个词典。例如,条目“anchor”与“anchor”和“anchorage”内部匹配,但与“Anchor”不匹配。

关于结果源和联合

在 SharePoint Server 中,您可以使用“结果源”来指定从哪个提供程序的 URL 获取搜索结果、使用哪个协议来获取这些结果,以及其他相关设置。例如,预先配置的默认结果源为“本地 SharePoint 结果”。

您可以添加结果源,其中指定从哪个外部搜索提供程序(如远程搜索引擎或源)获取搜索结果。这称为“联合”。

关于联合

使用联合时,用户可以搜索和检索本地场中未经服务器爬网的内容。例如,联合可以提供 Web 搜索提供程序(如必应)的搜索结果,或者可能提供您不具备爬网权限的专用数据集的搜索结果。

如果按地理位置分布的组织的每个位置都具有自己的搜索索引,并希望提供对各个位置的内容的搜索访问权限,那么联合也是不错的解决方案。由于每个位置都提供其自己索引的搜索结果,因此不必部署用于构建和访问单个统一索引的集中式搜索服务。在这种情况下,联合可以提供如下优点:

  • 低带宽要求 ─ 地理上分散的组织可能无需对大量远程内容进行爬网和索引所需的较高网络带宽。如果组织使用联合,那么通过广域网传输以供搜索的主数据只是每个联合内容存储库的一组搜索结果。

  • 搜索结果的新鲜度 ─ 组织内的每个部门对本地内容进行爬网的速度,比集中搜索部署在整个组织中对所有内容进行爬网的速度要快得多。

  • 分区搜索可变性 ─ 组织使用联合时,组织内的每个部门都可以提供并控制其自己的搜索环境。例如,每个部门都可以根据自己的要求和首选项、用户体验及搜索连接器等量身定制搜索。集中式搜索门户不允许这种差异。

  • 搜索索引限制的大小 ─ 地理上分布的大型组织可能包含几百万个文档。这类组织不太可能进行单个的统一搜索索引,因为支持此类大型索引需要有基础结构。每个部门中的用户都可以通过联合执行单个索引,查找分布在组织多个较小搜索索引中的相关内容。

使用联合的结果源

若要在 SharePoint Server 中使用联合,可以在“添加/编辑结果源”页上的“协议”部分中选择下列协议之一:

您选择此协议 从此类提供程序获取联合搜索结果

远程 SharePoint

其他 SharePoint Server 场中的搜索服务索引

OpenSearch 1.0/1.1

使用 OpenSearch 协议的外部搜索引擎或源(如必应)

Exchange

Exchange Server 2013

备注

在“添加/编辑结果源”页上选择前面表中所示的协议之一时,还必须填写页面上的其他相关字段,以便完整地指定结果源。

See also

了解 SharePoint Server 中用于搜索的结果源
在 SharePoint Server 中配置搜索的结果源
Manage crawling in SharePoint Server
Default connectors in SharePoint Server
Default crawled file name extensions and parsed file types in SharePoint Server

SharePoint 2013 中的搜索连接器框架