规划爬网和联合 (FAST Search Server 2010 for SharePoint)

 

适用于: FAST Search Server 2010

上一次修改主题: 2016-11-29

本文讨论如何通过帮助您了解 Microsoft FAST Search Server 2010 for SharePoint 对内容进行联合、爬网和编制索引的方式来规划爬网和联合。

您必须首先对要供用户搜索的内容进行爬网或联合,最终用户才能使用 FAST Search Server 2010 for SharePoint 中的企业级搜索功能。

本文区分了以下三种类型的索引连接器:

  1. Microsoft SharePoint Server 2010 索引连接器和爬网框架

    通过集成的索引连接器或 Business Connectivity Services 使用此框架可以对大多数内容源进行爬网。可将 SharePoint Server 2010 管理中心用于大多数配置和操作任务。

  2. 联合搜索连接器

    通过联合搜索连接器,您可以将查询传递到目标系统并显示该系统返回的结果,而实际不会对相应内容进行爬网。可将 SharePoint Server 2010 管理中心用于大多数配置和操作任务。

  3. FAST Search Server 2010 for SharePoint 特定的索引连接器

    FAST Search Server 2010 for SharePoint 提供三个其他索引连接器用于对 Web、数据库和 Lotus Notes 内容进行爬网。这些索引连接器主要是通过编辑 XML 文件和 Windows PowerShell cmdlet 进行配置的,您可以通过使用命令行操作它们。

本文内容:

  • 标识内容源并确定要使用的索引连接器

    本节将帮助您确定要使用哪个索引连接器。

  • 规划联合

    本节将帮助您规划如何使用 SharePoint Server 2010 框架和 FAST Search 查询 Search Service 应用程序包含最终用户查询的联合搜索结果。

  • 规划使用 FAST Search Server 2010 for SharePoint 索引连接器

    本节将帮助您规划使用 FAST Search Server 2010 for SharePoint 特定的连接器。

    • 关于 FAST Search Web 爬网程序

    • 关于 FAST Search 数据库连接器

    • 关于 FAST Search Lotus Notes 连接器

    • 在爬网中包含或排除内容

    • 设置爬网计划

标识内容源并确定要使用的索引连接器

FAST Search Server 2010 for SharePoint 对不同内容源使用不同的索引连接器。索引连接器的选择受您要爬网的内容类型、个人喜好以及组织的特定需求影响。

大多数内容源都可以使用通过 Microsoft SharePoint Server 2010 提供的各种索引连接器来进行爬网。在管理中心用户界面中,这些索引连接器的集合称为 FAST Search 连接器。这不是一个单独的索引连接器,而是多个索引连接器的集合。FAST Search 连接器通过 FAST Search 内容 Search Service 应用程序(内容 SSA)与一个或多个内容源关联(因此与索引连接器关联)。内容 SSA 还将 Microsoft SharePoint Server 2010 前端与 FAST Search Server 2010 for SharePoint 后端连接。

在安装 FAST Search Server 2010 for SharePoint 时,您还可以访问三种 FAST Search Server 2010 for SharePoint 特定的索引连接器。这些连接器可为索引馈送 Web、数据库和 Lotus Notes 内容。下表汇总了可用的索引连接器及其建议用例。

内容类型 索引连接器 建议用例

SharePoint

SharePoint 索引连接器

在所有用例中使用。

文件共享

文件共享索引连接器

在所有用例中使用。

Exchange 公用文件夹

Exchange 索引连接器

在所有用例中使用。

人员配置文件

用户配置文件索引连接器

在所有用例中使用。

可通过 FAST Search 查询 Search Service 应用程序对此类型的内容进行爬网。

网站

网站索引连接器

在要爬网的网站数量有限并且没有动态内容时使用。

FAST Search Web 爬网程序

在有许多要爬网的网站时使用。

在网站内容包含动态数据(包括 JavaScript)时使用。

在组织需要访问高级 Web 爬网、配置和计划选项时使用。

在要对 RSS Web 内容进行爬网时使用。

在网站内容使用高级登录选项时使用。

数据库

基于业务数据目录的索引连接器

在首选配置方法为使用 Microsoft SharePoint Designer 2010 时使用。

在要将基于时间戳的更改检测用于增量数据库爬网时使用。

在首选操作方法为使用 Microsoft SharePoint Server 2010 管理中心时使用。

在要基于更改日志启用爬网时使用。可通过直接修改连接器模型文件和在数据库中创建存储过程来实现。

FAST Search 数据库连接器

在首选配置方法为使用 SQL 查询时使用。

在需要通过 SQL 查询使用高级数据连接操作选项时使用。

在您希望使用高级增量更新功能时使用。如果没有可用的更新信息,FAST Search 数据库连接器将对增量爬网使用基于校验和的更改检测。该连接器还支持基于时间戳的更改检测和基于更新和删除标志的更改检测。

Lotus Notes

Lotus Notes 索引连接器

在首选操作方法为使用 Microsoft SharePoint Server 2010 管理中心时使用。

FAST Search Lotus Notes 连接器

在需要完全支持 Lotus Notes 安全性(包括支持 Lotus Notes 角色)时使用。

在要将 Lotus Notes 数据库作为附件进行爬网时使用。

业务部门数据

基于业务数据目录的索引连接器

在内容源中的数据包含业务部门应用程序中的数据时使用。

在要基于更改日志启用爬网时使用。可通过直接修改连接器模型文件和在数据库中创建存储过程来实现。

关于爬网和索引内容

对内容进行成功爬网的结果是索引连接器可以访问和读取要为搜索查询提供的各个文件或内容片段。通过对内容进行爬网,可为这些项创建一组已爬网属性。这些已爬网属性将映射到搜索索引(也称为索引)中存储的托管属性。

备注

索引连接器不更改主机服务器上的文件。只能访问和读取主机服务器上的文件,不能对其进行修改。有些情况下,当索引连接器读取主机服务器上的内容时,已爬网文件的最后访问日期可能会更新。这只适用于托管某些内容源的一些服务器。

规划使用集成在 SharePoint Server 2010 中的索引连接器

使用集成在 SharePoint Server 2010 中的索引连接器可对大多数内容源进行爬网。可将 SharePoint Server 2010 管理中心用于大多数配置和操作任务。

通过配置 FAST Search 内容 Search Service 应用程序(内容 SSA)可以设置这些索引连接器。此外,内容 SSA 还允许与 FAST Search Server 2010 for SharePoint 后端进行通信。在内容 SSA 中,您可以指定内容源的位置、爬网计划和其他信息。内容 SSA 会馈送到名为 sp 的默认内容集合。

FAST Search 连接器可对以下内容进行爬网:

  • SharePoint 网站

  • 网站

  • 包含 Microsoft Office 文档等内容的文件共享

  • Exchange 公用文件夹

  • 业务部门数据,例如数据库中的内容

  • 通过自定义生成连接器访问的自定义库

规划内容源

FAST Search 内容 Search Service 应用程序(内容 SSA)中的内容源是一组选项,可以用来指定要对其进行爬网的内容类型、要对其进行爬网的 URL、爬网的深度以及爬网时间。默认内容源是“本地 SharePoint 网站”。您可以使用此内容源来指定如何对与特定内容 SSA 关联的所有 Web 应用程序中的所有内容进行爬网。默认情况下,对于使用特定内容 SSA 的每个 Web 应用程序,FAST Search Server 2010 for SharePoint 会将每个网站集的首要网站的开始地址添加到默认内容源中。

一些组织可以使用默认内容源来满足其搜索要求。但是,许多组织必须具有其他内容源。在您必须执行下列操作时需规划其他内容源:

  • 对不同类型的内容(例如 SharePoint 网站、文件共享和业务数据)进行爬网。

  • 按与其他内容不同的计划对某些内容进行爬网。

  • 限制或增加要对其进行爬网的内容的数量。

  • 为不同网站的爬网设置不同的优先级。

您最多可以在内容 SSA 中创建 500 个内容源,并且每个内容源最多可以包含 500 个开始地址。若要尽可能简化管理,建议您限制所创建的内容源的数量。

规划对不同种类的内容的爬网

您只能对每个内容源的一种内容进行爬网。也就是说,您可以创建一个包含 SharePoint 网站的开始地址的内容源和另一个包含文件共享的开始地址的内容源。但是,您不能创建同时包含 SharePoint 网站和文件共享的开始地址的单个内容源。下表列出了您可以配置的内容源种类。

使用此种内容源 对于此内容

SharePoint 网站

来自同一服务器场或不同的 Microsoft SharePoint Server 2010、Microsoft SharePoint Foundation 2010 或 Microsoft Search Server 2010 场的 SharePoint 网站

来自同一服务器场或不同的 Microsoft Office SharePoint Server 2007、Windows SharePoint Services 3.0 或 Microsoft Search Server 2008 场的 SharePoint 网站

来自 Microsoft Office SharePoint Portal Server 2003 或 Windows SharePoint Services 2.0 场的 SharePoint 网站

备注

与对 SharePoint Server 2010、SharePoint Foundation 2010 或 Search Server 2010 上的 SharePoint 网站进行爬网不同,SharePoint Server 2010 爬网程序无法自动对来自以前版本的 SharePoint 产品和技术的网站集中的所有子网站进行爬网。因此,在对来自以前版本的 SharePoint 网站进行爬网时,必须指定每个首要网站的开始地址和要对其进行爬网的每个子网站的 URL。

网站

组织中不在 SharePoint 网站上的其他 Web 内容

Internet 上的网站上的内容

文件共享

组织中文件共享上的内容

Exchange 公用文件夹

Microsoft Exchange Server 内容

Lotus Notes

存储在 Lotus Notes 数据库中的电子邮件

备注

与所有其他种类的内容源不同,在您安装并配置相应的必备软件之前,Lotus Notes 内容源选项不会显示在用户界面中。有关详细信息,请参阅配置和使用 Lotus Notes 连接器 (FAST Search Server 2010 for SharePoint)

业务数据

存储在业务线应用程序中的业务数据

规划业务数据的内容源

业务数据内容源要求在 Business Data Connectivity Service应用程序中的应用程序模型中指定承载该数据的应用程序。您可以创建一个内容源来对 Business Data Connectivity Service中注册的所有应用程序进行爬网,也可以创建单独的内容源来对各个应用程序进行爬网。

通常,计划将业务数据集成到网站集中的人员不是总体内容规划过程中所涉及的相同人员。因此,在内容规划工作组中包括业务应用程序管理员,以便他们可以告诉您如何将业务应用程序数据集成到内容中并有效地在网站集中呈现该数据。

关于 Business Connectivity Services 模型

若要对某些库(例如,数据库或 Web 服务)进行爬网,您需要使用 SharePoint Server 2010 搜索连接器框架。借助此框架,您可以使用 Business Connectivity Service (BCS) 模型对外部数据源进行爬网。这些模型文件定义您计划爬网的外部内容源的连接详细信息和结构。BCS 模型将被导入 Business Connectivity Service。在设置业务部门数据或自定义存储库类型内容源时,您将指向此模型。

可将几种预先设计的 BCS 模型用于数据库内容和 Web 服务 (WCF)。此外,您也可以使用连接器框架和 BCS 模型创建自己的自定义 BCS 模型和自定义连接器。

若要基于 SharePoint Server 2010 搜索连接器框架生成,您必须根据您的特定要求和目标使用 SharePoint Designer 或 Microsoft Visual Studio 2010。

使用 SharePoint Designer 可执行以下操作:

  • 创建对所支持的即用型外部内容源(如数据库和 Web 服务)进行爬网所需要的 BCS 模型。

  • 在 BCS 应用程序之间导入/导出模型

使用 Microsoft Visual Studio 可执行以下操作:

  • 实现用于 .NET BCS Connector 的方法

  • 为您的库编写自定义连接器

多个内容源可以都从同一 Business Connectivity Service (BCS) 中提取,可将不同的 Search Service 应用程序指向共享 BCS 中的同一模型。

有关 SharePoint Server 2010 连接器框架、Business Connectivity Services 以及如何创建自定义连接器的详细信息,请参考 SharePoint Server 搜索连接器框架 (MSDN)。

规划索引连接器协议

要对其进行爬网的所有内容要求您使用连接器来获得对该内容的访问权。FAST Search Server 2010 for SharePoint(通过 SharePoint Server 2010 连接器框架)为所有常用 Internet 协议提供了连接器。但是,如果您要对其进行爬网的内容所需的连接器没有随 SharePoint Server 2010 一起安装,则必须安装第三方或自定义连接器,然后才能对该内容进行爬网。有关默认安装的索引连接器协议的列表,请参阅默认索引连接器协议 (FAST Search Server 2010 for SharePoint)。您可以安装其他索引连接器和协议来对其他 Microsoft 产品或第三方软件创建的内容进行爬网。有关详细信息,请参阅需要其他配置的内容源 (FAST Search Server 2010 for SharePoint)

规划文件类型包含和 IFilter

FAST Search Server 2010 for SharePoint 从最常用文件类型爬网和提取元数据和内容。在初始安装期间,自动包括了几种文件类型和 IFilter。在初始部署中规划内容源时,应确定要对其进行爬网的内容是否使用了未包括的文件类型。如果未包括文件类型,您必须通过启用“高级筛选器包”或通过安装并注册第三方 IFilter 支持该文件类型,来添加这些文件类型。

如果要将某些文件类型排除在爬网之外,可以将相应文件类型的文件扩展名添加到文件类型排除列表。这样做会将具有该扩展名的文件名排除在爬网之外。有关默认支持或排除的文件类型和 IFilter 的列表,请参阅 IFilter 和文件类型参考 (FAST Search Server 2010 for SharePoint)

规划爬网计划、爬网规则并对爬网影响进行管理

当使用内容 SSA 和 SharePoint 爬网程序对内容进行爬网时,若干种因素确定是否规划爬网计划和爬网规则以及规划多少,并且您必须对爬网影响进行管理。

备注

系统必须先完成一次完全爬网,然后您才能开始对一个或多个内容源进行增量爬网。

要求您配置爬网计划、爬网规则和/或管理爬网影响的示例原因如下:

  • 适应停机时间和高峰使用时间段。

  • 对频繁更新的内容较频繁地进行爬网。

  • 分别对位于较慢服务器上的内容和位于较快服务器上的内容进行爬网。

  • 从爬网中排除相关性可能较低的内容。

  • 降低或提高对特定网站(外部)或内容服务器的请求频率。

  • 使用默认内容访问帐户以外的帐户对内容进行爬网。

有关更多详细信息和其他注意事项,请参阅 SharePoint Server 2010 主题规划爬网和联合 (SharePoint Server 2010) 中的相关章节。有关按不同计划对内容进行爬网的详细信息,请参阅“制定爬网计划时的注意事项”和“执行完全爬网的原因”这两节。如果您想要了解有关爬网程序影响规则的详细信息,请阅读规划管理爬网影响部分。

规划身份验证

当 SharePoint Server 2010 爬网程序访问内容源中列出的开始地址时,SharePoint Server 2010 爬网程序必须经承载该内容的服务器验证并有权访问这些服务器。这意味着,SharePoint Server 2010 爬网程序使用的域帐户必须至少对内容具有读取权限。

默认情况下,系统使用默认内容访问帐户。您也可以使用 FAST Search 内容 SSA 中的爬网规则来指定要在对特定内容进行爬网时使用的其他内容访问帐户。无论您是使用默认内容访问帐户还是由爬网规则指定的其他内容访问帐户,您使用的内容访问帐户都必须对要对其进行爬网的所有内容具有读取权限。如果内容访问帐户没有读取权限,则不会对内容进行爬网和编制索引,因而不可用于查询。

有关详细信息,请参阅 SharePoint Server 2010 主题“规划爬网和联合”中的规划身份验证部分。

规划联合

联合搜索是并发查询多个 Web 资源或数据库以为最终用户生成单个搜索结果页。在 FAST Search Server 2010 for SharePoint 中,您可以在 FAST Search 查询 Search Service 应用程序中配置联合位置,以便最终用户可以搜索和检索本地系统中服务器尚未对其进行爬网的内容。联合位置允许将查询发送到远程搜索引擎和源。因此,系统将结果呈现给最终用户时就好像联合内容是已爬网内容的一部分一样。

FAST Search Server 2010 for SharePoint 通过 SharePoint Server 2010 支持以下类型的联合位置:

  • **该服务器上的搜索索引。**您可以使用组织中具有运行 SharePoint Server 2010 的服务器的本地索引作为联合位置。例如,设想公司中人力资源服务器上的 SharePoint 网站是员工联系信息的唯一可用源。即使该网站不是爬网范围的一部分,您也可以为其配置联合位置,以便从搜索中心网站启动搜索的用户可以检索其有权查看的员工联系信息结果。以下情况适用:

    1. 位置设置为“该服务器上的搜索索引”。

    2. 无需任何查询模板。SharePoint Server 2010 使用对象模型来查询位置。

    3. 使用默认服务器身份验证。

    4. 不支持高级搜索查询。

  • FAST Search 索引。

    如果要将来自本地 FAST Search Server 2010 for SharePoint 索引的结果与搜索中心或 FAST Search 中心联合,则使用此选项。

  • **OpenSearch 1.0 或 1.1。**您可以使用支持 OpenSearch 标准的任何公用网站作为联合位置。此类位置的示例是 Internet 搜索引擎(如 Bing)或支持 RSS 或 Atom 协议的搜索结果页。例如,设想您希望搜索内部网站以进行专有技术研究的用户也查看公用网站中的相关研究信息。通过为 Bing 搜索查询配置联合位置,将自动为用户包括 Web 搜索结果。以下情况适用:

    1. 可将查询作为 URL 发送给搜索引擎,例如 http://www.example.com/search.aspx?q=TEST。

    2. 以 RSS、Atom 或其他结构化 XML 格式返回搜索结果。

    3. 位置功能、查询模板和响应元素是与位置相关的 OpenSearch 说明 (.osdx) 文件的一部分。

    4. 特定于 FAST Search Server 2010 for SharePoint 的 OpenSearch 扩展使您能够包括触发器并能够将 XSL 代码与搜索结果相关联。

    5. 是否选择在搜索结果中显示元数据由 OpenSearch 位置决定。

    有关 OpenSearch 的详细信息,请访问 https://www.opensearch.org/home(该链接可能指向英文页面)

有关联合以及如何规划联合身份验证类型的详细信息,请参阅 SharePoint Server 2010 主题“规划爬网和联合”中的规划联合部分。

在企业搜索技术中心的联合搜索连接器库(该链接可能指向英文页面)上,可以找到可用来导入联合位置的联合搜索连接器的概述。

规划使用 FAST Search Server 2010 for SharePoint 索引连接器

除了集成在 Microsoft SharePoint Server 2010 中的索引连接器,FAST Search Server 2010 for SharePoint 还提供其他用于 Web、Lotus Notes 和数据库内容的内容索引连接器。

这些索引连接器主要通过编辑 XML 文件和 Windows PowerShell cmdlet 来配置,您可以使用命令行对其执行操作。

关于 FAST Search Web 爬网程序

FAST Search Web 爬网程序是用于对网站内容进行爬网的可自定义的索引连接器。FAST Search Web 爬网程序可以扩展以适合大型环境,例如,当组织对许多外部网站进行爬网时。此外,FAST Search Web 爬网程序还可以对动态 Web 内容(如包含 JavaScript 的网站)进行爬网。

FAST Search Web 爬网程序可从一组定义的网站(可以是内部网站或外部网站)中收集内容。通过编辑 XML 文件的副本可完成对 FAST Search Web 爬网程序的配置。您可以通过若干个命令行工具来操作 FAST Search Web 爬网程序。

FAST Search Web 爬网程序通常是 FAST Search Server 2010 for SharePoint 安装中的一个组件。在内部,FAST Search Web 爬网程序组织为多数情况下在单一服务器上运行的过程和逻辑实体的集合。当要进行爬网的网站数或总页数很大时,可通过跨多台主机分布这些进程来对 FAST Search Web 爬网程序进行缩放。这需要进行附加配置。

FAST Search Web 爬网程序可对 HTTP、HTTPS 和 FTP 内容进行爬网,并支持 NTLM 版本 1(和有限扩展版本 2)、摘要、基本身份验证和基于表单的登录身份验证。支持 RSS 计划,您可以从源标记链接的文档。

关于 FAST Search 数据库连接器

FAST Search 数据库连接器是可从数据库内容源收集内容的专用索引连接器。

可使用 XML 模板来配置该索引连接器,使用 jdbcconnector.bat 文件中的命令行选项来操作该连接器。在运行已配置的连接器后,可将已爬网属性映射到 SharePoint Server 2010 管理中心中的托管属性,以对连接器收集的内容启用和自定义搜索。

连接器使用 SQL 语句对爬网数据库运行。此语句完全可自定义。如果没有可用的更新信息,FAST Search 数据库连接器将对增量爬网使用基于校验和的更改检测。该连接器还支持基于时间戳的更改检测和基于更新和删除标志的更改检测。此外,您还可以指明在对数据库进行爬网之前必须对其执行的操作前和操作后过程,这在某些用例中是个优势。

关于 FAST Search Lotus Notes 连接器

FAST Search Lotus Notes 连接器是专用的索引连接器,它由两部分组成:用户目录连接器和内容连接器。内容连接器可从 Lotus Notes 内容源中收集内容。用户目录连接器可确保最终用户只能搜索他们可以访问的 Lotus Notes 内容。用户目录连接器使用 Lotus Notes 用户帐户映射 Active Directory 用户目录,并与 FAST Search Authorization 紧密集成。

该连接器可使用两个 XML 模板进行配置,一个用于用户目录连接器,一个用于内容连接器。使用 lotusnotesconnector.bat 和 lotusnotessecurity.bat 文件中的命令行选项可操作该连接器。在运行配置的内容连接器后,可将已爬网属性映射到 SharePoint Server 2010 管理中心中的托管属性,以对内容连接器收集的内容启用和自定义搜索。

FAST Search Lotus Notes 连接器支持 Lotus Notes 版本 6.5.6、7.x 和 8.x 以及 Lotus Domino 版本 6.5、7.x 和 8.x。

该连接器完全支持 Lotus Notes 安全性(包括角色),还可以将 Lotus Notes 数据库作为附件编制索引。

在爬网中包含或排除内容

每个 FAST Search Server 2010 for SharePoint 特定的连接器在其各自的配置文件中都有参数来指示包括和排除规则。

重要

不要使您计划爬网的任何内容源过载。

对于组织内其他管理员正在爬网的内容,您可以与这些管理员协调,以根据服务器的性能和容量设置影响规则。对于大多数外部网站,此协调不可能实现。请求外部服务器上的过多内容或过于频繁地发出请求会导致这些网站的管理员在爬网过程使用过多资源或占用过多带宽时限制您的访问。因此,最佳实践是降低爬网速度。这样,便可降低丧失访问权限从而无法对相关内容进行爬网的风险。

借助 FAST Search Web 爬网程序,您可以通过设置请求延迟来控制爬网速度,将最大值设置为同时发送至同一网站的并发请求数,或者启用或禁用托管多个网站的某一 IP 地址的并发爬网。还可以通过限制同时要爬网的并发网站数来限制 FAST Search Web 爬网程序的带宽。

设置爬网计划

FAST Search Lotus Notes 连接器和 FAST Search 数据库连接器使用 Windows 任务计划程序来计划爬网。通过在 XML 配置文件中设置参数可为 FAST Search Web 爬网程序计划爬网。

提示

在计划其他爬网之前,建议先完成手动启动的完全爬网周期。这样可以了解运行完全爬网所需的时间,并可避免在初始爬网完成之前启动新爬网或增量爬网。

See Also

Concepts

计划部署 FAST Search 特定连接器 (FAST Search Server 2010 for SharePoint)