规划内容爬网 (Office SharePoint Server)

本文内容:

  • 关于对内容进行爬网和编制索引

  • 标识要爬网的内容源

  • 规划内容源

  • 规划身份验证

  • 规划协议处理程序

  • 规划管理爬网的影响

  • 规划爬网规则

  • 规划在服务器场级别管理的搜索设置

  • 为不同语言的内容编制索引

  • 工作表

本文旨在帮助搜索服务管理员了解 Microsoft Office SharePoint Server 2007 如何对内容进行爬网和编制索引,并帮助他们规划内容爬网。

在最终用户可以使用 Office SharePoint Server 2007 中的企业级搜索功能搜索内容之前,必须首先对可供用户查询的内容进行爬网。

对于本文,内容是可供爬网的任何项,如网页、Microsoft Office Word 文档、业务数据或电子邮件文件。

在规划内容爬网时,应考虑以下问题:

  • 您要爬网的内容所处的物理位置?

  • 您要爬网的某些内容是否以不同的源类型存储,如文件共享、SharePoint 网站、网站或其他位置?

  • 您是要对特定源处的所有内容进行爬网,还是只对其中的部分内容进行爬网?

  • 哪些文件类型构成您要爬网的内容?

  • 对内容进行爬网的时间和频率?

  • 如何保护这些内容的安全?

本文中的信息可以帮助您解答这些问题,并帮助您针对要爬网的内容以及如何和何时对该内容进行爬网制定必要的规划决策。

本文的关键在于,我们将提示您填写与您已阅读的信息相关的工作表中的一部分。您可以在通读本文的过程中在工作表上记录决策,也可以在读完本文后一次记录所有决策。不管采用哪种方法,当您部署搜索解决方案时,一份完整的工作表都将是一项宝贵的资产。

备注

本文介绍规划对内容进行爬网和将内容编制到一个索引中的过程。当您规划内容爬网时,如果发现您需要使用其他内容索引,则在单独的工作表中记录有关每个共享服务提供程序 (SSP) 的规划决策。

Office SharePoint Server 2007 包含 Office SharePoint Server 搜索服务,此服务用于对内容爬网和编制索引。此服务是 SSP 的一部分,并且将在单一索引中对使用特定 SSP 爬网的所有内容编制索引。有关选择用来对内容编制索引的 SSP 的数量的信息,请参阅规划共享服务提供程序

关于对内容进行爬网和编制索引

系统通过对内容进行爬网和编制索引这一过程来访问和分析内容及其属性(有时称为元数据),以建立可提供搜索查询服务的内容索引。

成功地对内容进行爬网的结果是爬网程序可以访问和读取您希望可用于搜索查询的单个文件或内容片段。这些文件的关键字和元数据存储在内容索引(有时称为索引)中。索引包含关键字和元数据,关键字存储在索引服务器的文件系统中,而元数据存储在搜索数据库中。系统在关键字、与从中对关键字进行爬网的单独内容片段关联的元数据和从中对内容进行爬网的源的 URL 之间保持一个映射。

备注

爬网程序不会以任何方式更改主机服务器上的文件。而只访问和读取主机服务器上的文件,并且这些文件的文本和元数据被发送到索引服务器以编制索引。然而,因为爬网程序读取主机服务器上的内容,所以,承载某些内容源的服务器可能会针对已爬网的文件更新上一次访问日期。

标识要爬网的内容源

在很多情况下,组织可能只需要您对组织的服务器场内的 SharePoint 网站包含的所有内容进行爬网。在这种情况下,您可能不需要标识要爬网的内容源,因为可以使用默认内容源对服务器场中的所有网站集进行爬网。有关默认内容源的详细信息,请参阅下文中的规划内容源。

许多组织还需要对服务器场外部的内容(如文件共享或 Internet 上的网站)进行爬网。Office SharePoint Server 2007 可以对位于其他 Windows SharePoint Services 或 Office SharePoint Server 服务器场、网站、文件共享、Microsoft Exchange 公用文件夹、IBM Lotus Notes 服务器上的内容以及存储在数据库中的业务数据进行爬网。这大大增加了可用于搜索查询的内容量。

但是,在很多情况下,您可能不想对服务器场中的每个网站集进行爬网,因为存储在某些网站集中的内容在搜索结果中可能不相关。在这种情况下,您必须执行以下一项或两项操作:

  • 记下您不希望爬网的网站集。如果您决定使用默认内容源,则必须确保您不想爬网的网站集的开始地址未列在默认内容源中。

  • 记下要爬网的网站集的各个开始地址。如果决定创建其他内容源以用于对此内容进行爬网,则需要知道这些开始地址。有关何时使用一个或多个内容源的信息,请参阅下文中的规划内容源。

如果已安装了 Microsoft Office Server 的基础结构更新,则有两种方式用于处理搜索查询,以便将搜索结果返回给用户。您可以查询 Search Server 内容索引,也可以使用联合搜索。

提示

请注意,Microsoft Office Server 的基础结构更新 向 Office SharePoint Server 2007 提供最初出现在 Search Server 2008 中的联合搜索功能。

每种方法各有其优势。有关这两种搜索查询处理方法之间的比较,请参阅联合搜索概述(该链接可能指向英文页面) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x804)(该链接可能指向英文页面)。有关了解和使用联合搜索的文章列表和简要说明,请参阅使用联合 (Office SharePoint Server)。有关 Microsoft Office Server 的基础结构更新的详细信息,请参阅安装 Microsoft Office Server 基础结构更新 (Office SharePoint Server 2007)

规划内容源

在可以对内容进行爬网之前,必须首先确定内容所在位置和内容位于哪些类型的服务器上。收集这些信息后,共享服务管理员可以创建一个或多个用于对该内容进行爬网的内容源。这些内容源在爬网过程中向爬网程序提供以下信息:

  • 要爬网的内容类型 — 例如,SharePoint 网站或文件共享。

  • 从中开始爬网的开始地址。

  • 爬网时使用的行为 — 例如,从开始地址进行爬网的深度,或者允许多少个服务器跃距。

  • 爬网计划。

备注

使用特定内容源对内容进行爬网有时也称为“对内容源进行爬网”。

本节将帮助您规划您的组织需要的内容源。

默认内容源称为“本地 Office SharePoint Server 网站”。共享服务管理员可以使用此内容源对与 SSP 关联的所有 Web 应用程序中的所有内容进行爬网和编制索引。默认情况下,Office SharePoint Server 2007 将在使用相同 SSP 的 Web 应用程序中创建的每个网站集的首要网站的开始地址(在此情况下为 URL)添加到默认内容源。

对于某些组织,只使用默认内容源对其网站集中的所有网站进行爬网即可满足其搜索要求。但是,许多组织需要使用其他内容源。

创建其他内容源的原因包括以下需要:

  • 对不同类型的内容进行爬网。

  • 对于不同内容,按不同计划进行爬网。

  • 限制或增加要爬网的内容量。

共享服务管理员在每个 SSP 中可创建最多 500 个内容源,每个内容源可以包含最多 500 个开始地址。为使管理工作尽可能简单,创建的内容源数量满足需要即可。

对不同类型的内容进行爬网

对于每个内容源,只能对一种类型的内容进行爬网。也就是说,您可以创建一个包含 SharePoint 网站的 URL 的内容源和另一个包含文件共享的 URL 的内容源,但是您创建的单个内容源不能同时包含指向 SharePoint 网站和文件共享的 URL。下表列出可配置的内容源的类型。

此类型的内容源 包含此类型的内容

SharePoint 网站

来自同一个服务器场或不同 Office SharePoint Server 2007、Windows SharePoint Services 3.0 或 服务器场的 SharePoint 网站

来自 Microsoft Office SharePoint Portal Server 2003 或 Microsoft Windows SharePoint Services 2.0 服务器场的 SharePoint 网站

Note注意:
与对 Office SharePoint Server 2007、Windows SharePoint Services 3.0 或 上的 SharePoint 网站进行爬网不同,爬网程序无法自动从以前版本的 SharePoint 产品和技术中对网站集中的所有子网站进行爬网。因此,当从以前版本对 SharePoint 网站进行爬网时,必须指定要对其进行爬网的每个首要网站和每个子网站的 URL。在对门户网站进行爬网时,将对 Microsoft Office SharePoint Portal Server 2003 服务器场的网站目录中列出的网站进行爬网。有关网站目录的详细信息,请参阅关于网站目录(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x804)(该链接可能指向英文页面)。

网站

您的组织中在 SharePoint 网站上找不到的其他 Web 内容

Internet 网站上的内容

文件共享

您组织内的文件共享中的内容

Exchange 公用文件夹

Microsoft Exchange Server 内容

Lotus Notes

Lotus Notes 数据库中存储的电子邮件

Note注意:
与所有其他类型的内容源不同,在您安装并配置适当的必备软件之前,“Lotus Notes”内容源选项不会出现在用户界面中。有关详细信息,请参阅配置 Office SharePoint Server 搜索以对 Lotus Notes 进行爬网 (Office SharePoint Server 2007)

业务数据

存储在业务线应用程序中的业务数据

规划业务数据内容源

业务数据内容源要求首先在业务数据目录中注册承载数据的应用程序。您必须创建一个或多个单独的业务数据内容源类型的内容源,才能对业务数据进行爬网。您可以创建一个内容源以对在业务数据目录中注册的所有应用程序进行爬网,也可以创建单独的内容源以对在业务数据目录中注册的单个应用程序进行爬网。

通常,计划将业务数据集成到网站集的人员与整体内容规划过程中涉及的人员不同。因此,应当将业务应用程序管理员包括在内容规划工作组中,这样,您可以就如何将他们的数据集成到您的其他内容中,以及如何在您的网站集中有效地显示这些数据,来听取他们的建议。

有关规划业务数据搜索的详细信息,请参阅规划业务数据搜索

按不同计划对内容进行爬网

共享服务管理员通常必须决定对某些内容进行爬网的频率是否高于其他内容。您爬网的内容量越大,您对不同源中的内容进行爬网的可能性越大。这些不同源可能(或可能不)属于同一类型,并且可能驻留在彼此具有不同速度的服务器上。

由于这些因素,因此您更可能需要其他内容源,以便在不同时间对这些不同内容源进行爬网。

按不同计划对内容进行爬网的主要原因在于:

  • 调节停机期和高峰使用期。

  • 更频繁地对更新频率较高的内容进行爬网。

  • 相对于在较快主机服务器上爬网的内容,单独对较慢主机服务器上承载的内容进行爬网。

在很多情况下,需要在 Office SharePoint Server 2007 部署完成并运行一段时间后,才能了解所有这些消息。而部分决策是在操作阶段制定的。但是,在规划过程中考虑这些因素是很好的思路,这样,您可以根据已掌握的信息制定爬网计划。

以下两部分介绍有关按不同计划对内容进行爬网的详细信息。

停机期和高峰使用期

应考虑承载待爬网内容的服务器的停机期和高峰使用期。例如,如果您要对服务器场之外的许多不同服务器上承载的内容进行爬网,这些服务器可能按不同计划进行备份并可能具有不同的高峰使用期。通常,服务器场之外的服务器的管理不在您的控制之中。因此,我们建议您与承载待爬网内容的服务器的管理员协商爬网事宜,以确保您不会在停机期或高峰使用时间内尝试对其服务器上的内容进行爬网。

一种常见情形涉及在组织的控制范围之外并与 SharePoint 网站上的内容相关的内容。您可以将该内容的开始地址添加到现有的内容源,也可以为外部内容创建一个新的内容源。由于外部网站的可用性大不相同,因此为不同的外部内容添加单独的内容源将大有裨益。通过这一方式,可以安排在与其他内容源不同的时间对外部内容的内容源进行爬网。然后,您可以按照考虑到每个网站的可用性的爬网计划来更新外部内容。

频繁更新的内容

规划爬网计划时,应考虑一些内容源的更新频率通常高于其他内容源。例如,如果您知道某些网站集或外部源中的内容只在星期五进行更新,则对这些内容进行爬网的频率高于每周一次就会浪费资源。但是,服务器场可能包含从星期一到星期五不断更新的其他网站集(通常情况下,在星期六和星期日不进行更新)。在这种情况下,您在每个工作日可能需要爬网若干次,但在周末只爬网一次或两次。

借助于在您的环境中的各个网站集之间存储内容的方式,可指导您在每个 Web 应用程序中为每个网站集创建其他内容源。例如,如果某个网站集只存储存档信息,则您对此内容进行爬网的频率可能不需要与对存储频繁更新的内容的网站集进行爬网的频率一样。在这种情况下,您可能要使用不同的内容源对这两个网站集进行爬网,以便可根据不同的计划对它们进行爬网,而不需要像对待其他内容一样频繁地对存档网站进行爬网。

完全和增量爬网计划

共享服务管理员可以单独为每个内容源配置爬网计划。对于每个内容源,他们可以指定一个时间来执行完全爬网,并指定一个单独的时间来执行增量爬网。请注意,您必须先对某个特定内容源运行完全爬网,然后才能运行增量爬网。如果对尚未执行爬网的内容选中增量爬网,系统将执行完全爬网。

备注

因为完全爬网会对爬网程序遇到的、至少对其拥有读访问权的所有内容进行爬网(无论先前是否已对这些内容进行了爬网),所以完成完全爬网所需的时间明显多于增量爬网。

我们建议您基于运行搜索服务的服务器和承载已爬网内容的服务器的可用性、性能和带宽因素来制定爬网计划。

在制定爬网计划时,应考虑以下最佳方案:

  • 基于类似的可用性以及承载内容的服务器可接受的总体资源使用率,对内容源中的开始地址进行分组。

  • 将每个内容源的增量爬网安排在承载内容的服务器可用并且对服务器资源的需求较低时执行。

  • 使服务器场内各服务器的爬网计划交错,使场内各服务器上的负载在时间上分布均匀。

  • 仅当下一节中列出的原因为必需时,才安排完全爬网。我们建议您执行完全爬网的频率应低于执行增量爬网的频率。

  • 将要求完全爬网的管理更改安排在完全爬网前不久执行。例如,我们建议您在执行下一个已计划的完全爬网之前尝试安排创建爬网规则,以便消除额外的完全爬网。

  • 将根据索引服务器执行爬网的能力来执行同时爬网。我们建议您通常应错开爬网计划,以便索引服务器不会在同一时间使用多个内容源进行爬网。为了获得最佳性能,我们建议您错开内容源的爬网计划。索引服务器和承载内容的服务器的性能决定了爬网可以相互交迭的程度。随着时间推移,您可以逐渐熟悉每个内容源的典型爬网时段,从而可以制定用于安排爬网的策略。

执行完全爬网的原因

搜索服务管理员执行完全爬网的原因包括:

  • 服务器场中的服务器上安装了一个或多个修补程序或 Service Pack。有关详细信息,请参阅该修补程序或 Service Pack 的说明。

  • SSP 管理员添加了一个新的托管属性。

  • 要重新对 Windows SharePoint Services 3.0 或 Office SharePoint Server 2007 网站上的 ASPX 页面编制索引。

    备注

    爬网程序无法确定 Windows SharePoint Services 3.0 或 Office SharePoint Server 2007 网站上的 ASPX 页面何时发生了变化。由于这一点,在删除单独的列表项时,增量爬网不会对视图或主页重新编制索引。我们建议您定期对包含 ASPX 文件的网站进行完全爬网,以确保对这些页面重新编制索引。

  • 解决连续增量爬网失败问题。在极少数情况下,如果在某个库中的任何级别上执行增量爬网时连续失败了一百次,则索引服务器将从索引中删除受影响的内容。

  • 已添加、删除或修改爬网规则。

  • 要修复损坏的索引。

  • 搜索服务管理员已创建一个或多个服务器名称映射。

  • 分配给默认内容访问帐户或爬网规则的帐户已更改。

在以下情况下,即使请求执行增量爬网,系统也会执行完全爬网:

  • SSP 管理员停止了先前的爬网。

  • 从备份还原内容数据库。

    备注

    如果您运行的是 Microsoft Office Server 的基础结构更新,则可以使用 Stsadm 命令行工具的还原操作来更改内容数据库还原是否会导致完全爬网。

  • 服务器场管理员已分离并重新附加内容数据库。

  • 从未对此网站执行完全爬网。

  • 更改日志不包含正在执行爬网的地址的条目。如果更改日志中没有对应于待爬网项的条目,则无法进行增量爬网。

  • 分配给默认内容访问帐户或爬网规则的帐户已更改。

  • 要修复损坏的索引。

    如果在索引中检测到损坏,则根据损坏的严重程度,系统可能会尝试执行完全爬网。

在初始部署后,您可以依据服务器场中的服务器以及承载内容的服务器的性能和容量来调整计划。

工作表操作

规划内容爬网工作表(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x804)(该链接可能指向英文页面)的“内容源”部分的各个表中记录您为进行初始部署而制定的有关内容源的决策。

限制或增加要爬网的内容量

对于每个内容源,您可以选择对该内容源中的开始地址进行爬网的广度。还可以指定爬网的行为(有时称为爬网设置)。根据您选择的内容源类型,可以为特定内容源选择的选项会有所差异。但是,大多数选项确定了在层次结构中从内容源中列出的每个开始地址进行爬网的深度级别。请注意,此行为适用于特定内容源中的所有开始地址。如果您需要对更深级别的某些网站进行爬网,则可以创建包含这些网站的其他内容源。

根据所选的内容源类型,每个内容源的属性中提供的选项也不同。下表描述适用于每种内容源类型的爬网设置选项。

内容源类型 爬网设置选项

SharePoint 网站

每个开始地址的主机名称下的所有内容

仅限每个开始地址的 SharePoint 网站

网站

仅在每个开始地址的服务器中

仅限每个开始地址的第一页

自定义 — 指定页面深度和服务器跃距数。

Note注意:
此选项的默认设置是页面深度和服务器跃距不受限制。

文件共享

每个开始地址的文件夹和所有子文件夹

仅限每个开始地址的文件夹

Exchange 公用文件夹

每个开始地址的文件夹和所有子文件夹

仅限每个开始地址的文件夹

业务数据

对整个业务数据目录爬网

对所选应用程序爬网

如上表所示,共享服务管理员可以使用爬网设置选项来限制或增加爬网的内容量。

下表描述配置爬网设置选项时的最佳方案。

对于此内容源类型 如果此类型符合 请使用此爬网设置选项

SharePoint 网站

您要包括网站本身的内容。

- 或 -

您不希望包含子网站上提供的内容,或您要按不同计划对这些内容进行爬网。

仅对每个开始地址的 SharePoint 网站进行爬网

SharePoint 网站

您要包括网站本身的内容。

- 或 -

您要按照同一个计划对开始地址下的所有内容进行爬网。

对每个开始地址的主机名称下的所有内容进行爬网

网站

网站本身的内容是相关的。

- 或 -

链接的网站上的内容不可能相关。

仅在每个开始地址的服务器内爬网

网站

相关的内容仅位于第一页上。

仅对每个开始地址的第一页爬网

网站

您要限制对开始地址上的链接进行爬网的深度。

自定义 — 指定要爬网的页面深度数和服务器跃距数

Note注意:
我们建议您在具有大量连接的网站上以一个小的数字开始,原因在于,如果指定的深度超过三页或服务器跃距数超过三,则可能会对整个 Internet 进行爬网。

文件共享

Exchange 公用文件夹

子文件夹中的内容不可能相关。

仅对每个开始地址的文件夹爬网

文件共享

Exchange 公用文件夹

子文件夹中的内容很可能相关。

对每个开始地址的文件夹和子文件夹爬网

业务数据

在业务数据目录中注册的所有应用程序都包含相关的内容。

对整个业务数据目录爬网

业务数据

并非在业务数据目录中注册的所有应用程序都包含相关的内容。

- 或 -

您需要按照不同的计划对某些应用程序爬网。

对所选应用程序爬网

规划文件类型包含和 IFilter

仅当文件类型包含列表中包括相关的文件扩展名并且在索引服务器上安装了支持这些文件类型的 IFilter 时,才会对内容进行爬网。在初始安装期间,将自动包含若干种文件类型。当您在初始部署过程中规划内容源时,请确定要爬网的内容是否使用未包含的文件类型。如果不包含这些文件类型,则必须在部署过程中,在“管理文件类型”页上添加这些文件类型并确保已安装和注册 IFilter,以支持该文件类型。

Office SharePoint Server 2007 提供了几个 IFilter,可以从 Microsoft 和第三方供应商处获取更多 IFilter。有关如何安装和注册 Microsoft 提供的其他 IFilter 的信息,请参阅如何向 SharePoint Server 2007 和 Search Server 2008 注册 Microsoft 筛选包 (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x804)。如有必要,软件开发人员可以针对新文件类型创建 IFilter。

另一方面,如果您要将某些文件类型排除在爬网范围之外,您可以从文件类型包含列表中删除该文件类型的文件扩展名。这样,就可以将具有此扩展名的文件名排除在爬网范围之外。

下表列出了默认情况下安装的 IFilter 所支持的文件类型,以及默认情况下在“管理文件类型”页面上启用的文件类型。

文件扩展名 默认的 IFilter 支持 默认的文件类型包含

ascx

asm

asp

aspx

bat

c

cmd

cpp

css

cxx

def

dic

doc

docm

docx

dot

eml

exch

h

hhc

hht

hpp

hta

htm

html

htw

htx

jhtml

jsp

lnk

mht

mhtml

mpx

msg

mspx

nsf

odc

one

php

pot

pps

ppt

pptm

pptx

pub

stm

tif

tiff

trf

txt

url

vdx

vsd

vss

vst

vsx

vtx

xlb

xlc

xls

xlsm

xlsx

xlt

xml

IFilter 和 Microsoft Office OneNote

对于由 Microsoft Office OneNote 使用的 .one 文件扩展名,并未提供 IFilter。如果您希望用户可以搜索 Office OneNote 文件中的内容,则必须为 OneNote 安装 IFilter。为此,您必须执行以下操作之一。

工作表操作

规划内容爬网工作表(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x804)(该链接可能指向英文页面)的“文件类型包含和 IFilter”部分中记录您为进行初始部署而制定的有关文件类型包含和 IFilter 的决策。

使用爬网规则限制或排除内容

当您将开始地址添加到内容源并接受默认行为时,可以对该开始地址之下的所有子网站或文件夹进行爬网,除非您使用一个或多个爬网规则排除它们。

有关爬网规则的详细信息,请参阅本文后面的规划爬网规则。

规划内容源时的其他注意事项

不能使用多个内容源对相同的地址进行爬网。例如,如果您使用一个特定内容源来对网站集及其所有子网站进行爬网,则无法使用其他内容源按照其他计划单独对这些子网站之一进行爬网。要适应这种限制,您可能需要单独对其中一些网站进行爬网。请考虑以下情形:

位于 Contoso 的 SSP 管理员希望对 http://contoso(其中包含子网站 http://contoso/sites/site1 和 http://contoso/sites/site2)进行爬网。他希望按照与其他网站不同的计划对 http://contoso/sites/site2 进行爬网。为了实现这一点,他将地址 http://contoso 和 http://contoso/sites/site1 添加到一个内容源,并选择“仅对每个开始地址的 SharePoint 网站爬网”设置。然后,他将 http://contoso/sites/site2 添加到另一个内容源并为该内容源指定另一个计划。

除了爬网计划之外,在规划内容源时还需要考虑其他事项。例如,是将开始地址组合在一个内容源中,还是创建其他内容源来对这些开始地址进行爬网,这很大程度上取决于管理方面的考虑。管理员常常做出需要对特定的内容源进行完全更新的更改。对内容源进行更改要求对该内容源进行完全爬网。为了更便于管理,应按便于管理员更新内容源、爬网规则和爬网内容的方式组织内容源。

内容源摘要

在规划您的内容源时,请考虑以下事项:

  • 特定的内容源仅可用于对下面的一种内容类型进行爬网:SharePoint 网站、非 SharePoint 网站的网站、文件共享、Exchange 公用文件夹、Lotus Notes 数据库和业务数据。

  • 共享服务管理员在每个 SSP 中可创建最多 500 个内容源,每个内容源可以包含最多 500 个开始地址。为使管理工作尽可能简单,创建的内容源数量仅仅满足需要即可。

  • 特定内容源中的每个 URL 必须属于相同的内容源类型。

  • 对于特定的内容源,可以选择从开始地址进行爬网的深度。这些配置设置适用于该内容源中的所有开始地址。对开始地址进行爬网的深度的可用选项各不相同,具体取决于所选择的内容源类型。

  • 您可以安排何时对整个内容源执行完全爬网或增量爬网。有关安排爬网的详细信息,请参阅本主题前面的“完全和增量爬网计划”。

  • 共享服务管理员可以修改默认内容源,创建其他内容源以对其他内容进行爬网,或同时执行这两项操作。例如,他们可以配置默认内容源来同时对其他服务器场中的内容进行爬网,也可以创建新内容源来对其他内容进行爬网。

  • 为了有效地对您的组织所需的所有内容进行爬网,应根据您要爬网的源类型以及您计划对它们进行爬网的频率来使用所需数量的内容源。

规划身份验证

当爬网程序访问内容源中列出的开始地址时,承载该内容的服务器必须对爬网程序进行身份验证,并且爬网程序必须被授予对于服务器的访问权限。这意味着爬网程序所使用的域帐户对于内容必须至少拥有读取权限。

默认内容访问帐户是对内容源进行爬网时默认使用的帐户。此帐户由共享服务管理员指定。此外,还可以使用爬网规则来指定在对特定内容进行爬网时要使用的其他内容访问帐户。无论您是使用默认内容访问帐户,还是使用由爬网规则指定的其他内容访问帐户,您使用的内容访问帐户都必须对所爬网的所有内容具有读取权限,否则将不对内容进行爬网,而且内容也不可用于查询。

我们建议您选择默认内容访问帐户(该帐户对于大多数已爬网内容具有最广泛的访问权限),而仅当安全考虑要求使用单独的内容访问帐户时,才使用其他内容访问帐户。有关创建单独的内容访问帐户以对使用默认内容访问帐户无法读取的内容进行爬网的信息,请参阅本文后面的规划爬网规则。

对于您规划的每个内容源,确定通过默认内容访问帐户无法访问的开始地址,并针对包含这些开始地址的 URL 模式添加爬网规则。

备注

确保用于默认内容访问帐户或任何其他内容访问帐户的域帐户不同于与您爬网的任何 Web 应用程序关联的应用程序池所使用的域帐户。这样,就可以对 SharePoint 网站中的未发布内容和 SharePoint 网站中文件的次要版本(历史记录)进行爬网和编制索引。

有关内容访问帐户规划注意事项的详细信息,请参阅下文中的规划爬网规则。

工作表操作

规划内容爬网工作表(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x804)(该链接可能指向英文页面)的“默认内容访问帐户”部分中记录在对内容进行爬网时爬网程序将使用的默认内容访问帐户。

另一个重要的考虑因素是爬网程序与主机服务器必须使用相同的身份验证方法。默认情况下,爬网程序尝试使用 NTLM 身份验证来验证身份。如果需要,您可以配置爬网程序以使用其他身份验证方法。有关详细信息,请参阅规划身份验证方法 (Office SharePoint Server) 中的“对内容进行爬网的身份验证要求”。

规划协议处理程序

所有已爬网内容都要求使用协议处理程序来获得访问该内容的权限。Office SharePoint Server 2007 为所有常见的 Internet 协议提供了协议处理程序。但是,如果您要爬网的内容所需的协议处理程序未随 Office SharePoint Server 2007 一起安装,则必须安装第三方或自定义协议处理程序,然后才能对该内容进行爬网。

下表显示了默认情况下安装的协议处理程序。

协议处理程序 用于爬网

Bdc

业务数据目录

Bdc2

业务数据目录 URL(内部协议)

文件

文件共享

http

网站

https

基于安全套接字层 (SSL) 的网站

说明

Lotus Notes 数据库

Rb

Exchange 公用文件夹

Rbs

基于 SSL 的 Exchange 公用文件夹

Sps

Windows SharePoint Services 2.0 服务器场中的人员配置文件

Sps3

仅对 Windows SharePoint Services 3.0 服务器场的人员配置文件爬网

Sps3s

仅基于 SSL 爬网 Windows SharePoint Services 3.0 服务器场中的人员配置文件

Spsimport

人员配置文件导入

Spss

基于 SSL 导入 Windows SharePoint Services 2.0 服务器场中的人员配置文件

Sts

Windows SharePoint Services 3.0 根 URL(内部协议)

Sts2

Windows SharePoint Services 2.0 网站

Sts2s

基于 SSL 的 Windows SharePoint Services 2.0 网站

Sts3

Windows SharePoint Services 3.0 网站

Sts3s

基于 SSL 的 Windows SharePoint Services 3.0 网站

工作表操作

规划内容爬网工作表(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x804)(该链接可能指向英文页面)的“协议处理程序”部分中记录您为进行初始部署而制定的有关协议处理程序的决策。

规划管理爬网的影响

对内容进行爬网可能会显著降低承载内容的服务器的性能。这对特定服务器的影响各不相同,具体取决于主机服务器所承担的负载以及服务器是否具有足够的资源(尤其是 CPU 和 RAM)在正常使用期或高峰使用期保持服务级别协议。

借助于爬网程序影响规则,服务器场管理员可以控制爬网程序对于被爬网的服务器所带来的影响。对于每条爬网程序影响规则,您可以指定一个 URL 或在 URL 路径中使用通配符以包含该规则所适用的一组 URL。然后,您可以指定针对指定的 URL 可同时对页面提出多少个请求,或者选择一次只请求一篇文档,并在两个请求之间等待您选择的秒数。

爬网程序影响规则可以降低或提高从某个特定开始地址或一组开始地址(有时也称为网站名称)请求内容的速率,而不考虑用于对这些地址进行爬网的内容源。下表显示了在添加规则时可以在网站名称中使用的通配符。

要使用的通配符 结果

* 作为网站名称

向所有网站应用此规则。

*.* 作为网站名称

向名称中带点的网站应用此规则。

*.网站名称.com 作为网站名称

向位于网站名称.com 域中的所有网站应用此规则(例如,*.adventure-works.com)。

*.顶级域名 作为网站名称

向以特定顶级域名(例如,*.com 或 *.net)结尾的所有网站应用此规则。

?

替换规则中的单个字符。例如,*.adventure-works?.com 向 adventure-works1.com、adventure-works2.com 等域中的所有网站应用规则。

您可以创建一个应用于特定顶级域内所有网站的爬网程序影响规则。例如,*.com 应用于地址以 .com 结尾的所有 Internet 网站。例如,门户网站的管理员可能为 samples.microsoft.com 添加一个内容源。*.com 的规则应用于此网站,除非您专门为 samples.microsoft.com 添加一个爬网程序影响规则。

对于组织内其他管理员正在爬网的内容,您可以依据服务器的性能和容量,与这些管理员协调来设置爬网程序影响规则。对于大多数外部网站,这种协调是不可能的。如果爬网占用了过多的资源或过多的带宽,则在外部服务器上请求过多的内容或过于频繁地发出请求可能引起这些网站的管理员限制您进一步的访问。因此,最佳方案是降低爬网速度。这样,您可以降低由于丢失权限而无法对相关内容进行爬网的风险。

在初始部署期间,既要对足够多的内容进行足够频率的爬网以确保已爬网内容的新颖性,又要设置爬网程序影响规则以尽可能减少对其他服务器的影响。

在操作阶段中,您可以依据自己的经验以及爬网日志中的数据来调整爬网程序影响规则。

工作表操作

规划内容爬网工作表(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x804)(该链接可能指向英文页面)的“爬网程序影响规则”部分中记录您为进行初始部署而制定的有关爬网程序影响规则的决策。

规划爬网规则

爬网规则适用于一个特定的 URL 或由通配符表示的一组 URL(也称为受规则影响的路径)。您使用爬网规则来执行以下操作:

  • 通过排除一个或多个 URL 以避免对无关的内容进行爬网。这也有助于减少对服务器资源和网络通信的占用并提高搜索结果的相关性。

  • 对该 URL 上的链接进行爬网,而不对该 URL 本身进行爬网。如果包含链接的页面不包含相关的信息,则此选项对于包含相关内容链接的网站非常有用。

  • 允许对复杂的 URL 进行爬网。此选项对包含以问号指定的查询参数的 URL 进行爬网。根据网站的不同,这些 URL 可能包含相关内容,也可能不包含相关内容。因为复杂的 URL 可能经常重定向到不相关的网站,所以最好只有在已知来自复杂 URL 的内容相关的情况下,才对网站启用此选项。

  • 使 SharePoint 网站上的内容作为 HTTP 网页进行爬网。通过这一选项,索引服务器可以对位于防火墙之后的 SharePoint 网站进行爬网,或者,当要爬网的网站限制访问由爬网程序使用的 Web 服务时,通过此选项也可以进行爬网。

  • 指定是使用默认内容访问帐户、其他内容访问帐户还是客户端证书来对指定的 URL 进行爬网。

备注

爬网规则同时应用于 SSP 中的所有内容源。

通常,特定网站地址的大部分内容都是相关的,但该网站地址之下的特定子网站或一系列网站却并非如此。通过选择要为其创建爬网规则(排除不需要的项)的一组集中的 URL,共享服务管理员可以最大程度地提高索引中内容的相关性,同时最大限度地减少对爬网性能的影响和搜索数据库的大小。当为外部内容规划开始地址,而对其资源使用情况的影响不受您的组织中人员的控制时,创建用于排除 URL 的爬网规则尤其有用。

创建爬网规则时,可以在路径中使用标准的通配符。例如:

  • “http://server1/folder*”包含具有以 http://server1/folder 开头的 URL 的所有 Web 资源。

  • “*://*.txt”包含每个具有 txt 文件扩展名的文档。

因为对内容进行爬网会消耗资源和带宽,所以最好包含您已知具有相关性的少量内容,而不是包含可能不相关的大量内容。在初始部署之后,您可以查看查询日志和爬网日志,并相应地调整内容源和爬网规则,以使其更具有相关性并包含更多内容。

指定其他内容访问帐户

对于包含内容的爬网规则,管理员可以选择为此规则更改内容访问帐户。通常使用默认内容访问帐户,除非在爬网规则中指定了其他帐户。对爬网规则使用其他内容访问帐户的主要原因是:默认内容访问帐户不具备针对所有开始地址的访问权限。对于这些开始地址,可以创建一个爬网规则并指定一个的确拥有访问权限的帐户。

备注

确保用于默认内容访问帐户或任何其他内容访问帐户的域帐户不同于与您爬网的任何 Web 应用程序关联的应用程序池所使用的域帐户。这样,就可以对 SharePoint 网站中的未发布内容和 SharePoint 网站中文件的次要版本(历史记录)进行爬网和编制索引。

工作表操作

规划内容爬网工作表(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x804)(该链接可能指向英文页面)的“爬网规则”部分中记录您为进行初始部署而制定的有关爬网规则的决策。

规划在服务器场级别管理的搜索设置

除了在 SSP 级别配置的设置之外,在服务器场级别管理的几个设置也会影响对内容进行爬网的方式。在规划爬网时,请考虑以下服务器场级别搜索设置:

  • 联系人电子邮件地址:对内容进行爬网会影响被爬网的服务器的资源。在对内容进行爬网之前,必须在配置设置中提供您组织中某个人员的电子邮件地址,这样,当爬网对服务器产生负面影响时,管理员可以与其进行联系。此电子邮件地址出现在被爬网服务器的管理员的日志中,这样,一旦爬网对服务器的性能和带宽的影响过高或出现其他问题,这些管理员便可以联系到该人员。

    联系人电子邮件地址应属于某个具有必要的专业知识和可以快速响应请求的人员。此外,您还可以将受密切监视的通讯组列表别名用作联系人电子邮件地址。无论爬网后的内容是否存储在组织内部,快速响应都至关重要。

  • 代理服务器设置:您可以选择在对内容进行爬网时是否使用代理服务器。要使用的代理服务器取决于 Office SharePoint Server 2007 部署的拓扑结构以及组织中其他服务器的体系结构。

  • 超时设置:超时设置用于限制搜索服务器在连接到其他服务时的等待时间。

  • SSL 设置:安全套接字层 (SSL) 设置确定 SSL 证书是否必须完全匹配才能对内容进行爬网。

工作表操作

规划内容爬网工作表(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x804)(该链接可能指向英文页面)的“服务器场级别搜索设置”部分中记录您为进行初始部署而制定的有关服务器场级别搜索设置的决策。

为不同语言的内容编制索引

当对内容进行爬网时,爬网程序确定它所查找的内容中的每个单独字。对于用空格分隔字的语言,爬网程序要区分每个字就相对容易些。在其他语言中,查找字之间的边界可能会更为复杂。

Office SharePoint Server 2007 默认情况下提供分词系统和词干分析器,帮助对采用多种语言编写的内容进行爬网和编制索引。分词系统在全文索引数据中查找字边界,而词干分析器改变动词的形态。

如果您要对以下表格中的任何语言进行爬网,Office SharePoint Server 2007 将自动对该语言使用相应的分词系统和词干分析器。星号 (*) 表示默认情况下词干分析功能处于启用状态。

默认情况下支持的语言 默认情况下支持的语言

阿拉伯语

立陶宛语*

孟加拉语

马来语

保加利亚语*

马拉雅拉姆语*

加泰罗尼亚语

马拉地语

克罗地亚语

挪威语(博克马尔语)

捷克语*

波兰语*

丹麦语

葡萄牙语

荷兰语

葡萄牙语(巴西)

英语

旁遮普语

芬兰语*

罗马尼亚语*

法语*

俄语*

德语*

塞尔维亚语(西里尔文)*

希腊语*

塞尔维亚语(拉丁文)*

古吉拉特语

斯洛伐克语*

希伯来语

斯洛文尼亚语*

印地语

西班牙语*

匈牙利语*

瑞典语

冰岛语*

泰米尔语*

印度尼西亚语

泰卢固语*

意大利语

泰语

日语

土耳其语*

埃纳德语*

乌克兰语*

朝鲜语

乌尔都语*

拉脱维亚语*

越南语

当爬网程序对语言不受支持的内容编制索引时,将使用中性分词系统。如果中性分词系统没有为您提供预期效果,则可以尝试使用 Office SharePoint Server 2007 的第三方解决方案。

作为一种最佳方案,应确保您为每种需要支持的语言均安装了适当的分词系统和词干分析器。分词系统和词干分析器必须安装在运行 Office SharePoint Server 搜索服务的所有服务器上。

有关分词系统和词干分析器的详细信息,请参阅规划多语言网站

工作表操作

规划内容爬网工作表(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x804)(该链接可能指向英文页面)的“分词系统和词干分析器”部分中记录您为进行初始部署而制定的有关分词系统和词干分析器的决策。

工作表

如果您尚未执行此操作,则在下面的工作表中记录有关内容源的规划决策和有关对内容进行爬网的其他决策:

如果您决定在初始部署和配置过程中只创建其中一些已规划的内容源和爬网规则,则可以将此工作表用作待执行操作的一部分。

下载此书籍

本主题包含在以下可下载书籍内,以方便您阅读和打印:

有关可下载书籍的完整列表,请参阅 Office SharePoint Server 2007 的可下载书籍