规划内容爬网 (Search Server 2008)

更新时间: 2008年9月

应用到: Microsoft Search Server 2008

 

上一次修改主题: 2015-03-09

本文内容:

  • 关于对内容进行爬网和编制索引

  • 标识要爬网的内容源

  • 规划内容源

  • 规划身份验证

  • 规划协议处理程序

  • 规划管理爬网的影响

  • 规划爬网规则

  • 规划在服务器场级别管理的搜索设置

  • 为不同语言的内容编制索引

提示

除非另有说明,否则本文中的信息对 Microsoft Search Server 2008 和 Microsoft Search Server 2008 Express 均适用。

本文的目的是通过帮助搜索服务管理员了解 Microsoft Search Server 2008 如何对内容进行爬网和编制索引,以帮助他们规划如何对内容爬网。有关详细信息,请参阅添加或删除搜索服务管理员 (Search Server 2008)

在最终用户能够利用 Search Server 2008 中的企业级搜索功能之前,首先必须对他们要执行查询的内容进行爬网。

对于本文,内容是可供爬网的项,如网页、Microsoft Office Word 文档或电子邮件文件。

在规划内容爬网时,请考虑以下问题:

  • 内容在物理上位于何处?

  • 内容是否存储在不同源中,例如,文件共享、SharePoint 网站、网站或其他位置?

  • 是要对存储在源中的所有内容进行爬网,还是要对其中的一部分内容进行爬网?

  • 您希望对哪些类型的文件进行爬网?

  • 将对内容进行爬网的时间和频率?

  • 如何保护内容的安全?

本文中的信息可以帮助您解答这些问题,并帮助您针对要爬网的内容以及如何和何时对该内容进行爬网制定必要的规划决策。

关于对内容进行爬网和编制索引

系统通过对内容进行爬网和编制索引这一过程来访问和分析内容及其属性(有时称为元数据),以建立可提供搜索查询服务的内容索引。

成功地对内容进行爬网的结果是爬网程序访问并读取内容的各个文件或片段。这些文件的关键字和元数据存储在内容索引(有时称为索引)中。索引包含关键字和元数据,关键字存储在索引服务器的文件系统中,而元数据存储在搜索数据库中。系统在关键字、元数据和从中对内容爬网的源的 URL 之间保持一个映射。

搜索服务与共享服务提供程序 (SSP) 关联,系统向搜索服务分配一个特定的服务器来编制内容索引。2007 Office 版本中的服务器产品可以具有多个 SSP,因此具有多个内容索引;但 Search Server 2008 只能具有一个 SSP,因此,只具有一个内容索引。

提示

爬网程序不会更改主机服务器上的文件。相反,爬网程序访问和读取文件,然后向索引服务器发送文本和元数据。某些主机服务器会在爬网程序访问文件之后更改文件的日期。爬网程序不会这样做。

标识要爬网的内容源

在很多情况下,组织的需要可能只要求您对服务器场内的 SharePoint 网站中所包含的所有内容进行爬网。在这种情况下,您可能不需要标识要爬网的内容源,因为可以使用默认内容源对服务器场中的所有网站集进行爬网。有关默认内容源的详细信息,请参阅本文后面的规划内容源。

许多组织还需要对服务器场外部的内容(如文件共享或 Internet 上的网站)进行爬网。Search Server 2008 可以对其他 Windows SharePoint Services 服务器场、网站、文件共享、Microsoft Exchange 公用文件夹和 IBM Lotus Notes 服务器上承载的内容进行爬网和编制索引。这大大增加了可用于搜索查询的内容量。

但是,在很多情况下,您可能不想对服务器场中的每个网站集进行爬网,因为存储在某些网站集中的内容在搜索结果中可能不相关。在这种情况下,您必须执行以下一项或两项操作:

  • 记下您不希望爬网的网站集的 URL。如果您决定使用默认内容源,则必须确保您不想爬网的网站集的开始地址未列在默认内容源中。

  • 记下您要爬网的网站集的开始地址。如果您决定创建其他内容源以用于对此内容进行爬网,则需要知道这些开始地址。有关何时使用一个或多个内容源的信息,请参阅本文的规划内容源一节。

提示

借助于 Search Server,可以通过两种方法处理搜索查询以便向用户返回搜索结果。您可以查询 Search Server 内容索引,也可以使用联合搜索。下面列出了每种方法的优点。有关这两种处理搜索查询的方法的比较,请参阅联合搜索概述(该链接可能指向英文页面) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x804)。有关了解和使用联合的 Search Server 文章的列表和简要说明,请参阅使用联合 (Search Server 2008)

规划内容源

在可以对内容进行爬网之前,必须确定内容所在位置和内容位于哪些类型的服务器上。在收集此信息之后,搜索服务管理员可以创建一个或多个内容源。这些内容源向爬网程序提供以下信息:

  • 要爬网的内容的类型 — 例如,SharePoint 网站或文件共享。

  • 从中开始爬网的开始地址。

  • 爬网时要使用的行为类型 — 例如,从开始地址进行爬网的深度或者允许多少个服务器跃距。

  • 爬网频率。

提示

使用特定内容源对内容进行爬网有时也称为“对内容源进行爬网”。

本节将帮助您规划您的组织需要的内容源。

默认内容源称为“本地 Office SharePoint Server 网站”。搜索服务管理员可以使用此内容源对服务器场中的所有内容进行爬网和编制索引。默认情况下,Search Server 2008 将服务器场中每个网站集的首要网站的开始地址(在此情况下为 URL)添加到默认内容源。

对于某些组织,只使用默认内容源对其网站集中的所有网站进行爬网即可满足其搜索要求。但是,许多组织需要使用其他内容源。

创建其他内容源的原因包括以下需要:

  • 对不同类型的内容进行爬网。

  • 对于不同内容,按不同计划进行爬网。

  • 限制或增加要爬网的内容量。

搜索服务管理员可创建最多 500 个内容源,每个内容源可以包含最多 500 个开始地址。为使管理工作尽可能简单,创建的内容源数量满足需要即可。

对不同类型的内容进行爬网

对于每个内容源,只能对一种类型的内容进行爬网。也就是说,您可以创建一个包含 SharePoint 网站的 URL 的内容源和另一个包含文件共享的 URL 的内容源,但是您创建的单个内容源不能同时包含指向 SharePoint 网站和文件共享的 URL。下表列出可配置的内容源的类型。

此类型的内容源 包含此类型的内容

SharePoint 网站

来自同一个服务器场或不同 Office SharePoint Server 2007、Windows SharePoint Services 3.0 或 Search Server 2008 服务器场的 SharePoint 网站

  • 来自 Microsoft Office SharePoint Portal Server 2003 或 Windows SharePoint Services 2.0 的 SharePoint 网站

    提示

    与在 Office SharePoint Server 2007、Windows SharePoint Services 3.0 或 Search Server 2008 上对 SharePoint 网站进行爬网不同,爬网程序无法自动从以前版本的 SharePoint 产品和技术对网站集中的所有子网站进行爬网。因此,当从以前版本中对 SharePoint 网站进行爬网时,必须指定每个首要网站的 URL 及要爬网的每个子网站。
    在对门户网站进行爬网时,将对 Microsoft Office SharePoint Portal Server 2003 服务器场的网站目录中列出的网站进行爬网。有关网站目录的详细信息,请参阅关于网站目录(该链接可能指向英文页面) (https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x804)。

网站

  • 您的组织中在 SharePoint 网站上找不到的其他 Web 内容。

  • Internet 网站上的内容

文件共享

您组织内的文件共享中的内容

Lotus Notes

Lotus Notes 数据库中存储的电子邮件

提示

与所有其他类型的内容源不同,在您安装并配置适当的必备软件之前,“Lotus Notes”内容源选项不会出现在用户界面中。有关详细信息,请参阅配置搜索服务器以对 Lotus Notes 进行爬网 (Search Server 2008)

Exchange 公用文件夹

Exchange 服务器内容

按不同计划对内容进行爬网

搜索服务管理员通常必须决定对某些内容进行爬网的频率是否高于其他内容。您爬网的内容量越大,您对不同源中的内容进行爬网的可能性越大。这些不同源可能(也可能不)属于同一类型,并且可能驻留在彼此具有不同速度的服务器上。

由于这些因素,因此您更可能需要其他内容源,以便在不同时间对这些不同内容源进行爬网。

按不同计划对内容进行爬网的主要原因在于:

  • 调节停机期和高峰使用期。

  • 更频繁地对更新频率较高的内容进行爬网。

  • 相对于在较快主机服务器上爬网的内容,单独对较慢主机服务器上承载的内容进行爬网。

在很多情况下,需要在 Search Server 2008 部署完成并运行一段时间后,才能了解所有这些消息。而部分决策是在操作阶段制定的。但是,在规划过程中考虑这些因素是很好的思路,这样,您可以根据已掌握的信息制定爬网计划。

以下两部分介绍有关按不同计划对内容进行爬网的详细信息。

停机期和高峰使用期

应考虑承载要爬网内容的服务器的停机时间和高峰使用时间。例如,如果您要对服务器场之外的许多不同服务器承载的内容进行爬网,这些服务器可能在不同的计划时间内进行备份并可能具有不同的高峰使用时间。通常,服务器场之外的服务器的管理不在您的控制之中。因此,我们建议您与承载要爬网内容的服务器的管理员协商爬网事宜,以确保您不会在停机时间或高峰使用时间内尝试对其服务器上的内容进行爬网。

一种常见的情况涉及组织无法控制并与 SharePoint 网站上的内容相关的内容。您可以将该内容的开始地址添加到现有的内容源,也可以为外部内容新建一个内容源。由于外部网站的可用性大不相同,因此为不同的外部内容添加单独的内容源将大有裨益。通过这一方式,可以安排在与其他内容源不同的时间对外部内容的内容源进行爬网。然后,您可以按照考虑到每个网站的可用性的爬网计划来更新外部内容。

频繁更新的内容

规划爬网计划时,应考虑一些内容源的更新频率通常高于其他内容源。例如,如果您知道某些网站集或外部源中的内容只在星期五进行更新,则对这些内容进行爬网的频率高于每周一次就会浪费资源。但是,服务器场可能包含从星期一到星期五不断更新的其他网站集(通常情况下,在星期六和星期日不进行更新)。在这种情况下,您在每个工作日可能需要爬网若干次,但在周末只爬网一次或两次。

借助于在您的环境中的各个网站集之间存储内容的方式,可指导您在每个 Web 应用程序中为每个网站集创建其他内容源。例如,如果某个网站集只存储存档信息,则您对此内容进行爬网的频率可能不需要与对存储频繁更新的内容的网站集进行爬网的频率一样。在这种情况下,您可能要使用不同的内容源对这两个网站集进行爬网,以便可根据不同的计划对它们进行爬网,而不需要像对待其他内容一样频繁地对存档网站进行爬网。

完全和增量爬网计划

搜索服务管理员可以单独为每个内容源配置爬网计划。对于每个内容源,他们可以指定一个时间来执行完全爬网,并指定一个单独的时间来执行增量爬网。请注意,您必须先对某个特定内容源运行完全爬网,然后才能运行增量爬网。如果对尚未执行爬网的内容选中增量爬网,系统将执行完全爬网。

我们建议您基于运行搜索服务的服务器和承载已爬网内容的服务器的可用性、性能和带宽因素来制定爬网计划。

在制定爬网计划时,应考虑以下最佳方案:

  • 基于类似的可用性以及承载内容的服务器可接受的总体资源使用率,对内容源中的开始地址进行分组。

  • 将每个内容源的增量爬网安排在承载内容的服务器可用并且对服务器资源的需求较低时执行。

  • 使服务器场内各服务器的爬网计划交错,使场内各服务器上的负载在时间上分布均匀。

  • 仅当下一节中列出的原因为必需时,才安排完全爬网。我们建议您安排完全爬网的频率应低于执行增量爬网的频率。

  • 将要求完全爬网的管理更改安排在完全爬网前不久执行。例如,我们建议您在执行下一个已计划的完全爬网之前尝试安排创建爬网规则,以便消除额外的完全爬网。

  • 将根据索引服务器执行爬网的能力来执行同时爬网。我们建议您通常应错开爬网计划,以便索引服务器不会在同一时间使用多个内容源进行爬网。为了获得最佳性能,我们建议您错开内容源的爬网计划。索引服务器的性能和承载内容的服务器的性能确定了爬网可以相互交迭的程度。随着时间推移,您可以逐渐熟悉每个内容源的典型爬网时段,从而可以制定用于安排爬网的策略。

执行完全爬网的原因

搜索服务管理员执行完全爬网的原因包括:

  • 服务器场中的服务器上安装了一个或多个修补程序或 Service Pack。有关详细信息,请参阅该修补程序或 Service Pack 的说明。

  • 搜索服务管理员添加了新的托管属性。

  • 要重新对 Windows SharePoint Services 3.0 网站上的 ASPX 页面编制索引。

    提示

    爬网程序无法确定 Windows SharePoint Services 3.0 网站上的 ASPX 页面何时发生了变化。由于这一点,在删除单独的列表项时,增量爬网不会对视图或主页重新编制索引。我们建议您定期对包含 ASPX 文件的网站进行完全爬网,以确保对这些页面重新编制索引。

  • 检测在上次对文件共享执行完全爬网之后对文件共享所做的安全更改。

  • 解决连续的增量爬网失败问题。在极少数情况下,如果在某个存储库中的任何级别上执行增量爬网时连续失败了一百次,则索引服务器将从索引中删除受影响的内容。

  • 已添加、删除或修改爬网规则。

  • 修复损坏的索引。

  • 搜索服务管理员已创建一个或多个服务器名称映射。

  • 被分配为默认内容访问帐户的帐户或爬网规则发生更改。

在以下情况下,即使请求执行增量爬网,系统也会执行完全爬网:

  • 搜索服务管理员停止了以前的爬网。

  • 还原了内容数据库。

    提示

    如果您运行的是 Microsoft Office Server 的基础结构更新,则可以使用 Stsadm 命令行工具的还原操作来更改内容数据库还原是否会导致完全爬网。

  • 服务器场管理员已中断与内容数据库的连接,并重新进行连接。

  • 从未对此网站执行完全爬网。

  • 更改日志不包含当前被执行爬网的地址条目。如果更改日志中没有被爬网项的条目,则不会出现增量爬网。

  • 被分配为默认内容访问帐户的帐户或爬网规则发生更改。

  • 修复损坏的索引。

    如果在索引中检测到损坏,则根据损坏的严重程度,系统可能会尝试执行完全爬网。

在初始部署后,您可以依据服务器场中的服务器以及承载内容的服务器的性能和容量来调整计划。

限制或增加要爬网的内容量

对于每个内容源,您可以选择对该内容源中的开始地址进行爬网的广度。还可以指定爬网的行为(有时称为爬网设置)。根据您选择的内容源类型,可以为特定内容源选择的选项会有所差异。但是,大多数选项确定了在层次结构中从内容源中列出的每个开始地址进行爬网的深度级别。请注意,此行为适用于特定内容源中的所有开始地址。如果您需要对更深级别的某些网站进行爬网,则可以创建包含这些网站的其他内容源。

根据所选内容源类型的不同,每个内容源属性中的可用选项会有所不同。下表介绍了每种内容源类型的爬网设置选项。

内容源类型 爬网设置选项

SharePoint 网站

  • 每个开始地址的主机名称下的所有内容

  • 仅限每个开始地址的 SharePoint 网站

网站

  • 仅在每个开始地址的服务器中

  • 仅限每个开始地址的第一页

  • 自定义 — 指定页面深度和服务器跃距数

    提示

    此选项的默认设置是页面深度和服务器跃距不受限制。

文件共享

  • 每个开始地址的文件夹和所有子文件夹

  • 仅限每个开始地址的文件夹

Exchange 公用文件夹

  • 每个开始地址的文件夹和所有子文件夹

  • 仅限每个开始地址的文件夹

如上表所示,搜索服务管理员可以使用爬网设置选项来限制或增加爬网的内容量。

下表描述配置爬网设置选项时的最佳方案。

对于此内容源类型 如果此类型符合 请使用此爬网设置选项

SharePoint 网站

您要包括网站本身的内容

- 或 -

您不希望包含子网站上提供的内容,或您要按不同计划对这些内容进行爬网

仅对每个开始地址的 SharePoint 网站进行爬网

SharePoint 网站

您要包括网站本身的内容

- 或 -

您要按照同一个计划对开始地址下的所有内容进行爬网

对每个开始地址的主机名称下的所有内容进行爬网

网站

网站本身的内容是相关的

- 或 -

链接的网站上的内容不可能相关

仅在每个开始地址的服务器内爬网

网站

相关的内容仅位于第一页上

仅对每个开始地址的第一页爬网

网站

您要限制对开始地址上的链接进行爬网的深度

自定义 — 指定要爬网的页面深度数和服务器跃距数

提示

我们建议您在高连接的网站上使用小数字开始,原因在于,如果指定的深度超过三页或服务器跃距数超过三,则可能会对整个 Internet 进行爬网。

文件共享

Exchange 公用文件夹

子文件夹中的内容不可能相关

仅对每个开始地址的文件夹爬网

文件共享

Exchange 公用文件夹

子文件夹中的内容很可能相关

对每个开始地址的文件夹和子文件夹爬网

规划文件类型包含和 IFilter

仅当文件类型包含列表中包括相关的文件扩展名并且在索引服务器上安装了支持这些文件类型的 IFilter 时,才会对内容进行爬网。在初始安装期间,将自动包含若干种文件类型。当您在初始部署过程中规划内容源时,请确定您要爬网的内容是否使用未包含的文件类型。如果不包括这些文件类型,则必须在部署过程中,在“管理文件类型”页上添加这些文件类型并确保 IFilter 已安装并注册以支持该文件类型。

Search Server 2008 提供了若干个 IFilter,更多的则由 Microsoft 和第三方供应商提供。有关如何安装和注册 Microsoft 中提供的其他 IFilter,请参阅如何向 SharePoint Server 2007 和 Search Server 2008 注册 Microsoft 筛选包。如果需要,软件开发人员可以为新文件类型创建 IFilter。

另一方面,如果您要将某些文件类型排除在爬网范围之外,可以从文件类型包含列表中删除该文件类型的文件扩展名。这样就可以将具有该扩展名的文件名排除在爬网范围之外。

下表列出了默认情况下安装的 IFilter 所支持的文件类型,以及默认情况下在“管理文件类型”页面上启用的文件类型。

文件扩展名 默认的 IFilter 支持 默认的文件类型包含

ascx

asm

asp

aspx

bat

c

cmd

cpp

css

cxx

def

dic

doc

docm

docx

dot

eml

exch

h

hhc

hht

hpp

hta

htm

html

htw

htx

jhtml

jsp

lnk

mht

mhtml

mpx

msg

mspx

nsf

odc

one

php

pot

pps

ppt

pptm

pptx

pub

stm

tif

tiff

trf

txt

url

vdx

vsd

vss

vst

vsx

vtx

xlb

xlc

xls

xlsm

xlsx

xlt

xml

IFilter 和 Microsoft Office OneNote

对于由 Microsoft Office OneNote 使用的 .one 文件扩展名,并未提供 IFilter。如果您希望用户可以搜索 Office OneNote 文件中的内容,则必须为 OneNote 安装 IFilter。为此,您必须执行以下操作之一:

  • 在索引服务器上安装 Microsoft Office OneNote 2007 客户端应用程序。

    Office OneNote 2007 所提供的 IFilter 可用于对 Office OneNote 2003 文件和 Office OneNote 2007 文件进行爬网。Office OneNote 2003 所安装的 IFilter 只能对 Office OneNote 2003 文件进行爬网。

  • 安装和注册 Microsoft 筛选包。

    此筛选包所提供的 OneNote IFilter 只可用于对 Office OneNote 2007 文件进行爬网。有关详细信息,请参阅 如何向 SharePoint Server 2007 和 Search Server 2008 注册 Microsoft 筛选包

使用爬网规则限制或排除内容

当您将开始地址添加到内容源并接受默认行为时,可以对该开始地址之下的所有子网站或文件夹进行爬网,除非您使用一个或多个爬网规则排除它们。

有关爬网规则的详细信息,请参阅本文后面的规划爬网规则。

规划内容源时的其他注意事项

不能使用多个内容源对相同的地址进行爬网。例如,如果您使用一个特定内容源来对网站集及其所有子网站进行爬网,则无法使用其他内容源按照其他计划单独对这些子网站之一进行爬网。要适应这种限制,您可能需要单独对其中一些网站进行爬网。请考虑以下应用场景:

位于 Contoso 的管理员希望对 http://contoso(其中包含子网站 http://contoso/sites/site1 和 http://contoso/sites/site2)进行爬网。该管理员希望按照与其他网站不同的计划对 http://contoso/sites/site2 进行爬网。为了实现这一点,该管理员将地址 http://contoso 和 http://contoso/sites/site1 添加到一个内容源,并选择名为“仅对每个开始地址的 SharePoint 网站爬网”的设置。然后,将子网站 http://contoso/sites/site2 添加到一个单独的内容源并指定一个不同的爬网计划。

除了爬网计划之外,在规划内容源时还需要考虑其他事项。例如,是将开始地址组合在一个内容源中,还是创建其他内容源对这些开始地址进行爬网,这很大程度上取决于管理方面的考虑。管理员常常做出需要对特定的内容源进行完全更新的更改。对内容源进行更改要求对该内容源进行完全爬网。为了更便于管理,应按便于管理员更新内容源、爬网规则和爬网内容的方式组织内容源。

内容源摘要

在规划您的内容源时,请考虑以下事项:

  • 特定的内容源仅可用于对下面的一种内容类型进行爬网:SharePoint 网站、非 SharePoint 网站的网站、文件共享、Exchange 公用文件夹和 Lotus Notes 数据库。

  • 搜索服务管理员可创建最多 500 个内容源,每个内容源可以包含最多 500 个开始地址。为使管理工作尽可能简单,创建的内容源数量仅仅满足需要即可。

  • 特定内容源中的每个 URL 必须属于相同的内容源类型。

  • 对于特定的内容源,可以选择从开始地址进行爬网的深度。这些配置设置适用于该内容源中的所有开始地址。对开始地址进行爬网的深度的可用选项各不相同,具体取决于所选择的内容源类型。

  • 您可以计划何时对整个内容源执行完全爬网或增量爬网。有关计划爬网的详细信息,请参阅本文后面介绍的规划爬网规则 。

  • 搜索服务管理员可以修改默认内容源、创建其他内容源以对其他内容进行爬网,或同时执行这两项操作。例如,他们可以配置默认内容源来同时对其他服务器场中的内容进行爬网,也可以创建新内容源来对其他内容进行爬网。

  • 为了有效地对您的组织所需的所有内容进行爬网,应根据您要爬网的源类型以及您计划对它们进行爬网的频率来使用所需数量的内容源。

规划身份验证

当爬网程序访问内容源中列出的开始地址时,承载该内容的服务器必须对爬网程序进行身份验证,并且爬网程序必须被授予对于服务器的访问权限。这意味着爬网程序所使用的域帐户对于内容必须至少拥有读取权限。

默认内容访问帐户是对内容源进行爬网时默认使用的帐户。此帐户由搜索服务管理员指定。此外,还可以使用爬网规则来指定在对特定内容进行爬网时要使用的其他内容访问帐户。无论您是使用默认内容访问帐户,还是使用由爬网规则指定的其他内容访问帐户,您使用的内容访问帐户都必须对所爬网的所有内容具有读取权限,否则将不对内容进行爬网,而且内容也不可用于查询。

我们建议您选择默认内容访问帐户(该帐户对于大多数已爬网内容具有最广泛的访问权限),而仅当安全考虑要求使用单独的内容访问帐户时,才使用其他内容访问帐户。有关创建单独的内容访问帐户以对使用默认内容访问帐户无法读取的内容进行爬网的信息,请参阅本文后面的规划爬网规则。

对于您规划的每个内容源,确定通过默认内容访问帐户无法访问的开始地址,并针对包含这些开始地址的 URL 模式添加爬网规则。

提示

确保用于默认内容访问帐户或任何其他内容访问帐户的域帐户不同于与您爬网的任何 Web 应用程序关联的应用程序池所使用的域帐户。这样,就可以对 SharePoint 网站中的未发布内容和 SharePoint 网站中文件的次要版本(历史记录)进行爬网和编制索引。

有关内容访问帐户规划注意事项的详细信息,请参阅本文后面的规划爬网规则。

另一个重要的考虑因素是爬网程序与主机服务器必须使用相同的身份验证方法。默认情况下,爬网程序尝试使用 NTLM 身份验证来验证身份。如果需要,您可以配置爬网程序以使用其他身份验证方法。有关详细信息,请参阅规划身份验证方法 (Office SharePoint Server) 中的“对内容进行爬网的身份验证要求”。本文也适用于 Search Server 2008。

规划协议处理程序

所有已爬网内容都要求使用协议处理程序来获得访问该内容的权限。Search Server 2008 为所有常见的 Internet 协议提供了协议处理程序。但是,如果您要爬网的内容所需的协议处理程序未随 Search Server 2008 一起安装,则必须安装第三方或自定义协议处理程序,然后才能对该内容进行爬网。

下表显示默认情况下安装的协议处理程序。

协议处理程序 用于爬网

File

文件共享

http

网站

https

使用安全套接字层 (SSL) 的网站

Notes

Lotus Notes 数据库

Rb

Exchange 公用文件夹

Rbs

使用 SSL 的 Exchange 公用文件夹

Sps

Windows SharePoint Services 2.0 服务器场中的人员配置文件

Sps3

仅限 Windows SharePoint Services 3.0 服务器场的人员配置文件爬网

Sps3s

仅限使用 SSL 的 Windows SharePoint Services 3.0 服务器场中的人员配置文件爬网

Spsimport

人员配置文件导入

Spss

使用 SSL 的 Windows SharePoint Services 2.0 服务器场中的人员配置文件导入

Sts

Windows SharePoint Services 3.0 根 URL(内部协议)

Sts2

Windows SharePoint Services 2.0 网站

Sts2s

使用 SSL 的 Windows SharePoint Services 2.0 网站

Sts3

Windows SharePoint Services 3.0 网站

Sts3s

使用 SSL 的 Windows SharePoint Services 3.0 网站

规划管理爬网的影响

对内容进行爬网可能会显著降低承载内容的服务器的性能。这对特定服务器的影响各不相同,具体取决于主机服务器所承担的负载以及服务器是否具有足够的资源(尤其是 CPU 和 RAM)在正常使用期或高峰使用期保持服务级别协议。

借助于爬网程序影响规则,服务器场管理员可以控制爬网程序对于被爬网的服务器所带来的影响。对于每条爬网程序影响规则,您可以指定一个 URL 或在 URL 路径中使用通配符以包含该规则所适用的一组 URL。然后,您可以指定针对指定的 URL 可同时对页面提出多少个请求,或者选择一次只请求一篇文档,并在两个请求之间等待您选择的秒数。

爬网程序影响规则可以降低或提高从某个特定开始地址或一组开始地址(有时也称为网站名称)请求内容的速率,而不考虑用于对这些地址进行爬网的内容源。下表显示了在添加规则时可以在网站名称中使用的通配符。

要使用的通配符 结果

* 作为网站名称

向所有网站应用此规则。

*.* 作为网站名称

向名称中带点的网站应用此规则。

*.网站名称.com 作为网站名称

向位于网站名称.com 域中的所有网站应用此规则(例如,*.adventure-works.com)。

*.顶级域名 作为网站名称

向以特定顶级域名(例如,*.com 或 *.net)结尾的所有网站应用此规则。

?

替换规则中的单个字符。例如,*.adventure-works?.com 向 adventure-works1.com、adventure-works2.com 等域中的所有网站应用规则。

您可以创建一个应用于特定顶级域内所有网站的爬网程序影响规则。例如,*.com 应用于地址以 .com 结尾的所有 Internet 网站。例如,门户网站的管理员可能为 example.microsoft.com 添加一个内容源。*.com 的规则应用于此网站,除非您专门为 example.microsoft.com 添加一个爬网程序影响规则。

对于组织内其他管理员正在爬网的内容,您可以依据服务器的性能和容量,与这些管理员协调来设置爬网程序影响规则。对于大多数外部网站,这种协调是不可能的。如果爬网占用了过多的资源或过多的带宽,则在外部服务器上请求过多的内容或过于频繁地发出请求可能引起这些网站的管理员限制您进一步的访问。因此,最佳方案是降低爬网速度。这样,您可以降低由于丢失权限而无法对相关内容进行爬网的风险。

在初始部署期间,既要对足够多的内容进行足够频率的爬网以确保已爬网内容的新颖性,又要设置爬网程序影响规则以尽可能减少对其他服务器的影响。

在操作阶段中,您可以依据自己的经验以及爬网日志中的数据来调整爬网程序影响规则。

规划爬网规则

爬网规则适用于一个特定的 URL 或由通配符表示的一组 URL(也称为受规则影响的路径)。您使用爬网规则来执行以下操作:

  • 通过排除一个或多个 URL 以避免对无关的内容进行爬网。这也有助于减少对服务器资源和网络通信的占用并提高搜索结果的相关性。

  • 对该 URL 上的链接进行爬网,而不对该 URL 本身进行爬网。如果包含链接的页面不包含相关的信息,则此选项对于包含相关内容链接的网站非常有用。

  • 启用对复杂的 URL 进行爬网。此选项对包含以问号指定的查询参数的 URL 进行爬网。根据网站的不同,这些 URL 可能包含相关内容,也可能不包含相关内容。因为复杂的 URL 可能经常重定向到不相关的网站,所以最好只有在已知来自复杂 URL 的内容相关的情况下,才对网站启用此选项。

  • 使 SharePoint 网站上的内容作为 HTTP 网页进行爬网。通过这一选项,索引服务器可以对位于防火墙之后的 SharePoint 网站进行爬网,或者,当要爬网的网站限制访问由爬网程序使用的 Web 服务时,通过此选项也可以进行爬网。

  • 指定是使用默认内容访问帐户、其他内容访问帐户还是客户端证书来对指定的 URL 进行爬网。

提示

爬网规则同时应用于所有内容源。

通常,特定网站地址的大部分内容都是相关的,但该网站地址之下的特定子网站或一系列网站却并非如此。通过选择要为其创建爬网规则(排除不需要的项)的一组集中的 URL,搜索服务管理员可以最大程度地提高索引中内容的相关性,同时最大限度地减少对爬网性能的影响和搜索数据库的大小。当为外部内容规划开始地址,而对其资源使用情况的影响不受您的组织中人员的控制时,创建用于排除 URL 的爬网规则尤其有用。

创建爬网规则时,可以在路径中使用标准通配符。例如:

  • “http://server1/folder*”包含具有以 http://server1/folder 开头的 URL 的所有 Web 资源。

  • “*://*.txt”包含每个具有 txt 文件扩展名的文档。

因为对内容进行爬网会消耗资源和带宽,所以最好包含您已知具有相关性的少量内容,而不是包含可能不相关的大量内容。在初始部署之后,您可以查看查询日志和爬网日志,并相应地调整内容源和爬网规则,以使其更具有相关性并包含更多内容。

指定其他内容访问帐户

对于包含内容的爬网规则,管理员可以选择为此规则更改内容访问帐户。通常使用默认内容访问帐户,除非在爬网规则中指定了其他帐户。对爬网规则使用其他内容访问帐户的主要原因是:默认内容访问帐户不具备针对所有开始地址的访问权限。对于这些开始地址,可以创建一个爬网规则并指定一个的确拥有访问权限的帐户。

提示

确保用于默认内容访问帐户或任何其他内容访问帐户的域帐户不同于与您爬网的任何 Web 应用程序关联的应用程序池所使用的域帐户。这样,就可以对 SharePoint 网站中的未发布内容和 SharePoint 网站中文件的次要版本(历史记录)进行爬网和编制索引。

规划在服务器场级别管理的搜索设置

除了在搜索管理级别配置的设置之外,在服务器场级别管理的几个设置也会影响对内容进行爬网的方式。在规划爬网时,请考虑以下服务器场级别搜索设置:

联系人电子邮件地址   对内容进行爬网会影响被爬网的服务器的资源。在对内容进行爬网之前,必须在配置设置中提供您组织中某个人员的电子邮件地址,这样,当爬网对服务器产生负面影响时,管理员可以与其进行联系。此电子邮件地址出现在被爬网服务器的管理员的日志中,这样,一旦爬网对服务器的性能和带宽的影响过高或出现其他问题,这些管理员便可以联系到该人员。

联系人电子邮件地址应属于某个具有必要的专业知识和可以快速响应请求的人员。此外,您还可以将受密切监视的通讯组列表别名用作联系人电子邮件地址。无论爬网后的内容是否存储在组织内部,快速响应都至关重要。

代理服务器设置   您可以选择在对内容进行爬网时是否使用代理服务器。要使用的代理服务器取决于组织中 Search Server 2008 部署的拓扑结构以及其他服务器的体系结构。

  • 超时设置   超时设置用于限制搜索服务器在连接到其他服务时的等待时间。

  • SSL 设置   安全套接字层 (SSL) 设置确定 SSL 证书是否必须完全匹配才能对内容进行爬网。

为不同语言的内容编制索引

当对内容进行爬网时,爬网程序确定它所查找的内容中的每个单独字。对于用空格分隔字的语言,爬网程序要区分每个字就相对容易些。在其他语言中,查找字之间的边界可能会更为复杂。

Search Server 2008 默认情况下提供了分词系统和词干分析器,以帮助在多种语言中对内容进行爬网和编制索引。分词系统在全文索引数据中查找字边界,而词干分析器改变动词的形态。

如果您对下表所列的任何语言进行爬网,Search Server 2008 将自动针对相应的语言使用适当的分词系统和词干分析器。星号 (*) 表示默认情况下词干分析功能处于启用状态。

默认情况下支持的语言 默认情况下支持的语言

阿拉伯语

立陶宛语*

孟加拉语

马来语

保加利亚语*

马拉雅拉姆语*

加泰罗尼亚语

马拉地语

克罗地亚语

挪威语(博克马尔语)

捷克语*

波兰语*

丹麦语

葡萄牙语

荷兰语

葡萄牙语(巴西)

英语

旁遮普语

芬兰语*

罗马尼亚语*

法语*

俄语*

德语*

塞尔维亚语(西里尔文)*

希腊语*

塞尔维亚语(拉丁文)*

古吉拉特语

斯洛伐克语*

希伯来语

斯洛文尼亚语*

印地语

西班牙语*

匈牙利语*

瑞典语

冰岛语*

泰米尔语*

印度尼西亚语

泰卢固语*

意大利语

泰语

日语

土耳其语*

埃纳德语*

乌克兰语*

朝鲜语

乌尔都语*

拉脱维亚语*

越南语

当爬网程序对不支持的语言的内容编制索引时,将使用中性分词系统。如果中性分词系统未能向您提供预期的结果,您可以尝试与 Search Server 2008 一起发挥作用的第三方解决方案。

另请参阅

概念

使用联合 (Search Server 2008)