限制或增加被爬网的内容的数量 (Office SharePoint Server)

在操作过程中,您通常需要更改当前正在爬网的内容量。例如,您可能需要:

  • 在由现有内容源定义的特定命名空间内中断对某些网站的爬网。

  • 在不同深度对网站进行爬网。

  • 更改要爬网的文件类型数,即,开始对您以前未对其爬网的文件类型进行爬网,中断对您当前正在对其爬网的某些文件类型的爬网,或者同时执行这两个操作。

随着组织需求的变化,您还可能要对全新的内容源进行爬网。有关对全新内容源爬网的详细信息,请参阅关于内容源 (Office SharePoint Server 2007)

您可以通过使用以下各项增加或限制要爬网的内容量:

  • 对内容源中的设置爬网   例如,您可以指定仅对在特定内容源中指定的开始地址爬网,也可以指定命名空间中要爬网的层级深度(从开始地址算起)以及允许的服务器跃距。请注意,内容源中用于指定被爬网内容量的选项会随内容源类型的不同而有所不同。

  • 文件类型包含   您可以选择要爬网的文件类型。

  • 爬网规则   您可以使用爬网规则来排除给定路径中的所有项目,以便不对其爬网。这是一个好方法,可以确保您不希望索引的子网站不会随您正在对其爬网的父网站一起被爬网。也可以使用爬网规则来增加被爬网的内容量,例如,对给定路径的复杂 URL 爬网。

爬网设置

对于每个内容源,您可以选择对该内容源中的开始地址爬网的广度。您还可以指定爬网的行为,有时称为爬网设置。根据所选内容源类型的不同,您可以为特定内容源选择的选项会有所不同。但是,大多数选项都会确定从内容源中列出的每个开始地址算起要在层次结构中爬网的层级深度。请注意,此行为将应用于特定内容源中的所有开始地址。

根据所选内容源类型的不同,每个内容源属性中的可用选项会有所不同。下表介绍了每种内容源类型的爬网设置选项。

内容源类型 爬网设置选项

SharePoint 网站

  • 每个开始地址的主机名称下的所有内容

  • 仅限每个开始地址的 SharePoint 网站

网站

  • 仅在每个开始地址的服务器中

  • 仅限每个开始地址的第一页

  • 自定义 — 指定页面深度和服务器跃距数。

    备注

    此选项的默认设置是页面深度和服务器跃距不受限制。

文件共享

  • 每个开始地址的文件夹和所有子文件夹

  • 仅限每个开始地址的文件夹

Exchange 公用文件夹

  • 每个开始地址的文件夹和所有子文件夹

  • 仅限每个开始地址的文件夹

业务数据

  • 对整个业务数据目录爬网

  • 对所选应用程序爬网

如上表所示,共享服务管理员可以使用爬网设置选项来限制或增加爬网的内容量。

下表描述配置爬网设置选项时的最佳方案。

对于此内容源类型 如果此类型符合 请使用此爬网设置选项

SharePoint 网站

您要按与其他网站集的计划不同的计划对特定网站集中的内容爬网。

仅对每个开始地址的 SharePoint 网站进行爬网

备注

此选项可接受任何 URL,但将从网站集中您输入的 URL 所指定的首要网站开始爬网。例如,如果您输入 http://contoso/sites/sales/car,但 http://contoso/sites/sales 是网站集的首要网站,则将对网站集 http://contoso/sites/sales 及其所有子网站进行爬网。

SharePoint 网站

您希望按相同的计划在特定 Web 应用程序中对所有网站集的全部内容进行爬网。

对每个开始地址的主机名称下的所有内容进行爬网

备注

此选项仅接受主机名称作为起始地址,例如 http://contoso。在使用此选项时,不能输入子网站的 URL,例如 http://contoso/sites/sales。

网站

网站本身的内容是相关的。

- 或 -

链接的网站上的内容不可能相关。

仅在每个开始地址的服务器内爬网

网站

相关的内容仅位于第一页上。

仅对每个开始地址的第一页爬网

网站

您要限制对开始地址上的链接进行爬网的深度。

自定义 — 指定要爬网的页面深度数和服务器跃距数

备注

我们建议您在具有大量连接的网站上以一个小的数字开始,原因在于,如果指定的深度超过三页或服务器跃距数超过三,则可能会对整个 Internet 进行爬网。

备注

也可以使用一条或多条爬网规则来指定对哪些内容进行爬网。有关详细信息,请参阅使用爬网规则来确定要爬网的内容 (Office SharePoint Server 2007)

文件共享

Exchange 公用文件夹

子文件夹中的内容不可能相关。

仅对每个开始地址的文件夹爬网

文件共享

Exchange 公用文件夹

子文件夹中的内容很可能相关。

对每个开始地址的文件夹和子文件夹爬网

业务数据

在业务数据目录中注册的所有应用程序都包含相关的内容。

对整个业务数据目录爬网

业务数据

并非在业务数据目录中注册的所有应用程序都包含相关的内容。

- 或 -

您需要按照不同的计划对某些应用程序爬网。

对所选应用程序爬网

文件类型包含和 IFilter

仅当相关的文件扩展名包括在文件类型包含列表中,并且索引服务器上安装了支持这些文件类型的 IFilter 时,才会对内容进行爬网。在初始安装过程中,将自动包括多种文件类型。通过分析查询日志,您可以发现哪些文件类型包含最终用户要查询的内容。您可能发现需要对当前未对其爬网的文件类型进行爬网,或者可能需要排除某些文件类型以便不对其爬网。

向文件类型包含列表中添加文件类型时,还必须确保拥有一个可用于在爬网时对文件类型进行分析的 IFilter。如果未安装此类 IFilter,则不会对该文件类型的文件中的内容编制索引,因此将无法对这些内容进行搜索。不过,可以对该特定文件类型的文件的元数据进行爬网和搜索。例如,如果向文件类型包含列表中添加 PDF 但不安装 PDF 文件类型的 IFilter,则不会对 PDF 文件的内容编制索引,但是将对 PDF 文件的元数据编制索引。

Office SharePoint Server 2007 提供了几种 IFilter,更多的 IFilter 可从 Microsoft 和第三方供应商处获得。如有必要,软件开发人员可以针对新文件类型创建 IFilter。若要在 Office SharePoint Server 2007 中安装并注册 Microsoft 提供的其他 IFilter,请参阅如何向 SharePoint Server 2007 和 Search Server 2008 注册 Microsoft Filter Pack (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x804)。有关 IFilter(包括第三方供应商提供的 IFilter)的详细信息,请参阅筛选中心(该链接可能指向英文页面) (https://go.microsoft.com/fwlink/?linkid=131255&clcid=0x804)(该链接可能指向英文页面)。

有关在默认情况下安装的 IFilter 所支持的文件类型的列表,以及在默认情况下启用哪些文件类型进行爬网的信息,请参阅文件类型和 IFilter 引用 (Office SharePoint Server)

使用爬网规则限制或排除内容

您可以编辑现有的爬网规则,也可以创建新的爬网规则,来排除所有项目或包括特定路径的具体项目。

备注

当您将开始地址添加到内容源并接受默认行为时,可以对该开始地址之下的所有子网站或文件夹进行爬网,除非您使用一个或多个爬网规则排除它们。

爬网规则适用于某个特定的 URL 或由通配符表示的一组 URL(此 URL 也称为受规则影响的路径)。可使用爬网规则来执行以下操作:

  • 通过排除一个或多个 URL 来避免对不太相关的内容进行爬网。这还有助于减少对服务器资源的使用和网络流量,同时提高搜索结果的相关性。

  • 对 URL 上的链接进行爬网,而不对 URL 本身进行爬网。对于包含相关内容链接的网站,如果包含这些链接的页面不包含相关信息或者不应在搜索结果页中向最终用户公开,此选项将非常有用。

  • 允许对复杂的 URL 进行爬网。此选项将对包含用问号指定的查询参数的 URL 进行爬网。根据网站的不同,这些 URL 可能包含也可能不包含相关内容。因为复杂的 URL 可能经常重定向到不太相关的网站,所以最好只对以下网站启用此选项:该网站中已知来自复杂 URL 的内容是相关的。

    备注

    对 SharePoint 网站爬网时,此选项将不起作用,原因是在对 SharePoint 网站爬网时,Office SharePoint Server 2007 将枚举所有内容。

备注

爬网规则同时应用于 SSP 中的所有内容源。

通常,特定网站地址的大部分内容都是相关的,但该网站地址下面的特定子网站或某一范围的网站却并非如此。通过选择要为其创建爬网规则(排除不需要的项)的一组集中的 URL,共享服务管理员可以最大程度地提高索引中内容的相关性,同时最大限度地减少对爬网性能的影响和搜索数据库的大小。在为外部内容规划开始地址时,创建用于排除 URL 的爬网规则尤其有用,原因是对资源使用情况的影响不受组织中人员的控制。

创建爬网规则时,可以在路径中使用标准通配符。例如:

  • “http://server1/folder*”包含具有以 http://server1/folder 开头的 URL 的所有 Web 资源。

  • “*://*.txt”包含每个具有 txt 文件扩展名的文档。

因为对内容爬网会占用资源和带宽,所以最好包括已知相关的较少量内容。在初始部署之后,您可以查看查询日志和爬网日志,并相应地调整内容源和爬网规则,以使其更具相关性并包含更多内容。

若要限制或增加要爬网的内容量,可以执行以下过程: