关于内容源 (Office SharePoint Server 2007)

内容是指可对其进行爬网的任意项,例如网页、Microsoft Office Word 文档、业务数据或电子邮件。内容位于诸如网站、文件共享或 SharePoint 网站之类的内容库中。内容源将指定设置,这些设置定义对内容进行爬网的方式以及爬网遵循的计划。内容源包括一个或多个将从中开始爬网的内容库地址(也称为开始地址)。这些设置适用于整个内容源中的所有开始地址。

默认内容源

如果组织只能对 SharePoint 网站中包含的内容进行爬网,则您可能不必创建其他内容源。Microsoft Office SharePoint Server 2007 在其初始部署期间定义了默认内容源。此默认内容源名为“本地 Office SharePoint Server 网站”。服务器场中所有 Web 应用程序的开始地址将自动包含在默认内容源中。默认情况下,将不对此内容源进行爬网。若要对默认内容源中的内容编制索引,您一定要手动对其启动爬网或计划对其进行爬网的时间。

创建新内容源

创建内容源时,您应指定一些设置来定义所爬网的内容的类型、对内容进行爬网的时间以及爬网行为,例如在开始地址命名空间中进行爬网的深度或允许的服务器跃距数。如果想要对多种类型的内容库进行爬网,或者想要按照其他计划对一些内容库进行爬网,则一定要创建其他内容源。Office SharePoint Server 2007 可以支持每个共享服务提供程序 (SSP) 最多包含 500 个内容源,每个内容源最多可以包含 500 个开始地址。有关何时创建附加内容源的详细信息,请参阅规划内容爬网 (Office SharePoint Server) 的“规划内容源”一节。有关如何配置爬网行为的详细信息,请参阅限制或增加被爬网的内容的数量 (Office SharePoint Server)

内容库的类型

对于每个内容源,您只能对一种类型的内容库进行爬网。也就是说,您可以创建一个包含 SharePoint 网站的 URL 的内容源和另一个包含文件共享的 URL 的内容源,但是您创建的单个内容源不能同时包含指向 SharePoint 网站和文件共享的 URL。

下表列出了 Office SharePoint Server 2007 可对其进行爬网的内容库的类型:

此类型的内容源 包含此类型的内容

SharePoint 网站

  • 来自同一个服务器场或不同 Microsoft Office SharePoint Server 2007、Windows SharePoint Services 3.0 或 Microsoft Search Server 2008 服务器场的 SharePoint 网站

  • 来自 Microsoft Office SharePoint Portal Server 2003 或 Microsoft Windows SharePoint Services 2.0 服务器场的 SharePoint 网站

    备注

    Office SharePoint Server 2007 爬网程序可自动对 Office SharePoint Server 2007、Windows SharePoint Services 3.0 以及 Search Server 2008 的所有网站和子网站进行爬网。若要对以前版本的 SharePoint 产品和技术进行爬网,必须指定要对其进行爬网的每个首要网站(网站集)和每个子网站的 URL。 在对门户网站进行爬网时,将对 Microsoft Office SharePoint Portal Server 2003 服务器场的网站目录中列出的网站进行爬网。有关网站目录的详细信息,请参阅关于网站目录(该链接可能指向英文页面)(https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x804)(该链接可能指向英文页面)。

网站

  • 在 SharePoint 网站上找不到的贵组织中的 Web 内容

  • Internet 网站上的内容

    备注

    当使用网站内容类型或 SharePoint 网站内容类型时,爬网程序的行为方式相同。只是可为这些内容源类型配置的爬网设置有所不同。

文件共享

  • 您组织内的文件共享中的内容

Exchange 公用文件夹

  • Microsoft Exchange Server 内容

Lotus Notes

业务数据(仅限企业版)

  • 存储在业务线应用程序中的业务数据

    您可以创建一个内容源以对在业务数据目录中注册的所有应用程序进行爬网,也可以创建单独的内容源以对在业务数据目录中注册的单个应用程序进行爬网。

    在为业务数据创建内容源之前,您必须在业务数据目录中注册承载数据的应用程序。有关详细信息,请参阅在业务数据目录中注册业务应用程序

内容的开始地址

每个内容源都包含爬网程序用于连接到内容库的开始地址的列表。每个内容源最多可以包含 500 个开始地址。您无法使用多个内容源对相同地址进行爬网。例如,如果您使用特定内容源对网站集及其所有子网站进行爬网,则不能按照其他计划使用其他内容源对这些子网站之一进行爬网。

对内容进行爬网

您可以使用内容源手动启动爬网,或者计划对所选内容源进行爬网的时间和频率。如果想要按照其他计划对部分内容源中的内容进行爬网,则必须为该内容创建单独的内容源。为了提高性能和便于管理,建议尽可能少使用内容源。有关手动启动爬网或计划爬网的详细信息,请参阅爬网内容 (Office SharePoint Server 2007)

身份验证

当爬网程序访问内容源中列出的开始地址时,承载该内容的服务器必须对爬网程序进行身份验证,并且爬网程序必须被授予对服务器的访问权限。爬网程序所使用的用户帐户至少必须具有读取权限,方可对内容进行爬网。默认情况下,Office SharePoint Server 2007 使用默认内容访问帐户,且在向服务器进行身份验证时会使用 NTLM。有关详细信息,请参阅配置爬网程序进行验证的方式 (Office SharePoint Server 2007)

另请参见

概念

规划内容爬网 (Office SharePoint Server)
将搜索配置为返回博客文章结果 (Office SharePoint Server 2007)
配置客户端证书以对 SSL 网站进行爬网 (Office SharePoint Server 2007)