如何对内容进行爬网 (Search Server 2008)

更新时间: 2009年4月

应用到: Microsoft Search Server 2008

 

上一次修改主题: 2009-04-13

提示

除非另有说明,否则本文中的信息对 Microsoft Search Server 2008 和 Microsoft Search Server 2008 Express 均适用。

在最终用户可以使用 Microsoft Search Server 2008 中的企业级搜索功能搜索内容之前,您必须先对要提供给最终用户查询的内容进行爬网。在本文中,内容是指可供爬网的项,例如网页、Microsoft Office Word 文档或 SharePoint 网站。

本文介绍开始对内容进行爬网所需的基本过程,并列出了一些文章的链接,这些文章包含了更多的信息和步骤以便为您提供帮助。

  1. 创建内容源   内容源定义了储存库的类型。储存库包含要对其进行爬网的内容、开始爬网的起始地址、爬网时使用的行为和爬网规则。有关创建内容源的信息,请参阅关于内容源 (Search Server 2008)添加内容源以对 SharePoint 网站、网站、文件共享或 Microsoft Exchange Server 公用文件夹进行爬网 (Search Server 2008)

  2. 指定当对所有 URL 或特定范围的 URL 进行爬网时要使用的凭据   默认情况下,默认内容访问帐户将使用 Windows 域用户凭据对由内容源定义的内容储存库进行爬网。您可以使用爬网规则指定不同的内容访问帐户,该帐户可以是客户端证书、表单凭据、Cookie 或其他内容访问帐户。有关设置默认内容访问帐户的信息,请参阅更改默认内容访问帐户 (Search Server 2008)。有关使用爬网规则的信息,请参阅使用爬网规则来确定要进行爬网的内容 (Search Server 2008)

  3. 配置用于搜索的代理服务器设置   当您对网络外部承载的内容进行爬网时,您可以设置代理服务器以到达主机服务器。在此情况下,验证代理服务器的设置并在 Search Server 2008 中配置这些设置很重要。为此,在“搜索管理”页上的“爬网”下,单击“代理服务器和超时”。通常,您只需设置此选项一次。

  4. 启动完全爬网   首先,您可以对特定内容源中定义的少量内容进行爬网以测试您的设置配置。在对少量内容进行爬网后,增加条件以构建索引。有关启动完全爬网的信息,请参阅启动完全爬网 (Search Server 2008)

  5. 查看爬网日志   在爬网过程中,我们建议您查看爬网日志以检查其进度。这使您能够确认爬网是否成功或检测问题。常见问题包括授权失败或无法到达主机。若您发现日志文件中记录了问题,则可以停止爬网,并调整“管理内容源”、“管理爬网规则”和“管理服务器场级别搜索设置”页上的设置,然后重试爬网。如果您遇到与联合位置相关的问题,请参阅修复联合位置 (Search Server 2008)

另请参阅

概念

规划内容爬网 (Search Server 2008)
Search Server 2008 的操作