使用爬网规则指定其他内容访问帐户或身份验证方法 (Search Server 2008)

更新时间: 2008年9月

应用到: Microsoft Search Server 2008

 

上一次修改主题: 2009-04-06

提示

除非另有说明,否则本文中的信息对 Microsoft Search Server 2008 和 Microsoft Search Server 2008 Express 均适用。

在 Microsoft Search Server 2008 中,可以创建新的爬网规则或编辑现有的爬网规则,以指定对特定路径进行爬网时要使用的其他内容访问帐户或身份验证方法。还可以指定爬网规则的应用顺序。

本文内容:

  • 对使用基于表单的身份验证的网站进行爬网

  • 创建爬网规则

  • 编辑爬网规则

  • 删除爬网规则

  • 对爬网规则重新排序

对使用基于表单的身份验证的网站进行爬网

当使用“提交”输入类型实现基于表单的身份验证 (FBA) 时,Search Server 2008 支持对使用 FBA 的网站进行爬网。Search Server 2008 不支持对其登录页包含下列表单的网站上的内容进行爬网:跨多个页面的一系列表单(基于向导的表单),或使用 AJAX、JavaScript 或其他动态脚本方法呈现的动态内容的表单。不支持使用以下 FBA 类型的表单的网站:

  • 向导样式的登录页Search Server 2008 不会对使用一系列屏幕对用户进行身份验证的网站进行爬网。这些向导样式的表单根据用户在前一页的表单中输入的信息来显示一个或多个页面。由于 Search Server 2008 无法对多个登录页进行爬网,因此不支持为使用此类型身份验证的网站创建爬网规则。

  • 动态变化的登录表单Search Server 2008 不会对具有动态变化的登录页的网站进行爬网,因为这些网站的设计中使用了 AJAX 之类的技术。使用 AJAX 技术的登录屏幕会为用户呈现新的选项,而不会出现明显的回发,也就是说,可通过编写脚本在浏览器中显示新数据,而无需刷新页面。当用户与使用此技术的登录页交互时,该用户可能会键入密码,然后会看到一个新表单,要求回答安全问题,而不会看到浏览器中的页面刷新。不支持为使用此类设计的网站创建爬网规则。

注意   在执行本文中的过程之前,请确定您已阅读配置爬网程序进行身份验证的方式 (Search Server 2008) 这一主题。

Important重要信息
您必须是搜索服务管理员才能执行以下步骤。有关详细信息,请参阅添加或删除搜索服务管理员 (Search Server 2008)

创建爬网规则

使用以下过程创建一个爬网规则,该爬网规则将指定在对特定路径进行爬网时要使用的其他内容访问帐户或身份验证方法。

创建爬网规则

  1. 在“搜索管理”页面上的“爬网”部分中,单击“爬网规则”。

  2. 在“管理爬网规则”页面上,单击“新建爬网规则”。

  3. 在“添加爬网规则”页面上“路径”部分的“路径”框中,键入受此规则影响的路径。可在路径中使用标准通配符。例如,可以键入:

    • http://server1/folder*,以包含 URL 以 http://server1/folder 开头的所有 Web 资源。

    • *://*.txt,以包含每个具有 .txt 文件扩展名的文档。

  4. 在“爬网配置”部分中,为了防止对路径中的文件夹或子网站进行爬网,请单击“排除此路径中的所有项目”。

  5. 若要选择是否包含路径中的项目,请单击“包含此路径中的所有项目”,然后选中下列复选框的任意组合:

    • 使用该 URL 上的链接,而不对该 URL 本身进行爬网   如果要对登录页上的链接进行爬网,但不希望对登录页上的文本进行索引,请选中此复选框。

    • 对复杂 URL (包含问号(?)的 URL)进行爬网   如果要对使用参数显示其他内容的 URL 进行爬网,请选中此复选框。

    • 将 SharePoint 内容作为 HTTP 页面进行爬网   通常,将使用特殊协议对 SharePoint 网站上的内容进行爬网。如果要将 SharePoint 网站上的内容作为 HTTP 页面进行爬网,请选中此复选框。

    提示

    使用 HTTP 协议对内容进行爬网时,不会存储项目权限。

  6. 在“指定验证”部分中,请执行下列操作之一:

    提示

    若要选择此部分中的任何选项,请确保单击“爬网配置”下的“包含此路径中的所有项目”。

    • 当对受此爬网规则影响的 URL 进行爬网时,若要使用默认内容访问帐户,请单击“使用默认内容访问帐户”。

    • 如果要使用其他内容访问帐户,请单击“指定其他内容访问帐户”,然后执行下列操作:

      在“帐户”框中,键入可访问由此爬网规则定义的路径的帐户名 — 例如,user_nameDOMAIN\user_name

      在“密码”和“确认密码”框中,键入帐户的密码。

      如果要防止使用基本身份验证,请选中“不允许基本身份验证”复选框。另外,如果要使用基本身份验证,请清除“不允许基本身份验证”复选框。

      提示

      如果为内容访问帐户(用于为受此爬网规则影响的内容进行爬网)分配的域帐户来自不同于服务器场的域,则无法使用基本身份验证。

    • 若要将客户端证书用于身份验证,请单击“指定客户端证书”,然后单击“证书”菜单上的证书。

    • 若要使用基于表单的身份验证,请单击“指定窗体凭据”,在“窗体 URL”框中键入窗体位置,然后单击“输入凭据”。

      提示

      当使用“提交”输入类型实现基于表单的身份验证 (FBA) 时,Search Server 2008 支持对使用 FBA 的网站进行爬网。Search Server 2008 不支持对登录页包含下列表单的网站上的内容进行爬网:跨多个页面的一系列表单(基于向导的表单),或使用 AJAX、JavaScript 或其他动态脚本方法呈现的动态内容的表单。

    • 若要使用 Cookie 身份验证,请单击“将 Cookie 用于爬网”,然后执行以下任一操作:

      • 若要从 URL 中获取 Cookie,请在“从 URL 获取 Cookie”框中键入完整位置,然后单击“获取 Cookie”。

      • 若要从计算机或网络中选择特定的 Cookie,请依次单击“指定 Cookie 进行爬网”和“浏览”,然后选择要使用的 Cookie。

      • 若要指定 Cookie 过期时显示的错误页,请在“错误页(以分号分隔)”框中键入页面的 URL,并用分号分隔。

  7. 单击“确定”。

编辑爬网规则

通过转至“管理爬网规则”页面,单击爬网规则,然后对路径和配置进行必要的更改,可以随时编辑现有的爬网规则,如上一过程中所述。

删除爬网规则

使用以下过程可以删除不再需要的爬网规则。

删除爬网规则

  1. 在“搜索管理”页面上的“爬网”部分中,单击“爬网规则”。

  2. 在“管理爬网规则”页上,指向要删除的爬网规则,单击出现的箭头,然后在出现的菜单上单击“删除”。

  3. 单击“确定”确认删除。

对爬网规则重新排序

创建新的爬网规则或编辑现有的规则后,建议指定对内容进行爬网时要应用的规则的顺序。将按照所列顺序应用爬网规则。因此,如果两个规则涵盖相同或重叠的内容,则将应用列出的第一个规则。请使用下面的过程指定爬网规则的顺序。

对爬网规则重新排序

  1. 在“搜索管理”页面上的“爬网”部分中,单击“爬网规则”。

  2. 在“管理爬网规则”页面上爬网规则列表的“顺序”列中,选择列表中的值以指定想让规则占用的位置。其他值会相应地进行移位。