使用爬网规则来指定其他内容访问帐户或身份验证方法 (Office SharePoint Server 2007)

在执行本文中的过程之前,请确认以下各项:

在 Microsoft Office SharePoint Server 2007 中,您可以创建新的爬网规则或编辑现有爬网规则,来指定在爬网特定路径时要使用的不同内容访问帐户或身份验证方法。您也可以指定应用爬网规则的顺序。

备注

路径描述受规则影响的命名空间(通常为 URL)。例如,路径可以为特定 URL(例如 http://contoso),也可以包括通配符(例如,*://*.txt 包括文件扩展名为 .txt 的每个文档)。

本文内容:

  • 对使用基于表单的身份验证的网站进行爬网

  • 创建爬网规则

  • 编辑爬网规则

  • 删除爬网规则

  • 对爬网规则重新排序

Important 重要说明:

您必须是共享服务管理员才能执行以下过程。有关详细信息,请参阅规划安全角色 (Office SharePoint Server)

对使用基于表单的身份验证的网站进行爬网

备注

本节中的信息仅适用于安装了 Microsoft Office Server 基础结构更新的服务器场。有关详细信息,请参阅 Microsoft Office Server 的基础结构更新说明 (https://go.microsoft.com/fwlink/?linkid=121886&clcid=0x804)。

当使用 Submit 输入类型实现基于表单的身份验证 (FBA) 时,Office SharePoint Server 2007 支持对使用 FBA 的网站进行爬网。Office SharePoint Server 2007 不支持对登录页包含下列表单的网站上的内容进行爬网:跨多个页面的一系列表单(基于向导的表单),或使用 AJAX、JavaScript 或其他动态脚本方法呈现的动态内容的表单。不支持使用以下类型基于表单的身份验证的网站:

  • 向导样式的登录页 Office SharePoint Server 2007 不对使用一系列屏幕对用户进行身份验证的网站进行爬网。这些向导样式的表单根据用户在前一页的表单中输入的信息来显示一个或多个页面。因为 Office SharePoint Server 2007 无法对多个登录页进行爬网,因此不支持为使用此类型身份验证的网站创建爬网规则。

  • 动态变化的登录表单 Office SharePoint Server 2007 不对拥有动态变化的登录页的网站进行爬网,因为这些网站被设计为使用 AJAX 之类的技术。使用 AJAX 技术的登录屏幕会为用户提供新的选项,而不会出现可视回发,换句话说就是,可通过编写脚本在浏览器中显示新数据,而无需刷新页面。当用户与使用此技术的登录页交互时,该用户可能会键入密码,然后会看到一个新表单,要求回答安全问题,而看不到浏览器中的页面刷新。不支持为使用此类设计的网站创建爬网规则。

创建爬网规则

使用下面的过程来创建一条爬网规则,该规则指定要在对特定路径进行爬网时使用的其他内容访问帐户或身份验证方法。

创建爬网规则

  1. 根据您的安装状态,完成以下步骤之一。

    • 如果安装了 Microsoft Office Server 的基础结构更新,请在管理中心“快速启动”的“共享服务管理”组中,单击某共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索管理”。

      在“搜索管理”页面的“快速启动”中的“爬网”部分,单击“爬网规则”。

      备注

      有关详细信息,请参阅 Microsoft Office Server 的基础结构更新说明 (https://go.microsoft.com/fwlink/?linkid=121886&clcid=0x804)。

    • 如果未安装 Microsoft Office Server 的基础结构更新,请在管理中心“快速启动”的“共享服务管理”组中,单击某共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索设置”。

      在“配置搜索设置”页上的“爬网设置”部分,单击“爬网规则”。

  2. 在“管理爬网规则”页上,单击“新建爬网规则”。

  3. 在“添加爬网规则”页上“路径”部分中的“路径”框中,键入受此规则影响的路径。可在路径中使用标准通配符。例如,您可以键入:

    • http://server1/folder* 以包含具有以 http://server1/folder 开头的 URL 的所有 Web 资源。

    • *://*.txt 以包含具有 .txt 文件扩展名的每个文档。

  4. 在“爬网配置”部分,为了防止对路径中的文件夹或子网站进行爬网,请单击“排除此路径中的所有项目”。

  5. 若要选择是否包含路径中的项目,请单击“包含此路径中的所有项目”,然后选中下列复选框的任意组合:

    • 使用该 URL 上的链接,而不对该 URL 本身进行爬网

      如果您要对登录页上的链接进行爬网,但不对登录页上的文本编制索引,请选中此复选框。

    • 对复杂 URL (包含问号(?)的 URL)进行爬网

      如果您要对使用参数来显示更多内容的 URL 进行爬网,请选中此复选框。

    • 将 SharePoint 内容作为 HTTP 页面进行爬网

      通常,SharePoint 网站上的内容使用特殊协议进行爬网。如果您要将 SharePoint 网站上的内容作为 HTTP 页面进行爬网,请选中此复选框。

    备注

    使用 HTTP 协议对内容进行爬网时,不会存储项目权限。

  6. 在“指定验证”部分,执行下列操作之一:

    备注

    若要选择此部分中的任何选项,请确保单击“爬网配置”下的“包含此路径中的所有项目”。

    • 当对受此爬网规则影响的 URL 进行爬网时,要使用默认内容访问帐户,请选择“使用默认内容访问帐户”。

    • 如果要使用其他内容访问帐户,请选择“指定其他内容访问帐户”,然后执行下列操作:

      在“帐户”框中,键入可访问此爬网规则所定义路径的帐户名称,例如,user_name 或 DOMAIN\user_name。

      在“密码”和“确认密码”框中,键入帐户的密码。

      如果您要防止使用基本身份验证,请选中“不允许基本身份验证”复选框。否则,如果要使用基本身份验证,请清除“不允许基本身份验证”复选框。

      备注

      如果分配给内容访问帐户(用于对受此爬网规则影响的内容进行爬网)的域帐户来自与服务器场不同的域,则无法使用基本身份验证。

    • 若要将客户端证书用于身份验证,请选择“指定客户端证书”,然后在“证书”菜单上单击证书。

    • 若要使用基于表单的身份验证,请单击“指定表单凭据”,在“表单 URL”框中键入表单位置,然后单击“输入凭据”。请注意,仅当服务器场中已安装 Microsoft Office Server 的基础结构更新 时,才能使用此选项。

      备注

      当使用 Submit 输入类型实现基于表单的身份验证 (FBA) 时,带有 Microsoft Office Server 的基础结构更新的 Office SharePoint Server 2007 支持对使用 FBA 的网站进行爬网。带有 Microsoft Office Server 的基础结构更新的 Office SharePoint Server 2007 不支持对登录页包含下列表单的网站上的内容进行爬网:跨多个页面的一系列表单(基于向导的表单),或使用 AJAX、JavaScript 或其他动态脚本方法呈现的动态内容的表单。

    • 若要使用 Cookie 身份验证,请单击“将 Cookie 用于爬网”,然后执行以下任一操作:

      备注

      仅当安装了 Microsoft Office Server 的基础结构更新 时,Office SharePoint Server 2007 中才提供此选项。

      • 若要从 URL 中获取 Cookie,请在“从 URL 获取 Cookie”框中键入完整位置,然后单击“获取 Cookie”。

      • 若要从计算机或网络中选择特定的 Cookie,请依次单击“指定 Cookie 进行爬网”和“浏览”,然后选择要使用的 Cookie。

      • 若要指定 Cookie 过期时显示的错误页,请在“错误页(以分号分隔)”框中键入页面的 URL,并用分号分隔。

  7. 单击“确定”。

编辑爬网规则

您可以通过以下方法编辑现有的爬网规则:转到“管理爬网规则”页面,单击爬网规则,然后按前面过程中所述的方式对路径和配置进行必要的更改。

删除爬网规则

使用以下过程来删除您不再需要的爬网规则。

删除爬网规则

  1. 根据您的安装状态,完成以下步骤之一。

    • 如果安装了 Microsoft Office Server 的基础结构更新,请在管理中心“快速启动”的“共享服务管理”组中,单击某共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索管理”。

      在“搜索管理”页面的“快速启动”中的“爬网”部分,单击“爬网规则”。

      备注

      有关详细信息,请参阅 Microsoft Office Server 的基础结构更新说明 (https://go.microsoft.com/fwlink/?linkid=121886&clcid=0x804)。

    • 如果未安装 Microsoft Office Server 的基础结构更新,请在管理中心“快速启动”的“共享服务管理”组中,单击某共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索设置”。

      在“配置搜索设置”页上的“爬网设置”部分,单击“爬网规则”。

  2. 在“管理爬网规则”页上,指向想要删除的爬网规则,单击出现的箭头,然后在出现的菜单上单击“删除”。

  3. 单击“确定”确认删除。

对爬网规则重新排序

创建了新爬网规则或编辑了现有爬网规则后,建议您指定在对内容进行爬网时应用规则要采用的顺序。爬网规则将按照所列顺序应用。因此,如果两个规则涵盖相同或重叠的内容,将应用列出的第一个规则。请使用下面的过程指定爬网规则的顺序。

对爬网规则重新排序

  1. 根据您的安装状态,完成以下步骤之一。

    • 如果安装了 Microsoft Office Server 的基础结构更新,请在管理中心“快速启动”的“共享服务管理”组中,单击某共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索管理”。

      在“搜索管理”页面的“快速启动”中的“爬网”部分,单击“爬网规则”。

      备注

      有关详细信息,请参阅 Microsoft Office Server 的基础结构更新说明 (https://go.microsoft.com/fwlink/?linkid=121886&clcid=0x804)。

    • 如果未安装 Microsoft Office Server 的基础结构更新,请在管理中心“快速启动”的“共享服务管理”组中,单击某共享服务。

      在“共享服务管理”页上的“搜索”部分,单击“搜索设置”。

      在“配置搜索设置”页上的“爬网设置”部分,单击“爬网规则”。

  2. 在“管理爬网规则”页上的爬网规则列表的“顺序”栏中,在指定规则要占用的位置的列表中选择一个值。其他值将相应移位。