IFilter 和协议处理程序 (Search Server 2008)

更新时间: 2009年4月

应用到: Microsoft Search Server 2008

 

上一次修改主题: 2009-03-13

提示

除非另有说明,否则本文中的信息对 Microsoft Search Server 2008 和 Microsoft Search Server 2008 Express 均适用。

Search Server 2008 中的爬网程序使用协议处理程序访问内容,然后使用 IFilter 从已爬网文件中提取内容。在引擎对文档内容编制索引之前,IFilter 会移除特定于应用程序的格式设置。Search Server 只对为其安装了协议处理程序和 IFilter 的文件类型进行爬网。

本节介绍所安装的 Search Server 默认情况下包含的 IFilter 和协议处理程序,以及如何安装和注册其他 IFilter 和协议处理程序。

爬网程序按如下方式使用协议处理程序和 IFilter:

  1. 爬网程序检索内容源的开始地址,并根据 URL 的前缀调用协议处理程序。

  2. 协议处理程序连接到内容源,并提取系统级元数据和访问控制列表信息。

  3. 协议处理程序根据文件扩展名识别每个内容项的文件类型,并调用与该文件类型关联的相应 IFilter。

  4. IFilter 提取内容,并移除任何嵌入的格式设置,然后检索内容项元数据。

  5. 内容由一个或多个相应语言的分词系统进行分析,并添加到全文检索(也称为内容索引)中。元数据和访问控制列表将添加到搜索数据库中。

本节内容:

另请参阅

概念

添加内容源 (Search Server 2008)