IFilter 和协议处理程序 (Office SharePoint Server 2007)

Microsoft Office SharePoint Server 2007 中的爬网程序使用协议处理程序访问内容,然后使用 IFilter 从已爬网文件中提取内容。在引擎对文档内容编制索引之前,IFilter 会移除特定于应用程序的格式设置。Office SharePoint Server 2007 只对为其安装了协议处理程序和 IFilter 的文件类型进行爬网。

本节介绍所安装的 Office SharePoint Server 2007 默认情况下包含的 IFilter 和协议处理程序,以及如何安装和注册其他 IFilter 和协议处理程序。

爬网程序按如下方式使用协议处理程序和 IFilter:

  1. 爬网程序检索内容源的开始地址,并根据 URL 的前缀调用协议处理程序。

  2. 协议处理程序连接到内容源,并提取系统级元数据和访问控制列表信息。

  3. 协议处理程序根据文件扩展名识别每个内容项的文件类型,并调用与该文件类型关联的相应 IFilter。

  4. IFilter 提取内容,并移除任何嵌入的格式设置,然后检索内容项元数据。

  5. 内容由一个或多个相应语言的分词系统进行分析,并添加到内容索引(也称为全文检索)中。元数据和访问控制列表将添加到搜索数据库中。

本节内容:

另请参见

概念

添加内容源 (Office SharePoint Server)