文件类型和 IFilter 引用 (Office SharePoint Server)
爬网程序若要能够对内容项进行爬网,必须满足以下条件:
由三到四个字母组成的文件扩展名所标识的文件类型必须在搜索管理中的“管理文件类型”页上存在。
索引服务器必须安装用于该文件类型的 IFilter。
文件扩展名必须与索引服务器上的 IFilter 相关联。
Microsoft Office SharePoint Server 2007 包含若干个 IFilter。但有些随 Office SharePoint Server 2007 一起安装的 IFilter 并没有将对应的文件扩展名添加到“管理文件类型”页上。在这种情况下,您只需要将文件扩展名添加到“管理文件类型”页即可。此外,在索引服务器上安装 IFilter 后,该 IFilter 会关联大多数文件类型。有关如何将某些文件类型与索引服务器上的正确 IFilter 相关联的步骤,请参阅安装 Microsoft Filter Pack (Office SharePoint Server 2007)。
其他 IFilter 可从 Microsoft 和第三方供应商那里获得。如果需要,软件开发人员可以针对新文件类型创建 IFilter。如果没有 IFilter 可用于您要进行爬网的文件类型,则 Office SharePoint Server 2007 中的索引只能包括文件的属性,而无法包括文件的内容。有关详细信息,请参阅关于 IFilter (Office SharePoint Server 2007)。
下表列出了默认情况下安装的 IFilter 所支持的文件类型,这些文件类型默认情况下位于“管理文件类型”页上,并且文件扩展名与索引服务器上的某个 IFilter 相关联。
文件扩展名 | 默认关联 | 自动包含在“管理文件类型”页中 |
---|---|---|
ascx |
是 |
是 |
asm |
是 |
否 |
asp |
是 |
是 |
aspx |
是 |
是 |
bat |
是 |
否 |
c |
是 |
否 |
cmd |
是 |
否 |
cpp |
是 |
否 |
css |
是 |
否 |
cxx |
是 |
否 |
def |
是 |
否 |
dic |
是 |
否 |
doc |
是 |
是 |
docm |
是 |
是 |
docx |
是 |
是 |
dot |
是 |
是 |
eml |
是 |
是 |
exch |
否 |
是 |
h |
是 |
否 |
hhc |
是 |
否 |
hht |
是 |
否 |
hpp |
是 |
否 |
hta |
是 |
否 |
htm |
是 |
是 |
html |
是 |
是 |
htw |
是 |
否 |
htx |
是 |
否 |
jhtml |
否 |
是 |
jsp |
否 |
是 |
lnk |
是 |
否 |
mht |
是 |
是 |
mhtml |
是 |
是 |
mpx |
是 |
否 |
msg |
是 |
是 |
mspx |
否 |
是 |
nsf |
否 |
是 |
odc |
是 |
是 |
one |
否 |
否 |
php |
否 |
是 |
pot |
是 |
否 |
pps |
是 |
否 |
ppt |
是 |
是 |
pptm |
是 |
是 |
pptx |
是 |
是 |
pub |
是 |
是 |
stm |
是 |
否 |
tif |
是 |
是 |
tiff |
否 |
是 |
trf |
是 |
否 |
txt |
是 |
是 |
url |
否 |
是 |
vdx |
否 |
是 |
vsd |
否 |
是 |
vss |
否 |
是 |
vst |
否 |
是 |
vsx |
否 |
是 |
vtx |
否 |
是 |
xlb |
是 |
否 |
xlc |
是 |
否 |
xls |
是 |
是 |
xlsm |
是 |
是 |
xlsx |
是 |
是 |
xlt |
是 |
否 |
xml |
是 |
是 |
另请参见
概念
IFilter 和协议处理程序 (Office SharePoint Server 2007)
关于 IFilter (Office SharePoint Server 2007)
安装 Microsoft Filter Pack (Office SharePoint Server 2007)
限制或增加被爬网的内容的数量 (Office SharePoint Server)