SharePoint

利用“SharePoint 企业搜索”进行查找

Matt Hester

 

概览:

  • 企业搜索解决方案的体系结构
  • 对企业数据进行索引和查询
  • LOB 数据和人员知识

您可能会花费大量时间来担心诸如服务器正常运行时间和可用性、软件更新以及安全性这样的问题。但是即使基础结构运行情况非常良好(整个网络中的所有应用程序和文件都可用),

用户仍然可能会降低工作效率。当然,他们需要的数据是可用的,但他们得花费多少时间来查找数据呢?

在帮助人们处理信息超载方面已经做了大量的工作。桌面搜索工具有助于更加方便地查找存储于系统上的所有其他数据中的隐藏信息。(请参阅我 2006 年 8 月的文章“Find Anything with Windows Desktop Search”(英文)。)但是对于门户网站上可用的、存储在共享中的以及置于业务应用程序中的所有数据,又该如何处理呢?更不用说各位员工头脑里蕴藏的富有价值的信息了。此信息对于您的用户来说至关重要,因为他们需要此数据来完成工作,并且需要快速地获取这些数据,以及时而准确地进行业务决策。但想象一下用户需要花费多少时间来查找并收集遍布于网络之中的数据吧。现在请考虑一下这对企业底线的潜在影响。

当务之急是缩短用户跟踪存储在整个企业范围内的信息所用的时间。该如何完成此项任务?答案很简单,就是使用提供了企业搜索功能的搜索引擎。

企业搜索几乎可以查找存储在组织中所有地方的信息。无论寻找的是存储在桌面上的数据、存放在 intranet 站点的数据、锁定在业务线应用程序中的数据还是人员头脑中蕴涵的数据,企业搜索工具都可以发挥作用。(别担心,这不用将任何芯片植入用户的大脑中。)

企业搜索解决方案将桌面搜索和快速 intranet 搜索功能结合起来。最终,企业搜索工具必须能够执行联合搜索,这种搜索可以利用一个查询访问多个数据源。用户只需要一个界面输入查询。但实际上,查询会被发送到多个不同的搜索引擎,然后在一个聚合视图中显示结果。

在本文中,我将讨论下一代的 Microsoft SharePoint 解决方案 Microsoft® Office SharePoint® Server 2007 (MOSS 2007) 如何提供功能强大的搜索引擎,这种搜索引擎有助于消除组织中的信息真空区。MOSS 2007 在以前版本的基础上有多处改进,提供了完全重新开发的组件以及一些全新的功能。这里我将讨论其中的一些关键组件,例如索引、传播、关联性和内容源,以及这些组件如何帮助您向用户提供更出色的企业搜索功能。

利用 SharePoint 在企业范围内搜索

企业搜索将以四个版本提供,这些版本及它们之间的主要差别如下:Microsoft Office SharePoint Server 2007 for Search Standard Edition、Microsoft Office SharePoint Server 2007 for Search Enterprise Edition、Microsoft Office SharePoint Server 2007 Standard 和 Microsoft Office SharePoint Server 2007 Enterprise。

这两个 Search Edition 与所有 SharePoint Server 版本之间的主要差别是前者不包括“人员搜索”功能(该功能也包括与 MOSS 2007“知识网络”的集成)、“业务数据目录”或带可自定义选项卡的增强的“搜索中心”。图 1 详细说明了这些主要差别。

Figure 1 四种搜索工具的主要区别

  Microsoft Office SharePoint Server 2007 for Search Standard Edition Microsoft Office SharePoint Server 2007 for Search Enterprise Edition Microsoft Office SharePoint Server 2007 Standard Edition Microsoft Office SharePoint Server 2007 Enterprise Edition
索引 现有的四十种文件类型(可扩展) 现有的四十种文件类型(可扩展) 现有的四十种文件类型(可扩展) 现有的四十种文件类型(可扩展)
支持(现有工具)对文件共享、网站、SharePoint 站点、Exchange 公用文件夹、Notes 数据库文件进行搜索
支持对第三方文档存储库进行搜索
支持搜索人员和专业知识    
支持搜索结构化数据源      
提供安全的内容访问控制
提供增强的“搜索中心”UI    
文档限制 400,000 无限制 无限制 无限制

UI 提供了许多新功能,包括“您是不是要搜索?”功能。此为 Internet 搜索引擎的一项重要功能,它会在您可能错误拼写了常用搜索术语时给出建议(见图 2)。界面还包括搜索命中项突出显示功能并完全支持“最佳匹配”。但这只是新的搜索功能中很小的一部分。

图 2 “SharePoint 搜索”中的“您是不是要搜索...”新功能

图 2** “SharePoint 搜索”中的“您是不是要搜索...”新功能 **(单击该图像获得较大视图)

查找人员知识

新功能中的亮点是对拥有特定知识和技能的人员进行搜索的能力。这允许用户引入并利用组织范围内的员工所拥有的知识,这是消除真空区的重要一步。

要启用此功能,可以在任何轻量目录访问协议 (LDAP) 目录上执行索引和搜索,其中包括 Active Directory® 通讯组列表和 SharePoint 用户组。事实上,MOSS 不会直接搜索 LDAP 目录,要启用人员搜索,需要将 LDAP 信息导入 MOSS。(也可以在整个企业基础结构范围内执行搜索。)

搜索结果可以根据个人的“社会距离”进行分组,其中“社会距离”是指用户所在职位(销售助理可能不会想要给 CFO 打电话)与共同关注点之间的距离。图 3 显示了人员搜索的结果。

图 3 寻找具有相关知识的同事

图 3** 寻找具有相关知识的同事 **(单击该图像获得较大视图)

搜索业务数据

SharePoint 也可以对各种类型的业务数据进行索引。其中包括业务线应用程序,例如 HR 应用程序、CRM、开支报告等。过去,这种数据在 LOB 应用程序的普通界面上难以访问,使得大多数员工很难发现和使用这些数据。

但现在 MOSS 搜索可以从任意 LOB 应用程序检索数据,例如关系数据库或 Lotus Notes 数据库,可以通过 ADO.NET 或 Web 服务进行访问。这项功能的特别之处在于它不要求写入自定义代码。通过“业务数据目录”功能,就可以像访问任何文档或网站一样容易地获得业务数据。“业务数据目录”功能可以方便地与“搜索中心”所提供的属性管理和自定义范围集成。

返回关联性

当然,如果不能产生准确的结果,任何新功能都毫无价值而言。幸运的是,MOSS 在关联性方面有着显著的改进。但是,在讨论这些改进之前,我需要先介绍一下企业中的关联性与 Internet 中的关联性有何不同,这一点非常重要。

您可能想知道为什么 intranet 搜索不能仅依赖于和 Internet 搜索相同的工具,并因此获得相同的准确性。简而言之,这是两种截然不同的环境,需要及要求差别很大。这些差别主要可以分为以下三种:安全性、结构和层次结构。

安全性指 Internet 相对于企业而言所具有的简单特性。Internet 上的数据通常可匿名访问,索引和搜索不要求进行身份验证或安全修整。 另一方面,企业环境必须遵循严格的安全模型,包括筛选结果以与搜索者的权限相符。

结构的影响与密度有关。Internet 内容丰富而深入,其中的站点通过相互链接来扩充自身的内容。但在企业中,链接通常用于导航,而且结构密度也小得多。

松散关联链接结构是站点层次结构要素。Internet 中通常没有站点层次结构,并且顶级站点也非常少。但是,企业的 intranet 却是经规划而来,并且实际上具有层次结构。甚至当企业具有多个主根级别时,组织通常也只有一个主要门户。

这些根本的差别改变了企业搜索解决方案对数据进行索引并返回结果的方式。MOSS 2007 旨在更好地满足不同的企业需要。其特点是具有新的分级引擎,该引擎是通过采用现有技术并结合 Microsoft Research 和 MSN® 团队的工作成果开发而成的。通过创建一系列关联算法增强了关联性,这些算法可以收集有关正在爬网的文档以及业务线数据的内部和外部信息。在对企业数据进行索引时,将会扫描超过 200 种类型的文档,并且将算法应用于检测语言、提取元数据以及执行文本分析。这些新算法经过了专门的调整,以满足企业数据和 LOB 应用程序的需要,显著提高了结果的准确性。

关联性计算中包括几个元数据标记。以下是一些需要考虑的内容:

  • 单击“距离”,浏览到权威网站的距离(距离越短往往关联性越强)。
  • 锚文本超链接将作为其目标上的注释。此外,它们非常具有说明性。
  • URL 深度,层次级别越高的 URL 通常关联程度越高。
  • URL 匹配直接与 URL 中的文本相匹配。
  • 如果缺少标题和作者,“元数据提取”会自动从文档文本中提取。
  • “自动语言检测”可以帮助以所选择的语言创建首选项结果。
  • 倾向于特定文件类型的“文件类型”往往关联性更强,例如,PPT 文件通常比 XLS 文件关联性强。
  • 文本分析,基于匹配项、术语频率以及异形词等因素的传统文本分级。

索引是如何工作的?

MOSS 2007 在索引服务的工作方式以及内容管理方式上做出了重要改进。对于初学者,如果内容源为 SharePoint 服务器、网站、文件共享、Exchange 公用文件夹、Lotus Notes 数据库或 LOB 应用程序,则可以进行指定。全部的索引管理经验已经得到了简化,从而可以自由地在多个内容源之间选择进行索引的对象、方式以及时间。这可以通过爬网规则来处理,可使用此规则指定包括或不包括的路径。甚至可以配置爬网程序跟随 URL 链接的方式。内置日志给出了爬网站点的数量和其索引方式的综合视图。

该索引与 Windows® Desktop Search 中所用的索引技术类似。索引由两个主要的组件构成:内容索引和属性存储。这是处理数据的一种极其有效的方式。内容索引包括文件中所包含的实际文本以及企业索引中单词相关的逆选索引。属性存储数据库对结果的处理至关重要。属性存储数据库中保存着所有文档相关的其他全部元数据属性(如作者、所创建的数据、文档类型等)。从结构上来说,属性存储由包含属性及其值的表组成。表中的每一行对应于全文索引中一个单独的文档。属性存储还可维护并加强对文档进行索引时获得的文档级安全性。

索引和存储过程由负责爬网内容源的索引引擎开始执行。引擎在验证了具有可读取内容源的相应的协议处理程序后开始爬网。一旦加载了正确的内容源协议处理程序,该程序以及所需的 IFilters 就会从内容源提取并筛选内容项。IFilter 为加载项,对于采用其他方法无法进行索引的新型文件内容,索引引擎通过该加载项可以打开、读取并进行索引。IFilter 可以提取各个文档的文本和元数据,然后将流传递回索引引擎。

随后会将文档属性存储在属性存储中,并将文档的实际文本置于内容索引中。但之前索引引擎会先删除“干扰”词。引擎还使用断字器和词干分析器处理信息,以简化数据,从而更好地执行查询。(断字器将文本划分为单词和短语,词干分析器可以生成给定单词的变形形式。)

索引引擎可采用连续传播的方式立即建立索引。利用连续传播,即使爬网过程在整个内容源中进行也会继续建立索引。这项增强功能允许即时产生结果,这也是在 SharePoint Portal Sever 2003 基础上作出的重大改进,SharePoint Portal Sever 2003 爬网大量内容时会花费几天时间,而索引只有在爬网完成后才能传播。

查询是如何工作的?

用户输入查询或自定义应用程序调用索引时,查询引擎开始处理请求。它首先将查询传递给指定语言的断字器。如果语言无法识别,则调用与语言无关的断字器。查询分解后,引擎会将信息传递给词干分析器(如果启用了词干分析),以便进一步处理。该过程分为两个步骤,可以提高查询所返回的结果的关联性和有效性。

如果查询指定了属性信息,则首先检查内容索引以找到和属性存储中的文档配对的匹配,然后再次检查查询中的属性以确保匹配。查询引擎会进行其他级别的筛选,以删除用户不具有访问权限的结果。匹配结果以列表形式返回,并按关联性进行排序。图 4 概要介绍了索引和查询的全部组件的组合方式。

图 4 MOSS 2007 企业搜索环境的体系结构

图 4** MOSS 2007 企业搜索环境的体系结构 **(单击该图像获得较大视图)

增强的管理

管理员将发现管理搜索环境变得更为容易。为最终用户和管理员提供了一组改进的常用工具,可以帮助降低由连接到平台的不同连接点所带来的复杂性。并且搜索引擎可以很好的利用 MOSS 2007 中的新式管理模型。(图 5 显示了用于修改搜索设置的主页面。)

图 5 配置搜索设置

图 5** 配置搜索设置 **(单击该图像获得较大视图)

范围也得到了改进,允许控制不同的搜索功能。可通过范围方便地在内容源中搜索,实质上是以较小的块管理索引。在 SharePoint Portal Server 2003 中,范围连接到内容源,这使其灵活性降低,管理方面的难度有所增加。在 MOSS 2007 中,范围与内容源分开,从而提供了更大程度的灵活性。可以根据 URL、类型或作者等任意内容属性来定义范围。甚至可以将多个范围结合起来,以具有多项规则,例如,特定作者编写的所有技术文档。

当然,如果管理员要改善搜索引擎的性能,最重要的就是了解索引当前的用法。管理工具箱中新添加的一个最有用的功能是查询报告。现有的查询报告功能可以快速查找有关查询量趋势、主要查询、点击率、零结果查询等信息。查询报告可以提供站点级和核心服务提供程序级的详细信息。图 6 显示了一个示例报告。可以将信息导出到 Microsoft Excel®,以做进一步的分析并透视数据。

图 6 MOSS 2007 中的查询报告

图 6** MOSS 2007 中的查询报告 **(单击该图像获得较大视图)

安全和权限

就像我之前提到的一样,查询引擎会筛选结果,这样用户只会在列表看到他们拥有访问权限的文档。(在 SharePoint Portal Server 2003 中,用户可能会看到他们没有适当权限跟随的链接。)关于安全修整,需要注意的一点是 MOSS 2007 不会对爬网进行安全修整。您无法修整网站,因为 HTTP 协议无法读回访问控制信息。另外,MOSS 2007 不允许您对“业务数据目录”或“人员搜索”做安全修整。

MOSS 2007 遵循现有的访问控制列表 (ACL),确保了索引中文档的安全。这是与其他搜索工具的一个主要区别。某些搜索引擎要求必须使用配置文件来手动设置文件权限,与之不同的是,MOSS 2007 允许您与当前权限保持同步。

索引可以迅速地在 ACL 中反映出针对单个文档的更改。例如,索引中当前存储有一张 Excel 电子表格,而文档的 ACL 进行了更改以具有限制性。管理员可以只对该文档进行重索引以及爬网,安全修整会立即执行(如有必要,文档可以从索引中彻底删除)。

另外,可以为单个文档分配唯一的权限,或者将其设置为从文档库或父目录中继承权限设置。从而可以更加简单地选择允许查看、编辑和保存文档的团体或个人。

身份验证和登录管理功能方面也有所增强。现在安全凭据缓存是可扩展的,从而使得 MOSS 有可能从第三方源和自定义代码加载项接受单一登录凭据缓存系统。另外,核心身份验证现在可以接受第三方系统。这两项增强功能构建于新的 ASP.NET 提供程序模型之上,该模型允许使用其他目录服务。

自定义

MOSS 2007 中具有许多用于修改用户界面的选项。可以使用许多已经用来修改网站的工具来自定义 UI。还提供了一些新工具,例如 Office SharePoint Designer,可利用它来建立“母页面”(提供了一种建立标记站点的简单方法)。图 7 显示了正在进行编辑的搜索结果页面。

图 7 自定义搜索结果页面的外观

图 7** 自定义搜索结果页面的外观 **(单击该图像获得较大视图)

现有的 MOSS 2007 提供了两个用于“搜索中心”界面的选项卡:所有站点和人员。您可以简单地添加其他选项卡,这些选项卡反映了用户搜索频率最高的不同类型的信息。例如,您可以为企业应用程序、数据库或者甚至于目录服务提供直接入口。甚至可以将这些选项卡与范围相互关联。这对于在特定内容上创建符合上下文的搜索选项卡来说非常方便。请注意,只支持搜索的版本不支持此搜索选项卡的自定义。

总结

如您所见,MOSS 2007 在企业搜索功能方面有非常显著的增强,可以使用户提高工作效率。有关详细信息,请参阅 Microsoft Office SharePoint Server TechCenter(英文)。

Matt Hester 是 Microsoft 跨美 (Microsoft Across America) 团队的 TechNet 演示者。若要实时观看他的演示,请访问 www.technetevents.com/mhester。若要查看他的博客,请访问 blogs.technet.com/matthewms

© 2008 Microsoft Corporation 与 CMP Media, LLC.保留所有权利;不得对全文或部分内容进行复制.