Планирование обхода контента и федерации (SharePoint Server 2010)

 

Применимо к: SharePoint Server 2010

Последнее изменение раздела: 2016-11-30

Прежде чем конечные пользователи смогут воспользоваться функциями корпоративного поиска в Microsoft SharePoint Server 2010, необходимо выполнить обход или федерацию контента, который должен быть доступен для поиска. Планирование обхода или федерации включает в себя следующие задачи.

  • Планирование источников контента

  • Планирование включения типов файлов и фильтров IFilter

  • Планирование проверки подлинности

  • Планирование соединителей

  • Планирование управления воздействием обхода на производительность

  • Планирование правил обхода контента

  • Планирование параметров поиска с управлением на уровне фермы

  • Планирование федерации

Планирование источников контента

Источник контента — это набор параметров, используемый для определения типа контента и URL-адресов, подлежащих обходу, а также уровня детализации и времени выполнения обхода. По умолчанию используется источник контента Локальные сайты SharePoint. С помощью этого источника контента можно настроить порядок обхода всего контента во всех веб-приложениях, связанных с определенным приложением-службой поиска. По умолчанию для каждого веб-приложения, использующего определенное приложение-службу поиска, SharePoint Server 2010 добавляет в источник контента по умолчанию начальный адрес сайта верхнего уровня для каждого семейства веб-сайтов.

Для некоторых организаций возможностей поиска, предоставляемых источником контента по умолчанию, достаточно. Однако многим организациям требуются дополнительные источники контента. Планировать дополнительные источники контента следует при необходимости выполнения следующих действий.

  • Обход различных типов контента, например сайтов SharePoint, общих файловых ресурсов и бизнес-данных.

  • Обход некоторых типов контента по другому расписанию, не совпадающему с расписанием для другого контента.

  • Ограничение или увеличение объема контента, обход которого требуется выполнять.

  • Установка различных приоритетов для обхода различных сайтов.

В каждом приложении-службе поиска можно создать до 500 источников контента, и в каждом источнике поиска может содержаться до 500 начальных адресов. Для максимально возможного упрощения администрирования рекомендуется ограничить количество созданных источников контента до разумного предела.

Планирование обхода различных видов контента

Каждый источник контента позволяет выполнять обход только одного вида контента. Это означает, что можно создать один источник контента, содержащий начальные адреса сайтов SharePoint, и другой источник контента, содержащий начальные адреса общих файловых ресурсов. Однако нельзя создать единый источник контента, одновременно содержащий начальные адреса сайтов SharePoint и общих файловых ресурсов. Доступные виды источников контента перечислены в следующей таблице.

Используйте этот вид источника контента Для этого контента

Сайты SharePoint

Сайты SharePoint из одной и той же фермы или различных ферм Microsoft SharePoint Server 2010, Microsoft SharePoint Foundation 2010 или Microsoft Search Server 2010

Сайты SharePoint из одной и той же фермы или различных ферм Microsoft Office SharePoint Server 2007, Windows SharePoint Services 3,0 или Microsoft Search Server 2008

Сайты SharePoint из ферм Microsoft Office SharePoint Portal Server 2003 или Windows SharePoint Services 2.0

Примечание

В отличие от обхода сайтов SharePoint с помощью SharePoint Server 2010, SharePoint Foundation 2010 или Search Server 2010 обходчик не выполняет автоматический обход всех дочерних сайтов в семействах веб-сайтов, созданных в предыдущих версиях продуктов и технологий SharePoint. Поэтому при обходе сайтов SharePoint из предыдущих версий необходимо указать начальный адрес каждого сайта верхнего уровня и URL-адрес каждого дочернего сайта, для которого требуется выполнять обход.

Веб-сайты

Другой веб-контент организации, расположенный не на сайтах SharePoint

Контент на веб-сайтах в Интернете

Общие файловые ресурсы

Контент на общих файловых ресурсах организации

Общие папки Exchange

Контент Microsoft Exchange Server

Lotus Notes

Сообщения электронной почты, хранящиеся в базах данных Lotus Notes

Примечание

В отличие от других видов источников контента источник контента Lotus Notes не отображается в интерфейсе пользователя, пока не будет установлено и настроено необходимое программное обеспечение. Дополнительные сведения см. в статье Configure and use the Lotus Notes connector (SharePoint Server 2010).

Бизнес-данные

Бизнес-данные, хранящиеся в бизнес-приложениях

Планирование источников контента для бизнес-данных

Для настройки источников контента бизнес-данных необходимо, чтобы приложения, в которых размещаются данные, были указаны в модели приложения-службы подключения к бизнес-данным. Можно создать один источник контента для обхода всех приложений, зарегистрированных в службе подключения к бизнес-данным, или отдельные источники контента для обхода отдельных приложения.

Обычно планированием интеграции бизнес-данных с семействами веб-сайтов и общим планированием контента занимаются разные люди. Поэтому рекомендуется включить администраторов бизнес-приложений в группу по планированию контента, чтобы они могли дать совет о том, как преобразовать данные из бизнес-приложений в контент и эффективно представить их в семействах веб-сайтов.

Выполнении обхода контента в соответствии с различными расписаниями

Для некоторых элементов контента может требоваться более частое выполнение обхода, чем для остального контента. Чем больше объем контента, для которого выполняется обход, тем выше вероятность того, что это будет контент из различных репозиториев контента. Это может быть контент различных типов, расположенный на серверах с различной производительностью. По этим причинам будет полезно добавить дополнительные источники контента, чтобы выполнять обход различных репозиториев контента по расписанию в различное время.

Основные причины выполнения обхода контента в различное время представлены далее.

  • Для согласования периодов простоя и периодов пиковой нагрузки.

  • Для более частого обхода контента, который чаще обновляется.

  • Для обновления контента, расположенного на более медленных серверах, отдельно от контента, расположенного на быстрых серверах.

В большинстве случаев сведения, необходимые для такого планирования, становятся известны только после развертывания и определенного периода использования SharePoint Server 2010. В таких случаях расписания обхода необходимо определить после перевода фермы в рабочий режим. Тем не менее, будет полезно рассмотреть эти факторы во время планирования и составить расписания обхода на основании имеющихся сведений.

В следующих двух разделах содержатся дополнительные сведения о выполнении обхода контента в соответствии с различными расписаниями.

Рекомендации по планирования расписаний обхода

Можно настраивать расписания обхода по отдельности для каждого источника контента. Для каждого источника контента можно указать время выполнения полного обхода и отдельное время выполнения добавочных обходов. Обратите внимание на то, что перед выполнением добавочного обхода источника контента необходимо выполнить его полный обход. Если назначить добавочный обход для контента, обход которого еще не выполнялся, система выполняет полный обход.

Примечание

При полном обходе контента независимо от предыдущих обходов просматривается весь контент, обнаруженный обходчиком, если у обходчика есть права доступа к нему хотя бы для чтения, поэтому полные обходы обычно занимают значительно больше времени, чем добавочные.

При составлении расписаний обхода рекомендуется учитывать доступность, производительность и пропускную способность для обхода и серверов запросов.

При планировании расписаний обхода контента придерживайтесь следующих рекомендаций.

  • Группируйте начальные адреса в источниках контента с одинаковым уровнем доступности и с приемлемым общим использованием ресурсов для сервера, на котором размещается контент.

  • Планируйте добавочные обходы для каждого источника контента на то время, когда серверы, на которых размещается контент, доступны и когда они работают с низким потреблением ресурсов.

  • Составляйте расписания обхода контента так, чтобы нагрузка на серверы в ферме была распределена по времени.

  • Планируйте полные обходы, только если в этом есть необходимость, по причинам, указанным в следующем разделе. Полные обходы рекомендуется выполнять реже, чем добавочные обходы.

  • Планируйте внесение административных изменений, требующих полного обхода, непосредственно перед запланированными полными обходами. Например, рекомендуется запланировать создание правила обхода перед следующим запланированным полным обходом, чтобы не потребовалось выполнять дополнительный полный обход.

  • Количество параллельных обходов контента должно определяться в зависимости от доступных ресурсов. Для максимальной производительности рекомендуется составить расписание обхода источников контента. Когда будет известна типичная продолжительность обхода каждого источника контента, можно оптимизировать это расписание.

Причины для выполнения полного обхода

У администратора приложения-службы поиска могут быть следующие причины для выполнения полного обхода.

  • На серверах в ферме было установлено обновление программного обеспечения или пакет обновления. Дополнительные сведения см. в инструкциях по установке обновления программного обеспечения или пакета обновления.

  • Администратор общей службы Microsoft Office SharePoint Server 2007 или администратор приложения-службы поиска SharePoint Server 2010 добавил новое управляемое свойство. Для того чтобы новое управляемое свойство немедленно вступило в силу, требуется полный обход. Если немедленное вступление в силу не требуется, можно не выполнять полный обход.

  • Требуется повторное индексирование страниц ASPX на сайтах Windows SharePoint Services 3,0 или Microsoft Office SharePoint Server 2007.

    Примечание

    Обходчик не может обнаружить изменения страниц ASPX на сайтах Windows SharePoint Services 3,0 или Office SharePoint Server 2007. По этой причине при добавочном обходе не выполняется повторное индексирование представлений и домашних страниц, когда удаляются отдельные элементы списков. Рекомендуется периодически выполнять полный обход сайтов, содержащих файлы ASPX, чтобы обеспечить повторное индексирование этих страниц.

  • Требуется исправить повторяющиеся сбои добавочных обходов. Если во время добавочного обхода сбой возникает сто раз подряд на любом уровне иерархии репозитория, система удаляет из индекса контент, на котором возникает сбой.

  • Добавлены, удалены или изменены правила обхода.

  • Требуется восстановить поврежденный индекс.

  • Администратор приложения-службы поиска создал одно или несколько сопоставлений имен серверов.

  • Изменены учетные данные учетной записи пользователя, которая назначена по умолчанию для доступа к контенту, или изменено правило обхода.

В следующих обстоятельствах система выполняет полный обход, даже если запрошен добавочный обход.

  • Предыдущий обход был остановлен администратором поиска.

  • База данных контента была восстановлена, или администратор фермы отключил и повторно подключил базу данных контента.

    Примечание

    При использовании Office SharePoint Server 2007 вместе с Обновление инфраструктуры Microsoft Office Servers или SharePoint Server 2010 в программе командной строки Stsadm можно отключить или включить принудительное выполнение полного обхода после восстановления базы данных контента.

  • В этом приложении-службе поиска еще ни разу не выполнялся полный обход данного сайта.

  • В журнале изменений нет записей для адресов, просматриваемых во время обхода. При отсутствии таких записей выполнение добавочного обхода невозможно.

Можно скорректировать расписания после первоначального развертывания в зависимости от производительности серверов в ферме и серверов, на которых размещен контент.

Ограничение или увеличение объема контента, для которого выполняется обход

Для каждого источника контента можно определить, какие области будут просматриваться при обходе начальных адресов. С помощью параметров обхода можно определить поведение обходчика. Доступный набор параметров для каждого источника контента зависит от типа этого источника контента. Однако большинство параметров обхода определяют глубину, то есть число уровней иерархии, которые просматриваются при обходе начального адреса. Обратите внимание на то, что это поведение применяется ко всем начальным адресам каждого отдельного источника контента. Если необходимо выполнять обход некоторых сайтов на более глубоких уровнях, можно создать дополнительные источники контента и добавить в них эти сайты.

Можно ограничить или увеличить объем контента, просматриваемого при обходе, с помощью параметров обхода. Эти параметры доступны в свойствах каждого источника контента и различаются в зависимости от типа контента. В следующей таблице приводятся рекомендации по настройке параметров обхода.

Для этого вида источника контента При таких условиях Используйте этот параметр обхода

Сайты SharePoint

Требуется выполнять обход контента на самом сайте, но не на дочерних сайтах, либо требуется выполнять обход контента на дочерних сайтах в другое время по расписанию.

Выполнять обход контента только сайта SharePoint каждого начального адреса

Сайты SharePoint

Требуется выполнять обход контента на самом сайте.

-или-

Обход всего контента для начального адреса требуется выполнять в одно и то же время по расписанию.

Выполнять обход всего контента узла для каждого начального адреса

Веб-сайты

Контент, доступный на связанных сайтах, вероятнее всего, не будет релевантным.

Выполнять обход контента только в пределах сервера каждого начального адреса

Веб-сайты

Релевантный контент находится только на первой странице.

Выполнять обход контента только первой страницы каждого начального адреса

Веб-сайты

Требуется ограничить уровень детализации при обходе ссылок для начальных адресов.

Настраиваемая — укажите глубину страниц и число переходов между серверами при обходе

Примечание

Для сайтов с большим количеством ссылок рекомендуется начать с небольшого числа, поскольку в случае определения более трех страниц в глубину или более трех переходов между серверами зона обхода может распространиться на весь Интернет.

Общие файловые ресурсы

Общие папки Exchange

Контент, доступный во вложенных папках, вероятнее всего, не будет релевантным.

Только папка каждого начального адреса

Общие файловые ресурсы

Общие папки Exchange

Контент во вложенных папках, вероятнее всего, будет релевантным.

Папка и все подпапки каждого начального адреса

Бизнес-данные

Все приложения, зарегистрированные в хранилище метаданных модели подключения к бизнес-данным, содержат релевантный контент.

Выполнять обход всего хранилища метаданных модели подключения к бизнес-данным

Бизнес-данные

Не все приложения, зарегистрированные в хранилище метаданных модели подключения к бизнес-данным, содержат релевантный контент.

-или-

Обход некоторых приложений требуется выполнять в другое время по расписанию.

Выполнять обход контента выбранных приложений

Другие рекомендации по планированию источников контента

В одном и том же приложении-службе поиска невозможно выполнять обход одних и тех же начальных адресов с использованием нескольких источников контента. Другими словами, если определенный источник контента используется для обхода семейства веб-сайтов и всех его дочерних сайтов, нельзя использовать другой источник контента для дополнительного обхода одного из этих дочерних сайтов в другое время по расписанию.

Так же, как и при составлении расписаний обходов, во время принятия решения о группировке начальных адресов в один источник контента или о создании дополнительных источников контента должны учитываться факторы, связанные с администрированием. Администраторы часто вносят изменения, вызывающие обновление источника контента. После изменения источника контента необходимо выполнять полный обход репозитория контента,указанного в этом источнике контента. Для упрощения задач администрирования упорядочивайте источники контента таким образом, чтобы администраторам было максимально удобно обновлять источники контента, правила обхода и расписания обхода.

Планирование включения типов файлов и фильтров IFilter

Обход контента выполняется только в том случае, если соответствующее расширение имени файла внесено в список включенных типов файлов и на сервере обхода установлен фильтр IFilter, поддерживающий эти типы файлов. Несколько типов файлов и фильтров IFilter по умолчанию добавляются при первоначальной установке. Во время планирования источников контента на этапе первоначального развертывания определите, не потребуется ли выполнять обход для типов файлов, которые не включены по умолчанию. Если потребуется, необходимо добавить эти типы файлов на странице "Управление типами файлов" во время развертывания и убедиться в том, что фильтр IFilter установлен и поддерживает эти типы файлов.

Если необходимо исключить из обхода некоторые типы файлов, можно удалить расширения имен файлов для соответствующих типов из списка включенных типов файлов. В результате файлы с такими расширениями не будут просматриваться во время обхода. Список типов файлов и фильтров IFilter, установленных по умолчанию, см. в статье File types and IFilters reference (SharePoint Server 2010).

Планирование проверки подлинности

Когда обходчик получает доступ к начальным адресам, перечисленным в источниках контента, он должен пройти проверку подлинности на серверах, где размещается контент, и получить права на доступ к этим серверам. Это означает, что учетной записи домена, используемой обходчиком, должны быть предоставлены хотя бы права на чтение этого контента.

Изначально система использует учетную запись для доступа к контенту по умолчанию. Но можно также с помощью правил обхода указать другую учетную запись для доступа к контенту и использовать ее при обходе определенного контента. Независимо от того, какая учетная запись для доступа к контенту используется (установленная по умолчанию или указанная в правиле обхода), у нее должны быть разрешения на чтение всего контента, который просматривается во время обхода. Если учетная запись для доступа к контенту не имеет разрешений на чтение, обход контента не выполняется, контент не индексируется и поэтому не может предоставляться по запросу.

Рекомендуется предоставить учетной записи, назначенной для доступа к контенту по умолчанию, права доступа к большей части контента, обход которого необходимо выполнять. Используйте другие учетные записи для доступа к контенту, только если это требуется из соображений безопасности.

Для каждого планируемого источника контента определите начальные адреса, которые будут недоступны учетной записи для доступа к контенту по умолчанию, а затем запланируйте добавление правил обхода для этих начальных адресов.

Важно!

Убедитесь, что учетная запись домена, используемая в качестве учетной записи для доступа к контенту по умолчанию или любой другой учетной записи для доступа к контенту, отличается о той учетной записи домена, которая используется пулом приложений, связанным с каким-либо веб-приложением, для которого выполняется обход. Иначе обходчик будет просматривать и индексировать неопубликованный контент и вспомогательные версии файлов (то есть журналы) на сайтах SharePoint.

Следует также учесть, что обходчик должен использовать тот же протокол проверки подлинности, что и сервер. По умолчанию проверка подлинности обходчика выполняется по протоколу NTLM. При необходимости можно настроить для обходчика другой протокол проверки подлинности.

Если используется проверка подлинности на основе утверждений, убедитесь, что проверка подлинности Windows включена во всех веб-приложениях, для которых выполняется обход.

Планирование соединителей

Для доступа к любому контенту, для которого выполняется обход, необходимо использовать соединитель (в предыдущих версиях он назывался обработчиком протокола). SharePoint Server 2010 предоставляет соединители для всех распространенных протоколов Интернета. Однако, если требуется выполнять обход контента, для которого необходим соединитель, не установленный в SharePoint Server 2010, следует установить соединитель стороннего поставщика или пользовательский соединитель. Список соединителей, установленный по умолчанию, см. в статье Default connectors (SharePoint Server 2010). Дополнительные сведения об установке соединителей см. в статье Установка соединителей (SharePoint Server 2010).

Планирование управления воздействием обхода на производительность

Выполнение обхода контента может значительно снизить производительность серверов, на которых размещается этот контент. Воздействие на каждый отдельный сервер зависит от текущей загрузки этого сервера и наличия свободных ресурсов (особенно ЦП и ОЗУ) для обеспечения соответствия соглашениям об уровне обслуживания в периоды обычной и пиковой загрузки.

Администраторы поиска могут управлять воздействием обходчика на серверы, для которых выполняется обход, с помощью правил воздействия обходчика. В каждом правиле воздействия обходчика можно указать один URL-адрес или ввести путь URL с подстановочными знаками для включения блока URL-адресов, к которым применяется это правило. Затем можно указать допустимое количество одновременных запросов страниц для заданных URL-адресов или разрешить запросы по одному документу с интервалом в несколько секунд между запросами.

В правилах воздействия обходчика можно указать, с какой частотой обходчик будет запрашивать контент из определенных начальных адресов или из диапазона начальных адресов (то есть из имени сайта). Правило воздействия обходчика применяется ко всем источникам контента в приложении-службе поиска, а частоту запросов можно применять отдельно для каждого компонента обхода. В следующей таблице представлены подстановочные знаки, которые можно использовать в имени сайта при добавлении или изменении правила воздействия обходчика.

Этот подстановочный знак Приводит к этому результату

* вместо имени сайта

Правило применяется ко всем сайтам.

*.* вместо имени сайта

Правило применяется к сайтам, в именах которых используются точки.

*.имя_сайта.com вместо имени сайта

Правило применяется ко всем сайтам в домене имя_сайта.com (например, *.adventure-works.com).

*.имя_домена_верхнего_уровня вместо имени сайта

Правило применяется ко всем сайтам, имена которых заканчиваются определенным именем домена верхнего уровня, например *.com или *.net.

?

Этот символ заменяет один знак в правиле. Например, *.adventure-works?.com применяется ко всем сайтам в доменах adventure-works1.com, adventure-works2.com и т. д.

Можно создать правило воздействия обходчика, применяемое ко всем сайтам в определенном домене верхнего уровня. Например, *.com применяется ко всем интернет-сайтам с адресами, заканчивающимися на ".com". Предположим, администратор сайта портала добавил источник контента для сайта samples.microsoft.com. Правило для *.com будет применяться к этому сайту, если не будет добавлено специальное правило воздействия обходчика для сайта samples.microsoft.com.

Можно координировать действия с администраторами поисковых систем, выполняющих обход контента в вашей организации, для настройки правил воздействия обходчика в соответствии с производительностью сервера. Для большинства внешних сайтов такая координация невозможна. Если в процессе обхода внешних серверов запрашивается слишком большой объем контента или запросы выполняются слишком часто, то есть потребляется слишком много ресурсов, администраторы этих сайтов могут ограничить доступ. При первоначальном развертывании настройте правила воздействия обходчика так, чтобы на другие серверы по возможности оказывалось минимальное воздействие, но обеспечивался обход достаточного объема контента с необходимой частотой, чтобы поддерживать актуальность индекса в соответствии с соглашением об уровне обслуживания. После перевода фермы в рабочий режим можно скорректировать правила воздействия обходчика на основании данных из журналов обхода.

Планирование правил обхода контента

Правила обхода применяются ко всем источникам контента в приложении-службе поиска. Применяя правила обхода к определенному URL-адресу или набору URL-адресов, можно выполнять следующие задачи.

  • Исключать из обхода нерелевантный контент путем исключения одного или нескольких URL-адресов. Это помогает снизить потребление ресурсов сервера и сетевого трафика, а также повысить релевантность результатов поиска.

  • Выполнять обход по ссылкам на странице, представленной URL-адресом, а не обход самого URL-адреса. Это может быть полезно для сайтов, содержащих ссылки на релевантный контент, тогда как сами страницы с этими ссылками не содержат важной информации.

  • Включать в обход сложные URL-адреса. Это позволяет системе выполнять обход URL-адресов, содержащих параметр запроса, указанный с помощью вопросительного знака. В зависимости от сайта такие URL-адреса могут содержать или не содержать релевантный контент. Поскольку сложные URL-адреса часто перенаправляют программу-обходчик на сайты с нерелевантным содержимым, рекомендуется включать эту возможность только для известных сайтов, на которых сложные URL-адреса представляют релевантный контент.

  • Выполнять обход контента на сайтах SharePoint так же, как на HTTP-страницах. Это позволяет системе выполнять обход сайтов SharePoint, находящихся по ту сторону брандмауэра, или в сценариях, когда сайт, для которого выполняется обход, ограничивает доступ к веб-службе, используемой обходчиком.

  • Настраивать использование учетной записи для доступа к контенту по умолчанию, другой учетной записи для доступа к контенту или сертификата клиента для обхода определенного URL-адреса.

Поскольку при обходе контента потребляются ресурсы и пропускная способность, включение меньшего объема контента, заведомо содержащего релевантную информацию, лучше, чем включение большего объема данных, которые могут оказаться нерелевантными. После первоначального развертывания можно проверить журналы запросов и обхода и скорректировать источники контента и правила обхода, чтобы включить в обход как можно больше релевантного контента.

Планирование параметров поиска с управлением на уровне фермы

На выполнение обхода контента влияют некоторые параметры, управление которыми осуществляется на уровне фермы. При планировании обхода необходимо учитывать следующие параметры поиска на уровне фермы.

  • Контактный адрес эл. почты. Обход контента влияет на ресурсы серверов, на которых он выполняется. Прежде чем начать обход контента, необходимо предоставить в параметрах конфигурации адрес электронной почты контактного лица вашей организации, к которому могут обратиться администраторы в случае существенного воздействия обхода на производительность их серверов. Этот адрес электронной почты отображается в журналах администраторов серверов, обход которых выполняется, чтобы эти администраторы могли связаться с кем-либо из данной организации, если из-за обхода существенно ухудшится производительность и пропускная способность или возникнут другие проблемы.

    Человек, которому принадлежит указанный контактный адрес электронной почты, должен иметь необходимый опыт и возможность оперативного ответа на запросы. Иначе в качестве контактного адреса электронной почты можно использовать часто отслеживаемый псевдоним списка рассылки. Важно обеспечить быстрый ответ на запросы независимо от того, где выполняется обход контента — в самой организации или на внешних серверах.

  • Параметры прокси-сервера. Можно выполнять обход контента с использованием прокси-сервера или без него. Выбор прокси-сервера зависит от топологии развертывания SharePoint Server 2010 и архитектуры других серверов организации. Использовать прокси сервер, скорее всего, потребуется при обходе контента в Интернете. Дополнительные сведения о настройке параметров прокси-сервера для поиска см. в статьях Configure farm-level proxy server settings (SharePoint Server 2010) и Configure proxy server settings for search (SharePoint Server 2010).

  • Параметры времени ожидания. Параметры времени ожидания используются для ограничения времени ожидания системы поиска перед подключением к другим службам.

  • Параметр SSL. Параметр протокола SSL определяет, требуется ли для выполнения обхода контента точное соответствие сертификата SSL.

Планирование федерации

При федеративном поиске для создания одной страницы результатов поиска для конечных пользователей выполняются параллельные запросы к большому числу веб-ресурсов или баз данных. При добавлении федеративного расположения конечные пользователи могут искать и извлекать контент, который не просматривался при обходе локальных серверных систем. Федеративные расположения позволяют отправлять запросы в удаленные поисковые системы и на веб-каналы. Если обход выполняется в том числе и для федеративного контента, система аналогичным образом обрабатывает эти результаты и представляет их конечным пользователям.

SharePoint Server 2010 поддерживает следующие типы федеративных расположений.

  • Индекс поиска на данном сервере. В качестве федеративного расположения можно использовать любой локальный или удаленный сайт организации с сервером, на котором выполняется SharePoint Server 2010. Например, предположим, что единственным доступным источником контактных данных о сотрудниках компании является сайт SharePoint на сервере отдела кадров. Даже если этот сайт не включен в обход, можно настроить для него федеративное расположение, чтобы пользователи, запускающие поиск на сайте центра поиска, могли получить результаты с контактными данными о сотрудниках, которые им разрешено просматривать. Применяются следующие условия.

    1. Установлено расположение Индекс поиска на этом сервере.

    2. Шаблон запросов не требуется. Для отправки запросов в расположение SharePoint Server 2010 использует объектную модель.

    3. На серверах используется проверка подлинности по умолчанию.

    4. Запросы расширенного поиска не поддерживаются.

  • OpenSearch 1.0 или 1.1. Можно использовать любой общедоступный веб-сайт, поддерживающий стандарт OpenSearch и работу в качестве федеративного расположения. Примером такого расположения может служить поисковая система в Интернете, такая как Bing, или страница результатов поиска, поддерживающая протоколы RSS или Atom. Предположим, необходимо, чтобы пользователи, выполняющие поиск конфиденциальных технических данных на внутренних сайтах, могли также видеть в результатах технические сведения по этой теме с общедоступных веб-сайтов. Если настроить федеративное расположение для поискового запроса Bing, результаты веб-поиска будут автоматически отображаться для этих пользователей. Применяются следующие условия.

    1. Запросы можно отправлять в поисковую систему в виде URL-адресов, например http://www.example.com/search.aspx?q=TEST.

    2. Результаты поиска возвращаются в формате RSS, Atom или в другом структурированном формате XML.

    3. Возможности расположения, шаблоны запросов и элементы ответов являются частью файла описания OpenSearch (файл OSDX), связанного с расположением.

    4. Расширения стандарта OpenSearch для SharePoint Server 2010 позволяют включать триггеры и связывать с результатами поиска XSL-код.

    5. Выбор метаданных, отображаемых в результатах поиска, определяется расположением OpenSearch.

    Дополнительные сведения о стандарте OpenSearch см. по адресу https://www.opensearch.org/home.

Поисковый запрос отправляется в федеративное расположение в виде URL-параметров в формате, который называется шаблоном запросов. Затем система форматирует и отображает результаты в формате XML для пользователей сайта центра поиска. XML-данные отображаются в веб-части на странице результатов поиска как читаемый текст. Можно добавлять и настраивать веб-части на странице результатов поиска, включая веб-части результатов федеративного поиска, веб-части первых федеративных результатов и веб-части основных результатов. По умолчанию на странице результатов поиска содержатся три веб-части результатов федеративного поиска.

Принимая решение о том, следует ли отображать для пользователей результаты федеративного поиска, рассмотрите следующие вопросы.

  1. Потребуется ли отображать настраиваемые результаты для определенных поисковых запросов? Для того чтобы из федеративного расположения возвращались только результаты, соответствующие определенным запросам, можно настроить это с помощью правил триггера. При создании правила триггера для федеративного расположения в веб-части, связанной с этим расположением, отображаются результаты только для пользовательских запросов, соответствующих указанному шаблону или префиксу.

  2. Можно ли определить требуемые результаты запроса с помощью URL-адреса? Для создания федеративного расположения необходимо определить шаблон запросов, состоящий из URL-адреса и параметров, используемых для отправки поискового запроса и возвращения результатов в формате XML. При добавлении этих сведений в поле Шаблон запросов на странице "Добавить федеративное расположение" следует правильно отформатировать строку (как показано в примере на странице "Добавить федеративное расположение"), иначе поставщик результатов поиска не предоставит результаты.

  3. Можно ли получить доступ к ссылкам, предоставленным в федеративном расположении? Если доступ к ресурсам Интернета в организации ограничен, использование поисковой системы Интернета в качестве федеративного расположения будет создавать неудобства для пользователей, поскольку они не смогут просмотреть некоторые результаты поиска.

  4. Требуется ли проверка подлинности? Если для доступа к федеративному расположению требуется проверка подлинности, необходимо предоставить правильные учетные данные. Однако для многих федеративных расположений, таких как поисковые системы Интернета, учетные данные не требуются.

Планирование типов проверки подлинности для федерации

Для федеративного поиска можно использовать различные виды проверки пользователей, в том числе с индивидуальными и общими учетными данными. Следует отметить, что для сбора учетных данных при индивидуальной проверке подлинности требуется расширение веб-части не для проверки подлинности Kerberos. Тип проверки подлинности для федеративного расположения указывается в определении расположения в разделе сведений о проверке подлинности и учетных данных. Можно использовать один из следующих типов проверки подлинности.

  • Анонимная

    Для подключения к федеративному расположению учетные данные не требуются.

  • Общая

    Для каждого подключения к федеративному расположению используется один и тот же набор учетных данных.

  • Индивидуальная

    Для подключения к федеративному расположению используются учетные данные пользователя, который отправил поисковый запрос.

При использовании общей или индивидуальной проверки подлинности необходимо указать один из следующих протоколов проверки подлинности.

  • Обычная

    Обычная проверка подлинности является частью спецификации HTTP и поддерживается в большинстве браузеров.

    Заметка о безопасностиSecurity Note
    Веб-браузеры, использующие обычную проверку подлинности, передают пароли в незашифрованном виде. При наличии общедоступных средств мониторинга сетевого обмена данными потенциальный злоумышленник может перехватить и раскодировать эти пароли. Поэтому обычная проверка подлинности может подойти только в том случае, если используется надежное безопасное подключение, например по выделенной линии или по протоколу SSL.
  • Дайджест-проверка

    Дайджест-проверка подлинности основана на протоколе HTTP 1.1 и соответствует спецификациям стандарта RFC 2617, доступного на веб-сайте консорциума W3C. Поскольку для использования дайджест-проверки подлинности требуется соответствие протоколу HTTP 1.1, ее поддерживают не все браузеры. Когда браузер, не поддерживающий протокол HTTP 1.1, запрашивает файл при включении дайджест-проверки подлинности, этот запрос отклоняется, поскольку дайджест-проверка подлинности не поддерживается клиентом. Дайджест-проверку подлинности можно использовать только в доменах Windows. При этом поддерживаются только учетные записи доменов Windows Server 2008, Windows Server 2003 и Microsoft Windows 2000 Server, и может потребоваться, чтобы пароли хранились в учетных записях в зашифрованном виде.

  • NTLM

    Записи пользователей хранятся в базе данных диспетчера защищенных учетных записей (SAM) или в базе данных Active Directory. Каждой учетной записи назначены два пароля: пароль, совместимый с LAN Manager, и пароль Windows. Каждый пароль хранится в зашифрованном виде в базе данных SAM или в базе данных Active Directory.

  • Kerberos (только индивидуальная проверка подлинности)

    С помощью протокола Kerberos один участник сетевого подключения может выяснить, действительно ли другой участник сетевого подключения является тем, за кого он себя выдает. Несмотря на то, что NTLM позволяет серверам проверять удостоверения своих клиентов, клиенты не могут проверить удостоверение сервера, и один сервер не может проверить удостоверение другого сервера. Проверка подлинности NTLM предназначена для сетевой среды, в которой все серверы предположительно являются надежными.

  • На основе форм

    При проверке подлинности на основе форм могут использоваться куки-файлы, то есть контейнеры для билета проверки подлинности. Билет передается в каждом запросе как значение куки-файла и используется на сервере для идентификации пользователя, прошедшего проверку подлинности. Если проверка подлинности на основе форм выполняется без использования куки-файла, билет передается в URL-адресе в зашифрованном формате. Проверка подлинности на основе форм без куки-файлов применяется по причине того, что браузеры клиентов могут блокировать куки-файлы. Эта возможность впервые появилась в Microsoft .NET Framework 2.0.

Если в среде организации используется проверка подлинности на основе утверждений, для источников контента, которые будут просматриваться при обходе, необходимо также включить проверку подлинности Windows. Дополнительные сведения о методах проверки подлинности в SharePoint Server 2010 см. в статье Планирование способов проверки подлинности (SharePoint Server 2010).

See Also

Concepts

Сбор сведений о текущей среде поиска (SharePoint Server 2010)
Определение участников группы поиска в корпоративной среде и заинтересованных лиц (SharePoint Server 2010)