Планирование обхода контента и федерации в SharePoint Server

 

**Применимо к:**SharePoint Server 2013, SharePoint Server 2016

**Последнее изменение раздела:**2017-07-24

Сводка. Сведения о том, как для поиска в SharePoint Server 2016 и SharePoint Server 2013 планировать обход контента или включение в федерацию.

Прежде чем выполнять поиск в SharePoint Server, необходимо выполнить обход контента или включить его в федерацию для выполнения поисковых запросов. При выполнении обхода контента служба поиска создает индекс для выполнения запросов (запросов поиска). Также вы можете настроить систему поиска для отображения результатов от внешнего поставщика (например, Bing) наряду с результатами из индекса локального поиска. Процесс получения результатов поиска от внешнего провайдера и их локального отображения называется федерацией.

В этой статье

  • Планирование источников контента

    • Планирование обхода различных типов контента

    • Обход контента в соответствии с различными расписаниями

    • Основания для выполнения полного обхода контента

    • Ограничение или увеличение объема контента, для которого выполняется обход

    • Планирование соединителей

    • Планирование правил обхода для оптимизации обходов контента

    • Планирование проверки подлинности программы-обходчика

  • Планирование обработки контента

    • Включение и исключение типов файлов

    • Планирование использования (настраиваемых) средств извлечения объектов

  • Сведения об источниках результатов и федерации

Планирование источников контента

Источник контента определяется группой параметров обхода, например, узлов, для которых необходимо выполнить обход, типа контента, для которого будет выполняться обход (например, контента SharePoint или общих файловых ресурсов), расписания обхода и его глубины.

При создании приложения службы поиска оно автоматически предоставляет предварительно настроенные Локальные сайты SharePoint источника контента. С помощью этого источника контента вы можете настроить порядок обхода всего контента SharePoint в веб-приложениях, связанных с определенным приложением службы поиска.

При наличии только одного типа контента (например, весь контент относится к типу сайтов SharePoint или общим файловым ресурсам) необходимо определить только один источник контента. Но при наличии нескольких различных типов контента или уникальных требований для узла может потребоваться определить несколько источников контента. Планируйте создание дополнительных источников контента, если необходимо выполнить следующие действия.

  • Обход различных типов контента, например общих файловых ресурсов и данных в бизнес-приложениях.

  • Обход некоторых типов контента по расписанию, не совпадающему с расписанием для другого контента.

  • Ограничение или увеличение объема контента, для которого выполняется обход

  • Установка различных приоритетов для обхода различных сайтов

  • Более частое обновление определенных типов контента

Можно создать большое количество источников контента в каждом приложении службы поиска, но с каждым источником содержимого связаны определенные затраты. Поэтому мы рекомендуем создать наименьшее количество источников контента, которые соответствуют другим рабочим требованиям, например различиям в приоритете обходов контента и их планировании. Каждый источник контента может содержать до 100 начальных адресов.

Планирование обхода различных типов контента

Каждый источник контента позволяет выполнять обход только одного вида контента. Это означает, что можно создать один источник контента, содержащий начальные адреса сайтов SharePoint, и другой источник контента, содержащий начальные адреса общих файловых ресурсов. Однако нельзя создать единый источник контента, одновременно содержащий, например, начальные адреса сайтов SharePoint и общие файловые ресурсы. Источники контента с возможностью настройки перечислены в следующей таблице.

Используйте этот вид источника контента Для этого контента

Сайты SharePoint

Сайты SharePoint из одной и той же фермы или различных ферм SharePoint Server.

Сайты SharePoint из одной и той же фермы или различных ферм SharePoint Server 2013, SharePoint Server 2010, SharePoint Foundation 2010 или Microsoft Search Server 2010.

Сайты SharePoint из одной и той же фермы или различных ферм Office SharePoint Server 2007, Windows SharePoint Services 3.0 или Search Server 2008.

Веб-сайты

Другой веб-контент организации, расположенный не на сайтах SharePoint.

Контент на веб-сайтах в Интернете

Общие файловые ресурсы

Контент организации на общих файловых ресурсах.

Заметка о безопасностиSecurity
При выполнении службой поиска обхода файлового ресурса общего доступа, если разрешения на файл в этом ресурсе отличаются от разрешений на папки с ним, то разрешения на файл получают преимущества и используются для фильтрации по ролям безопасности относительно результатов поиска. Таким образом, чтобы отобразить в результатах поиска только соответствующие элементы, убедитесь в наличии соответствующих разрешений на файлы в общих файловых ресурсах. В случаях отсутствия этих разрешений вы можете удалить определенные элементы из индекса поиска или результатов поиска. Дополнительные сведения см. в разделе Delete items from the search index or from search results in SharePoint Server.

Общие папки Exchange

Общие папки Exchange 2007 и Exchange Server 2010.

Lotus Notes

Сообщения электронной почты, хранящиеся в базах данных Lotus Notes.

Примечание

В отличие от других видов источников контента, источник контента Lotus Notes не отображается в пользовательском интерфейсе, пока не будет установлено и настроено необходимое программное обеспечение. Дополнительные сведения см. в статье Configure and use the Lotus Notes connector for SharePoint Server (относится также к SharePoint Server).

Documentum

Контент в системе EMC Documentum.

Примечание

Обход контента EMC Documentum невозможен до тех пор, пока вы не установили и не настроили соответствующее обязательное программное обеспечение и соединитель индексирования Microsoft SharePoint 2016 для соединительного модуля Documentum. Дополнительные сведения см. в статье Configure and use the Documentum connector in SharePoint Server (относится также к SharePoint Server).

Бизнес-данные

Бизнес-данные, хранящиеся в бизнес-приложениях.

Настраиваемый репозиторий

Источники контента, обход которых выполняется только после установки и регистрации настраиваемого соединителя.

Источники контента для бизнес-данных

Источники контента бизнес-данных требуют указания приложений, где размещаются эти данные, в модели приложения в приложении службы подключения к бизнес-данным. Вы можете создать один источник контента для обхода всех приложений, зарегистрированных в службе подключения к бизнес-данным, либо отдельные источники контента для обхода отдельных приложений. Дополнительные сведения см. в статье Инфраструктура компонентов поиска в SharePoint 2013 (эта статья MSDN также относится к SharePoint Server).

Часто люди, планирующие интеграцию бизнес-данных в семейства веб-сайтов, не связаны с планированием общего использования контента. Поэтому следует включить администраторов бизнес-приложений в группы по планированию контента, чтобы они могли давать советы относительно интеграции данных бизнес-приложений в контент и эффективного представления этих данных в семействах сайтов.

Обход контента в соответствии с различными расписаниями

Рекомендуется определить источники контента с различными расписаниями по следующим причинам:

  • согласование периодов простоя и периодов пиковой нагрузки;

  • более частое выполнение обхода контента, который чаще обновляется;

  • обход контента, расположенного на более медленных серверах, отдельно от контента, расположенного на быстрых серверах;

  • постоянный обход источника контента SharePoint из-за высокой потребности в актуализации. Подробнее см. в статье Manage continuous crawls in SharePoint Server.

Основания для выполнения полного обхода контента

К основаниям, по которым администратор приложения службы поиска может выполнить полный обход контента, относятся следующие.

  • Приложение службы поиска было только что создано, а обход предварительно настроенных Локальных сайтов SharePoint еще не выполнен.

  • Иной источник контента является новым, а его обход еще не выполнен.

  • Администратор приложения службы поиска изменил источник контента.

  • На серверах в ферме были установлены обновление программного обеспечения или пакет обновления. Дополнительные сведения см. в инструкциях к этому обновлению программного обеспечения или пакету обновления.

  • Администратор приложения службы поиска или администратор семейства сайтов добавил или изменил управляемое свойство. Полный обход контента требуется для того, чтобы это новое или измененное управляемое свойство вступило в силу.

  • Вы хотите определить, какие изменения были внесены в систему безопасности для локальных групп в файловом ресурсе после его полного обхода.

  • Вы хотите устранить постоянные ошибки добавочных обходов. Если происходит много последовательных сбоев таких обходов для любого определенного типа контента, система удаляет соответствующий контент из индекса поиска.

  • Были добавлены, удалены или изменены правила обхода.

  • Вы хотите заменить поврежденный индекс поиска.

  • Изменились разрешения для учетной записи пользователя, назначенной для доступа к контенту по умолчанию.

В следующих ситуациях система выполняет полный обход контента даже при наличии запланированного добавочного обхода или непрерывного обхода:

  • Администратор поиска остановил предыдущий обход контента.

  • Была восстановлена база данных контента или администратор фермы отключил или подключил базу данных контента.

  • Из этого приложения службы поиска никогда не выполнялся полный обход источника контента.

  • База данных обхода контента не содержит записи для адресов, для которых выполняется обход контента. Без таких записей выполнение добавочных обходов невозможно.

Ограничение или увеличение объема контента, для которого выполняется обход

Параметры, доступные в свойствах каждого источника контента, разнятся в зависимости от типа источника. Можно ограничить или увеличить объем контента, просматриваемого при обходе, с помощью параметров обхода. Для каждого источника контента можно определить, какие области будут просматриваться при обходе начальных адресов. Большинство типов источников контента позволяют указать число уровней иерархии, которые просматриваются при обходе начального адреса. Это поведение применяется ко всем начальным адресам каждого отдельного источника контента. Если необходимо выполнять обход контента некоторых сайтов на более глубоких уровнях, можно создать дополнительные источники контента и добавить в них эти сайты. В следующей таблице приводятся рекомендации по настройке параметров обхода контента.

Для этого вида источника контента При таких условиях Используйте этот параметр обхода контента

Сайты SharePoint

Требуется выполнять обход контента на самом сайте, но не на дочерних сайтах, либо требуется выполнять обход контента на дочерних сайтах в другое время по расписанию.

Выполнять обход контента только сайта SharePoint каждого начального адреса.

Сайты SharePoint

Требуется выполнять обход контента на самом сайте.

-или-

Требуется выполнять обход всего контента для начального адреса в одно и то же время по расписанию.

Выполнять обход всего контента узла для каждого начального адреса.

Веб-сайты

Контент, доступный на связанных сайтах вряд ли будет релевантным.

Выполнять обход контента только в пределах сервера каждого начального адреса.

Веб-сайты

Релевантный контент находится только на первой странице.

Выполнять обход контента только первой страницы каждого начального адреса

Веб-сайты

Требуется ограничить уровень детализации при обходе ссылок для начальных адресов.

Настраивается — укажите глубину страниц и число переходов между серверами при обходе контента.

Примечание

Для сайтов с большим количеством ссылок мы рекомендуем начать с небольшого числа, поскольку в случае определения более трех страниц в глубину или более трех переходов между серверами зона обхода контента может распространиться на весь Интернет.

Общие файловые ресурсы

Общие папки Exchange

Контент, доступный во вложенных папках, вряд ли будет релевантным.

Обход контента только папки каждого начального адреса.

Общие файловые ресурсы

Общие папки Exchange

Контент во вложенных папках, вероятнее всего, будет релевантным.

Обход контента в папке и всех вложенных папках каждого начального адреса.

Бизнес-данные

Все приложения, зарегистрированные в хранилище метаданных каталога бизнес-данных, содержат релевантный контент.

Обход всего хранилища метаданных каталога бизнес-данных.

Бизнес-данные

Не все приложения, зарегистрированные в хранилище метаданных каталога бизнес-данных, содержат релевантный контент.

-или-

Требуется выполнять обход некоторых приложений в другое время по расписанию.

Выполнять обход контента выбранных приложений.

Планирование соединителей

Программа-обходчик использует соединители (в более ранних версиях SharePoint Server — обработчик протокола) для получения и индексации контента. SharePoint Server предоставляет и автоматически использует соответствующие соединители для наиболее распространенных протоколов. Если требуется выполнять обход контента, для которого необходим соединитель, не предоставляемый по умолчанию, необходимо сначала установить соединитель стороннего поставщика или создать пользовательский соединитель. Список соединителей, установленных по умолчанию, см. в статье Default connectors in SharePoint Server (относится также к SharePoint Server).

Другие рекомендации по планированию источников контента

Принимая решение об использовании одного или нескольких хранилищ контента одинакового типа (например, сайтов SharePoint), учитывайте факторы, связанные с администрированием. Для упрощения задач администрирования следует упорядочивать источники контента таким образом, чтобы администраторам было максимально удобно обновлять источники контента, правила и расписания обхода контента.

  • В одном и том же приложении-службе поиска невозможно выполнять обход одних и тех же начальных адресов с использованием нескольких источников контента. Другими словами, если определенный источник контента используется для обхода семейства веб-сайтов и всех его дочерних сайтов, нельзя использовать другой источник контента для дополнительного обхода одного из этих дочерних сайтов в другое время по расписанию.

  • Администраторы часто обновляют источники контента. Изменение источника контента требует полного его обхода. Поэтому мы рекомендуем создать отдельные источники контента, что позволит при необходимости одновременно выполнять несколько полных обходов, а также тратить меньше времени на полный обход любого источника контента.

Планирование правил обхода для оптимизации обходов контента

Правила обхода контента применяются ко всем источникам контента в приложении-службе поиска. Применяя правила обхода к определенному URL-адресу или набору URL-адресов, можно выполнять следующие задачи.

  • Исключать из обхода нерелевантный контент путем исключения одного или нескольких URL-адресов. Это помогает снизить сетевой трафик и потребление ресурсов сервера.

  • Выполнять обход по ссылкам на странице, представленной URL-адресом, а не обход самого URL-адреса. Это может быть полезно для сайтов, содержащих ссылки на релевантный контент, тогда как сами страницы с этими ссылками не содержат важной информации.

  • Включать в обход контента сложные URL-адреса. Это позволяет системе выполнять обход URL-адресов, содержащих параметр запроса, указанный с помощью вопросительного знака. В зависимости от сайта такие URL-адреса могут содержать или не содержать релевантный контент. Поскольку сложные URL-адреса часто перенаправляют программу-обходчик на сайты с нерелевантным контентом, мы рекомендуем включать эту возможность только для известных сайтов, на которых сложные URL-адреса представляют релевантный контент.

  • Выполнять обход контента на сайтах SharePoint так же, как на HTTP-страницах. Это позволяет системе поиска выполнять обход сайтов SharePoint, защищенных брандмауэром, или в сценариях, когда сайт, для которого выполняется обход, ограничивает доступ к веб-службе, используемой программой-обходчиком (компонентом обхода в топологии поиска).

  • Настраивать использование учетной записи для доступа к контенту по умолчанию, другой учетной записи для доступа к контенту или сертификата клиента для обхода определенного URL-адреса.

Поскольку при обходе контента потребляются ресурсы и пропускная способность, включение меньшего объема контента, заведомо содержащего релевантную информацию, лучше, чем включение большего объема данных, которые могут оказаться нерелевантными. После первоначального развертывания можно проверить журналы запросов и обхода контента и скорректировать источники контента и правила обхода, чтобы включить в обход как можно больше релевантного контента.

Планирование проверки подлинности программы-обходчика

Когда программа-обходчик получает доступ к начальным адресам, перечисленным в источниках контента, он должен пройти проверку подлинности на серверах, где размещается контент, и получить права на доступ к этим серверам. Изначально система использует учетную запись для доступа к контенту по умолчанию. Но можно также с помощью правил обхода указать другую учетную запись для доступа к контенту и использовать ее при обходе определенного контента. Независимо от того, какая учетная запись для доступа к контенту используется (установленная по умолчанию или указанная в правиле обхода), у нее должны быть разрешения на чтение всего контента, который просматривается во время обхода. Если учетная запись для доступа к контенту не имеет разрешений на чтение, обход контента не выполняется, контент не индексируется и поэтому не может предоставляться по запросу.

Рекомендуется предоставить учетной записи, назначенной для доступа к контенту по умолчанию, права доступа к большей части контента, обход которого необходимо выполнять. Используйте другие учетные записи для доступа к контенту, только если это требуется из соображений безопасности.

Для каждого планируемого источника контента определите начальные адреса, которые будут недоступны учетной записи для доступа к контенту по умолчанию, а затем запланируйте добавление правил обхода для этих начальных адресов.

Важно!

Убедитесь, что учетная запись домена, используемая в качестве учетной записи для доступа к контенту по умолчанию или любой другой учетной записи для доступа к контенту, отличается о той учетной записи домена, которая используется пулом приложений, связанным с каким-либо веб-приложением, для которого выполняется обход. Иначе программа-обходчик будет просматривать и индексировать неопубликованный контент и вспомогательные версии файлов (то есть журналы) на сайтах SharePoint.

Следует также учесть, что программа-обходчик должна использовать тот же протокол проверки подлинности, что и сервер. По умолчанию проверка подлинности программы-обходчика выполняется по протоколу NTLM. При необходимости можно настроить для программы-обходчика другой протокол проверки подлинности.

Если используется проверка подлинности на основе утверждений, убедитесь, что проверка подлинности Windows включена во всех веб-приложениях, для которых выполняется обход.

Планирование обработки контента

Программа-обходчик выполняет обход репозиториев контента, указанных источниками контента, после чего передает контент и метаданные обойденных элементов компоненту обработки контента. Этот компонент считывает и анализирует обойденные свойства, после чего отправляет отчет о свойствах в базу данных администрирования поиска.

Можно сопоставить свойства, для которых выполняется обход, с управляемыми свойствами и настроить параметры свойства путем изменения схемы поиска. Компонент обработки контента выполняет чтение схемы поиска и использует ее для сопоставления. В индекс поиска включаются только управляемые свойства. Управляемые свойства можно использовать, например, для создания уточнений. Дополнительные сведения см. в статье Обзор схемы поиска в SharePoint Server.

Включение и исключение типов файлов

В индекс поиска можно включить контент из любого типа файлов. Однако перед индексацией следует выполнить обход этого контента с помощью компонента обхода, а затем проанализировать его с помощью компонента обработки контента. Компонент обхода может осуществить обход файла только в том случае, если его расширение включено в список расширений имен файлов на странице "Управление типами файлов". Компонент обработки контента может анализировать контент файла, для которого выполнен обход, в следующих условиях.

  • Компонент обработки контента имеет обработчик формата, который может проанализировать формат файла.

  • Компоненту обработки контента разрешено выполнять анализ файлов с форматом и расширением.

Если компоненту обработки контента не удается проанализировать файл, индекс поиска будет содержать только свойства файла, такие как имя.

По умолчанию SharePoint Server удовлетворяет такие требования для многих типов файлов и может выполнять их обход и анализ без необходимости установки дополнительных обработчиков форматов. Обзор типов файлов см. в разделе Default crawled file name extensions and parsed file types in SharePoint Server.

Примечание

Вы можете расширить первоначальную коллекцию форматов файлов, доступных для анализа в SharePoint Server, добавив основанные на фильтрах обработчики формата сторонних разработчиков, которые также называются фильтрами iFilter. Сторонний фильтр iFilter может переопределить встроенный обработчик формата.

Когда вы планируете включить в индекс поиска контент из репозиториев с типами файлов, не указанными на странице "Управление типами файлов", примите во внимание следующее:

  • Чтобы выполнить обход контента для типа файла, добавьте этот тип на страницу "Управление типами файлов".

  • Синтаксический анализ типа файла:

    • Если SharePoint Server не имеет требуемого обработчика формата, установите обработчик формата стороннего разработчика для соответствующего формата на каждом сервере с компонентом обработки контента в приложении службы поиска.

    • Разрешите анализ формата файла и расширения файла на каждом сервере с компонентом обработки контента в приложении службы поиска.

Дополнительные сведения см. в статье Add or remove a file type from the search index in SharePoint Server.

Планирование использования (настраиваемых) средств извлечения объектов

Можно настроить поисковую систему для поиска "объектов" в неструктурированном контенте, например в текстовой области или заголовке документа. Такими объектами могут быть слова или фразы (например, названия продуктов). Чтобы задать объекты для поиска, можно создать и развернуть собственные словари.

Извлеченные объекты хранятся в индексе поиска в виде отдельных управляемых свойств, которые автоматически настраиваются для поиска, отправки запросов, извлечения, сортировки и уточнения. Эти свойства можно использовать для уточнения поиска, например, чтобы обеспечить для пользователей возможность фильтрации результатов поиска.

Для компаний можно использовать предварительно заполненный словарь извлечения компаний, предоставленный SharePoint Server.

Кроме того, можно развернуть несколько типов настраиваемых средств извлечения объектов в виде настраиваемых словарей извлечения объектов. Развертывание этих словарей выполняется с помощью Microsoft PowerShell. Записи в словарях (одно или несколько слов) сопоставляются со словами или частями слов в содержимом с учетом или без учета регистра. Дополнительные сведения см. в статье Создание и развертывание пользовательских средств извлечения объектов в SharePoint Server.

Настраиваемое средство извлечения объектов / словарь Описание

Извлечение с совпадением слов

Без учета регистра, не более 5 словарей. Например, запись "anchor" соответствует "anchor" и "Anchor", но не "anchorage".

Извлечение с совпадением частей слов

Без учета регистра, не более 5 словарей. Например, запись "anchor" соответствует "anchor" и "Anchor", а также частям "anchorage".

Извлечение с точным совпадением слов

С учетом регистра, не более 1 словаря. Например, запись "anchor" соответствует "anchor", но не "Anchor" или "anchorage".

Извлечение с точным совпадением частей слов

С учетом регистра, не более 1 словаря. Например, запись "anchor" соответствует "anchor" и частям "anchorage", но не "Anchor".

Сведения об источниках результатов и федерации

В SharePoint Server для указания URL-адреса поставщика, от которого извлекаются результаты поиска, протокола для получения результатов и другие связанные параметров используется источник результатов. Например, предварительно настроенный источник результатов по умолчанию — Локальные результаты SharePoint.

Вы можете добавлять источники результатов, которые задают внешних поставщиков поиска (например, удаленные поисковые системы или веб-каналы), от которых будут приходить результаты поиска. Этот процесс называется федерацией.

О федерации

При использовании федерации пользователи могут искать и извлекать контент, обход которого не был выполнен серверами в локальной ферме. Например, федерация может предоставлять результаты поиска от поставщика веб-поиска, такого как Bing, или частного набора данных, для обхода которого у вас нет прав доступа.

Федерация также может стать хорошим решением для географически распределенной организации, которой требуется предоставить доступ к функциям поиска в различных подразделениях с собственным индексом поиска. Так как в каждом расположении результаты поиска предоставляются из собственного индекса, не требуется развертывать централизованную службу поиска, которая создает и использует единый унифицированный индекс. В этом контексте федерация может предоставить преимущества, например следующие:

  • Низкие требования к пропускной способности — у географически распределенной организации может не быть высокой пропускной способности, необходимой для обхода и индексирования больших объемов удаленного контента. Если организация использует федерацию, основные данные, передаваемые по глобальной сети для поиска, представляют собой только подмножество результатов поиска из каждого федеративного репозитория контента.

  • Свежесть результатов поиска — каждое подразделение организации может обходить локальный контент быстрее, чем централизованное развертывание поиска выполнит обход всего контента во всей организации.

  • Вариационность поиска в подразделениях — если организация использует федерацию, каждое подразделение может предоставлять и контролировать собственную среду поиска. Каждое подразделение может адаптировать систему поиска в соответствии с собственными требованиями и предпочтениями, например настроив собственный интерфейс и соединители поиска. Централизованный портал поиска не допускаются подобные отличия.

  • Ограниченный размер индексов поиска — крупная, географически распределенная организация может использовать миллионы документов. Для такой компании может быть непрактично содержать один унифицированный индекс поиска из-за инфраструктуры, которая потребуется для поддержки такого большого индекса. Федерация позволяет пользователям каждого подразделения выполнять одну операцию поиска для получения нужного контента, распределенного по нескольким более мелким индексам поиска в организации.

Использование источников результатов для федерации

Для использования федерации в SharePoint Server необходимо выбрать один из следующих протоколов в разделе Протокол на странице добавления и изменения источника результатов:

Выберите этот протокол Для получения результатов федеративного поиска от такого поставщика

Удаленный доступ к SharePoint

Индекс службы поиска в другой ферме SharePoint Server

OpenSearch 1.0/1.1

Внешняя поисковая система или канал, который использует протокол OpenSearch, например Bing

Exchange

Exchange Server 2013

Примечание

При выборе одного из протоколов, показанных ранее, на странице добавления и изменения источника результатов также необходимо заполнить другие поля, чтобы корректно указать источник результатов.

See also

Общие сведения об источниках результатов поиска в SharePoint Server
Настройка источников результатов для поиска в SharePoint Server
Manage crawling in SharePoint Server
Default connectors in SharePoint Server
Default crawled file name extensions and parsed file types in SharePoint Server

Инфраструктура компонентов поиска в SharePoint 2013