Поделиться через


Преобразование «Уточняющий запрос термина»

Преобразование «Уточняющий запрос термина» сопоставляет термины, извлеченные из текста во входном столбце преобразования, с терминами, содержащимися в ссылочной таблице. Затем оно подсчитывает количество найденных терминов в таблице уточняющих запросов входного набора данных и записывает количество повторений вместе с термином из ссылочной таблицы в столбец на выходе преобразования. Это преобразование полезно для создания пользовательского списка слов на основе входного текста, дополненного статистикой повторяемости слова.

Перед тем как преобразование «Уточняющий запрос термина» выполнит поиск, оно извлекает слова из текста входного столбца, используя тот же метод, что и преобразование «Извлечение терминов».

  • Текст разбивается на предложения.

  • Предложения разбиваются на слова.

  • Слова нормализуются.

Для дальнейшего уточнения искомых термов преобразование «Уточняющий запрос термина» может быть настроено для выполнения поиска совпадений с учетом регистра.

Преобразование «Уточняющий запрос термина» выполняет операцию поиска и затем возвращает значение, используя следующие правила.

  • Если преобразование настроено для проведения поиска, чувствительного к регистру, то совпадения с отличающимся регистром не учитываются. Например, ученик и УЧЕНИК считаются разными словами.

    ПримечаниеПримечание

    Слово, начинающееся с заглавной буквы в начале предложения, может быть признано совпадающим со словом, начинающимся со строчной буквы. Например, совпадение между ученик и Ученик признается действительным, если Ученик является первым словом предложения.

  • Если множественное число существительного или субстантивное словосочетание существует в ссылочной таблице, то уточняющий запрос учитывает совпадение существительного или словосочетания с ним только во множественном числе. Например, все экземпляры слова ученики будут рассматриваться отдельно от экземпляров слова ученик.

  • Если в ссылочной таблице найдено слово только в единственном числе, то совпадениями будут признаны слова и во множественном, и в единственном числе. Например, если таблица уточняющих запросов содержит ученик и преобразование находит слова ученик и ученики, то оба слова будут считаться соответствиями искомого термина ученик.

  • Если текст входного столбца является аннотированной фразой с существительным, то нормализации подвергается только последнее слово субстантивного словосочетания. Например, аннотированной версией фразы предписания врачей является предписание врача.

Когда искомый элемент содержит термины, которые перекрываются в эталонном наборе, то есть элемент термина найден более чем в одной эталонной записи, то преобразование «Уточняющий запрос термина» возвращает только один результат поиска. В следующем примере показан результат, когда искомый термин содержит перекрывающийся элемент. В этом случае перекрывающийся элемент — Windows, который найден в двух эталонных терминах. Однако преобразование возвращает не два результата, а только один эталонный термин, Microsoft Windows. Второй эталонный термин, Windows XP Home Edition SP1, не возвращается.

Элемент

Значение

Входной термин

Microsoft Windows XP Home Edition SP

Эталонные термины

Microsoft Windows, Windows XP Home Edition SP1

Выход

Microsoft Windows

Преобразование «Уточняющий запрос термина» может сопоставлять существительные и субстантивные словосочетания, которые содержат специальные символы, и данные в ссылочной таблице также могут содержать эти символы. Специальные символы следующие: %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, и ‘.

В преобразовании «Уточняющий запрос термина» может использоваться только столбец, содержащий данные типа DT_WSTR или DT_NTEXT. Если столбец содержит текст, не принадлежащий ни к одному из этих типов данных, то преобразование «Конвертация данных» может добавить столбец с типом данных DT_WSTR или DT_NTEXT к потоку данных и скопировать значения столбца в этот новый столбец. Выходные данные преобразования «Конвертация данных» могут быть использованы в качестве входных данных преобразования «Уточняющий запрос термина». Дополнительные сведения см. в разделе Преобразование «Конвертация данных».

Преобразование «Уточняющий запрос термина» содержит свойство InputColumnType, указывающее использование столбца. InputColumnType может иметь следующие значения:

  • значение 0 указывает, что столбец передан сразу на выход и не использовался в уточняющем запросе;

  • значение 1 указывает, что столбец использовался только в уточняющем запросе;

  • значение 2 указывает, что столбец передан на выход и также был использован в уточняющем запросе.

Выходные столбцы преобразования, для свойства InputColumnType которых задано значение 0 или 2, содержат свойство CustomLineageID столбца, в котором хранится идентификатор журнала обращений и преобразований, назначенный столбцу компонентом восходящего потока данных.

Преобразование «Уточняющий запрос термина» добавляет к своему выходу два столбца с именами по умолчанию Term и Frequency. Term содержит терм из таблицы уточняющего запроса, Frequency содержит количество термов из входного набора данных, обнаруженных в ссылочной таблице. Эти столбцы не содержат свойство CustomLineageID.

Поисковая таблица должна быть таблицей базы данных SQL Server 2000, SQL Server или Access. Если выход преобразования «Извлечение терминов» сохраняется в таблице, то эта таблица может быть использована в качестве ссылочной, однако можно использовать и другие таблицы. Перед использованием преобразования «Уточняющий запрос термина», текст плоских файлов, рабочие книги Excel или другие источники должны быть импортированы в базу данных SQL Server или базу данных Access.

Преобразование «Уточняющий запрос термина» использует отдельное соединение OLE DB для подключения к ссылочной таблице. Дополнительные сведения см. в разделе Диспетчер соединений OLE DB.

Преобразование «Уточняющий запрос термина» работает в режиме полного предварительного кэширования. Во время выполнения преобразование «Уточняющий запрос термина» производит чтение терминов из ссылочной таблицы и перед обработкой входных строк преобразования сохраняет их в своей собственной памяти.

Так как термины строки входного столбца могут повторяться, обычно выходные данные преобразования «Уточняющий запрос термина» содержат больше строк, чем входные.

Преобразование имеет один вход и один выход. Оно не поддерживает выход ошибок.

Настройка преобразования «Уточняющий запрос термина»

Свойства задаются через конструктор служб SSIS или программно.

Дополнительные сведения о свойствах, которые можно установить в диалоговом окне Редактор преобразования «Уточняющий запрос термина», см. в следующих разделах:

Дополнительные сведения о свойствах, которые можно задать программно или в диалоговом окне Расширенный редактор, см. в следующих разделах:

Дополнительные сведения об установке свойств см. в разделе Как установить свойства компонента потока данных.

Значок служб Integration Services (маленький)Будьте в курсе новых возможностей cлужб Integration Services

Чтобы загружать новейшую документацию, статьи, образцы и видеоматериалы от корпорации Майкрософт, а также лучшие решения от участников сообщества, посетите страницу Integration Services на сайтах MSDN или TechNet:

Чтобы получать автоматические уведомления об этих обновлениях, подпишитесь на RSS-каналы, предлагаемые на этой странице.