용어 조회 변환

적용 대상: Azure Data Factory의 SQL Server SSIS Integration Runtime

용어 조회 변환은 변환 입력 열의 텍스트에서 추출된 용어와 참조 테이블에 있는 용어가 일치하는지 확인합니다. 그런 다음, 입력 데이터 집합에서 조회 테이블의 용어가 발생하는 횟수를 계산하고 변환 출력의 열에 참조 테이블의 용어와 함께 개수를 씁니다. 이러한 변환은 입력 텍스트를 기준으로 단어 빈도 통계가 모두 포함된 사용자 지정 단어 목록을 만들 때 유용합니다.

용어 조회 변환이 조회를 수행하기 전에 용어 추출 변환과 동일한 메서드를 사용하여 입력 열의 텍스트에서 단어를 추출합니다.

  • 텍스트는 문장으로 나뉩니다.

  • 문장은 단어로 나뉩니다.

  • 단어를 기본 형태로 변환합니다.

일치시킬 용어를 추가로 사용자 지정하기 위해 용어 조회 변환을 구성하여 대/소문자를 구분하는 일치를 수행할 수 있습니다.

일치 항목

용어 조회에서는 조회를 수행하고 다음 규칙에 따라 값을 반환합니다.

  • 대/소문자 구분 검색을 수행하도록 변환이 구성된 경우 대/소문자가 다른 일치 항목은 무시됩니다. 예를 들어 학생 STUDENT는 별도의 단어로 처리됩니다.

    참고 항목

    대문자가 아닌 단어는 문장의 시작 부분에서 대문자로 된 단어와 일치시킬 수 있습니다. 예를 들어 Student 가 문장의 첫 단어인 경우 studentStudent 는 일치하는 단어로 검색됩니다.

  • 참조 테이블에 명사 또는 명사 구의 복수 형태가 있는 경우 조회는 명사 또는 명사 구의 복수 형식만 일치합니다. 예를 들어 학생의 모든 인스턴스는 학생의 인스턴스와 별도로 계산됩니다.

  • 참조 표에 단수 형식만 있으면 단어 또는 구의 단수 형식과 복수 형식이 모두 단수 형식과 일치합니다. 예를 들어 조회 테이블에 학생이 포함되어 있고 변환에서 학생학생이라는 단어를 찾은 경우 두 단어 모두 조회 용어 학생에 대한 일치 항목으로 계산됩니다.

  • 입력 열의 텍스트가 lemmatized 명사 구인 경우 명사 구의 마지막 단어만 정규화의 영향을 받습니다. 예를 들어 doctors appointments 의 분류된 형태는 doctors appointment입니다.

참조 집합에서 겹치는 용어가 조회 항목에 포함되어 있을 경우(즉, 하위 용어가 하나를 초과하는 참조 레코드에 있는 경우) 용어 조회 변환에서는 하나의 조회 결과만 반환합니다. 다음 예에서는 겹치는 하위 용어가 조회 항목에 포함되어 있는 때의 결과를 보여 줍니다. 이 경우 겹치는 하위 용어는 두 개의 참조 용어 내에 있는 Windows입니다. 그러나 변환은 두 개의 결과를 반환하지 않지만 단일 참조 용어 인 Windows만 반환합니다. 두 번째 참조 용어인 Windows 7 Professional은 반환되지 않습니다.

항목
입력 용어 Windows 7 Professional
참조 용어 Windows, Windows 7 Professional
출력 Windows

용어 조회 변환은 특수 문자를 포함하는 명사 및 명사 구와 일치할 수 있으며 참조 테이블의 데이터에는 이러한 문자가 포함될 수 있습니다. 특수 문자는 %, @, &, $, #, *, :, ;, ., , , ?, <, >+, =, ^, ~, |, \, /, (, ), [, ], {, }, "및 '입니다.

데이터 형식

용어 조회 변환은 DT_WSTR 또는 DT_NTEXT 데이터 형식이 있는 열만 사용할 수 있습니다. 열에 텍스트가 포함되어 있지만 이러한 데이터 형식 중 하나가 없는 경우 데이터 변환은 데이터 흐름에 DT_WSTR 또는 DT_NTEXT 데이터 형식이 있는 열을 추가하고 열 값을 새 열에 복사할 수 있습니다. 그런 다음 데이터 변환의 출력을 용어 조회 변환에 대한 입력으로 사용할 수 있습니다. 자세한 내용은 데이터 변환을 참조하세요.

용어 조회 변환 구성

용어 조회 변환 입력 열에는 열의 용도를 나타내는 InputColumnType 속성이 포함됩니다. InputColumnType에는 다음 값이 포함될 수 있습니다.

  • 값 0은 열이 출력으로만 전달되고 조회에 사용되지 않음을 나타냅니다.

  • 값 1은 열이 조회에서만 사용됨을 나타냅니다.

  • 값 2는 열이 출력에 전달되고 조회에서도 사용됨을 나타냅니다.

InputColumnType 속성이 0 또는 2로 설정된 변환 출력 열에는 업스트림 데이터 흐름 구성 요소에 의해 열에 할당된 계보 식별자가 포함된 열에 대한 CustomLineageID 속성이 포함됩니다.

용어 조회 변환은 변환 출력에 기본 용어빈도로 명명된 두 개의 열을 추가합니다. 용어 는 조회 테이블 의 용어를 포함하고 빈도 는 입력 데이터 집합에서 참조 테이블의 용어가 발생하는 횟수를 포함합니다. 이러한 열에는 CustomLineageID 속성이 포함되지 않습니다.

조회 테이블은 SQL Server 또는 Access 데이터베이스의 테이블이어야 합니다. 용어 추출 변환의 출력이 테이블에 저장되는 경우 이 테이블을 참조 테이블로 사용할 수 있지만 다른 테이블도 사용할 수 있습니다. 용어 조회 변환을 사용하려면 먼저 플랫 파일, Excel 통합 문서 또는 기타 원본의 텍스트를 SQL Server 데이터베이스 또는 Access 데이터베이스로 가져와야 합니다.

용어 조회 변환은 별도의 OLE DB 연결을 사용하여 참조 테이블에 연결합니다. 자세한 내용은 OLE DB 연결 관리자 참조하세요.

용어 조회 변환은 완전히 사전 캐싱된 모드에서 작동합니다. 용어 조회 변환은 런타임에 참조 테이블로부터 용어를 읽고 변환 입력 행을 처리하기 전에 이를 프라이빗 메모리에 저장합니다.

입력 열 행의 용어는 반복될 수 있기 때문에 용어 조회 변환의 출력에는 일반적으로 변환 입력보다 많은 수의 행이 포함됩니다.

변환에는 하나의 입력과 하나의 출력이 있습니다. 오류 출력은 지원하지 않습니다.

SSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.

고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하세요.

속성을 설정하는 방법에 대한 자세한 내용은 데이터 흐름 구성 요소의 속성 설정을 참조하세요.

용어 조회 변환 편집기(용어 조회 탭)

용어 조회 변환 편집기 대화 상자의 용어 조회 탭을 사용하여 입력 열을 참조 테이블의 조회 열에 매핑하고 각 출력 열에 대한 별칭을 제공할 수 있습니다.

옵션

사용 가능한 입력 열
검사 상자를 사용하여 입력 열을 선택하여 변경되지 않은 출력으로 전달합니다. 입력 열을 사용 가능한 참조 열 목록으로 끌어서 참조 테이블의 조회 열로 매핑할 수 있습니다. 입력 및 조회 열에는 DT_NTEXT 또는 DT_WSTR 일치하는 지원되는 데이터 형식이 있어야 합니다. 매핑 선을 선택하고 마우스 오른쪽 단추를 클릭하여 관계 만들기 대화 상자에서 매핑을 편집합니다.

사용 가능한 참조 열
참조 테이블에서 사용 가능한 열을 봅니다. 일치시킬 용어 목록이 포함된 열을 선택합니다.

통과 열
사용 가능한 입력 열 목록에서 선택합니다. 선택 영역은 사용 가능한 입력 열 테이블의 검사 상자 선택 영역에 반영됩니다.

출력 열 별칭
각 출력 열에 대한 별칭을 입력합니다. 기본값은 열의 이름입니다. 그러나 고유한 설명이 포함된 이름을 선택할 수 있습니다.

오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 발생시키는 행에 대한 오류 처리 옵션을 지정할 수 있습니다.

용어 조회 변환 편집기(참조 테이블 탭)

용어 조회 변환 편집기 대화 상자의 참조 테이블 탭을 사용하여 참조(조회) 테이블에 대한 연결을 지정할 수 있습니다.

옵션

OLE DB 연결 관리자
목록에서 기존 연결 관리자를 선택하거나 새로 만들기를 클릭하여 새 연결을 만듭니다.

New
OLE DB 연결 관리자 구성 대화 상자를 사용하여 새 연결을 만듭니다.

참조 테이블 이름
목록에서 항목을 선택하여 데이터베이스에서 조회 테이블 또는 뷰를 선택합니다. 테이블 또는 뷰에는 원본 열의 텍스트를 비교할 수 있는 기존 용어 목록이 있는 열이 포함되어야 합니다.

오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 발생시키는 행에 대한 오류 처리 옵션을 지정할 수 있습니다.

용어 조회 변환 편집기(고급 탭)

용어 조회 변환 편집기 대화 상자의 고급 탭을 사용하여 조회가 대/소문자를 구분해야 하는지 여부를 지정합니다.

옵션

대/소문자 구분 용어 조회 사용
조회가 대/소문자를 구분하는지 여부를 나타냅니다. 기본값은 False입니다.

오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 발생시키는 행에 대한 오류 처리 옵션을 지정할 수 있습니다.

참고 항목

Integration Services 오류 및 메시지 참조
용어 추출 변환