용어 추출 변환

적용 대상: Azure Data Factory의 SQL Server SSIS Integration Runtime

용어 추출 변환은 변환 입력 열의 텍스트에서 용어를 추출한 다음 변환 출력 열에 용어를 씁니다. 변환은 영어 텍스트에서만 작동하며 영어에 대한 자체 영어 사전 및 언어 정보를 사용합니다.

용어 추출 변환을 사용하여 데이터 집합의 콘텐츠를 검색할 수 있습니다. 예를 들어 전자 메일 메시지가 포함된 텍스트는 제품에 대한 유용한 피드백을 제공할 수 있으므로 용어 추출 변환을 사용하여 피드백을 분석하는 방법으로 메시지의 토론 항목을 추출할 수 있습니다.

추출된 용어 및 데이터 형식

용어 추출 변환에서는 명사 또는 명사구를 따로 추출하거나 모두 추출할 수 있습니다. 명사(명사)는 단일 명사입니다. 명사 구는 적어도 두 단어이며, 그 중 하나는 명사이고 다른 하나는 명사 또는 형용사입니다. 예를 들어 변환에서 명사 전용 옵션을 사용하는 경우 자전거 및 가로와 같은 용어를 추출합니다. 변환에서 명사 구 옵션을 사용하는 경우 새 파란색 자전거, 자전거 헬멧 및 박스형 자전거같은 용어를 추출합니다.

아티클 및 대명사는 추출되지 않습니다. 예를 들어 용어 추출 변환은 자전거, 자전거해당 자전거 텍스트에서 자전거라는 용어를 추출합니다.

용어 추출 변환은 추출하는 각 용어에 대한 점수를 생성합니다. 점수는 TFIDF 값 또는 원시 빈도일 수 있습니다. 즉, 정규화된 용어가 입력에 나타나는 횟수를 의미합니다. 어느 경우에도 순위는 0 이상의 실수로 표현됩니다. 예를 들어 TFIDF 점수의 값은 0.5이고 빈도는 1.0 또는 2.0과 같은 값일 수 있습니다.

용어 추출 변환의 출력에는 두 개의 열만 포함됩니다. 한 열에는 추출된 용어가 포함되고 다른 열에는 점수가 포함됩니다. 열의 기본 이름은 용어점수입니다. 입력의 텍스트 열에 여러 용어가 포함될 수 있으므로 용어 추출 변환의 출력에는 일반적으로 입력보다 더 많은 행이 있습니다.

추출된 용어가 테이블에 기록되는 경우 용어 조회, 유사 항목 조회 및 조회 변환과 같은 다른 조회 변환에서 사용할 수 있습니다.

용어 추출 변환은 DT_WSTR 또는 DT_NTEXT 데이터 형식이 있는 열의 텍스트에서만 작동할 수 있습니다. 열에 텍스트가 포함되어 있지만 이러한 데이터 형식 중 하나가 없는 경우 데이터 변환을 사용하여 데이터 흐름에 DT_WSTR 또는 DT_NTEXT 데이터 형식의 열을 추가하고 열 값을 새 열에 복사할 수 있습니다. 그런 다음 데이터 변환의 출력을 용어 추출 변환에 대한 입력으로 사용할 수 있습니다. 자세한 내용은 데이터 변환을 참조하세요.

제외 조건

선택적으로 용어 추출 변환은 데이터 집합에서 용어를 추출할 때 건너뛸 수 있는 용어를 의미하는 제외 용어가 포함된 테이블의 열을 참조할 수 있습니다. 이는 특정 비즈니스 및 업계에서 용어 집합이 이미 중요하지 않은 것으로 식별된 경우에 유용합니다. 일반적으로 용어는 노이즈 단어가 되는 빈도가 높기 때문입니다. 예를 들어 특정 자동차 브랜드에 대한 고객 지원 정보가 포함된 데이터 집합에서 용어를 추출하는 경우 브랜드 이름이 너무 자주 멘션 중요도를 가지지 않으므로 브랜드 이름 자체가 제외될 수 있습니다. 따라서 제외 목록의 값은 사용 중인 데이터 집합에 맞게 사용자 지정되어야 합니다.

제외 목록에 용어를 추가하면 용어가 포함된 모든 용어-단어 또는 명사 구도 제외됩니다. 예를 들어 제외 목록에 단일 단어 데이터가 포함된 경우 데이터, 데이터 마이닝, 데이터 무결성 및 데이터 유효성 검사와 같은 이 단어가 포함된 모든 용어도 제외됩니다. data를 포함하는 복합어만 제외하려는 경우에는 제외 목록에 해당 복합 용어를 명시적으로 추가해야 합니다. 예를 들어 데이터의 발생률을 추출하지만 데이터 유효성 검사를 제외하려는 경우 제외 목록에 데이터 유효성 검사를 추가하고 제외 목록에서 데이터가 제거되었는지 확인합니다.

참조 테이블은 SQL Server 또는 Access 데이터베이스의 테이블이어야 합니다. 용어 추출 변환은 별도의 OLE DB 연결을 사용하여 참조 테이블에 연결합니다. 자세한 내용은 OLE DB 연결 관리자 참조하세요.

용어 추출 변환은 완전히 사전 캐싱된 모드에서 작동합니다. 용어 추출 변환은 런타임에 참조 테이블로부터 제외 용어를 읽고 변환 입력 행을 처리하기 전에 이를 프라이빗 메모리에 저장합니다.

텍스트에서 용어 추출

텍스트에서 용어를 추출하기 위해 용어 추출 변환은 다음 작업을 수행합니다.

단어 식별

먼저 용어 추출 변환은 다음 작업을 수행하여 단어를 식별합니다.

  • 공백, 줄 바꿈 및 기타 영어에서 사용되는 단어 종료 문자를 사용하여 텍스트를 여러 단어로 구분합니다. 예를 들어, ?:과 같은 문장 부호는 단어를 구분하는 문자입니다.

  • 하이픈이나 밑줄로 연결된 단어는 그대로 유지합니다. 예를 들어 복사로 보호되고 읽기 전용인 단어한 단어를 다시 기본.

  • 마침표가 포함된 머리글자어를 그대로 유지합니다. 예를 들어 A.B.C Company는 ABCCompany로 토큰화됩니다.

  • 특수 문자에 단어를 분할합니다. 예를 들어 날짜/시간이라는 단어는 날짜시간(자전거)으로 추출되고 C#은 C로 처리됩니다. 특수 문자는 분리되고카드 어휘화할 수 없습니다.

  • 아포스트로피와 같은 특수 문자가 단어를 분할해서는 안 되는 경우를 인식합니다. 예를 들어 자전거라는 단어는 두 단어로 분할되지 않고 단일 용어 자전거(명사)를 생성합니다.

  • 시간 식, 통화 식, 전자 메일 주소 및 우편 주소를 분할합니다. 예를 들어 2004년 1월 31일 날짜는 2004년 1월 31일 및 2004년 1월 31의 세 가지 토큰으로 구분됩니다.

태그가 지정된 단어

둘째, 용어 추출 변환은 다음과 같은 문장 요소 중 하나로 단어를 분류합니다.

  • 단수 형식의 명사입니다. 예를 들어 자전거와 감자입니다.

  • 복수 형식의 명사입니다. 예를 들어 자전거와감자입니다. 흠화되지 않은 모든 복수 명사는 형태소 분석의 대상이 됩니다.

  • 단수 형식의 적절한 명사입니다. 예를 들어, 4월베드로.

  • 복수 형태의 고유 명사. 예를 들면 AprilsPeters가 있습니다. 고유 명사가 형태소 분석되기 위해서는 표준 영어 단어로 제한되는 내부 어휘집에 속해야 합니다.

  • 형용사. 예를 들면 blue가 있습니다.

  • 두 개의 사물을 비교하는 비교 형용사. 예를 들어 더 높키가 깁니다.

  • 적어도 두 개 이상의 다른 형용사 수준보다 높거나 낮은 품질을 가진 것을 식별하는 최상급 형용사입니다. 예를 들어 가장 높고 가장 높은 경우입니다.

  • 숫자입니다. 예를 들어 622004입니다.

이러한 음성 부분 중 하나가 아닌 단어는 dis카드ed입니다. 예를 들어 동사와 대명사는 dis카드ed입니다.

참고 항목

음성 부분의 태그 지정은 통계 모델을 기반으로 하며 태그 지정이 완전히 정확하지 않을 수 있습니다.

용어 추출 변환이 명사만 추출하도록 구성된 경우 명사 및 적절한 명사 중 단수 또는 복수 형식으로 태그가 지정된 단어만 추출됩니다.

용어 추출 변환이 명사구만 추출하도록 구성된 경우 명사, 고유 명사, 형용사 및 숫자로 분류된 단어가 조합되어 명사구가 될 수 있지만 명사구에는 명사 또는 고유 명사의 단/복수 형태로 분류된 단어가 적어도 하나 이상 들어 있어야 합니다. 예를 들어 명사 구 가장 높은 산 은 최상급 형용사(가장 높음)로 태그가 지정된 단어와 명사()로 태그가 지정된 단어를 결합합니다.

명사 및 명사 구를 모두 추출하도록 용어 추출이 구성된 경우 명사 규칙과 명사 구에 대한 규칙이 모두 적용됩니다. 예를 들어 변환은 많은 아름다운 파란색 자전거 텍스트에서 자전거아름다운 파란색 자전거를 추출합니다.

참고 항목

추출된 용어는 변환에서 사용되는 최대 용어 길이 및 빈도 임계값에 따라 유지됩니다.

형태소 분석된 단어

용어 추출 변환은 또한 명사를 형태소 분석하여 명사의 단수 형태만 추출합니다. 예를 들어 변환은 남성, 마우스에서 마우스, 자전거에서 자전거를 추출 합니다. 변환은 사전을 사용하여 명사 줄기를 합니다. Gerunds는 사전에 있는 경우 명사로 처리됩니다.

용어 추출 변환은 용어 추출 변환의 내부 사전을 사용하여 이러한 예제와 같이 단어를 사전 형식으로 찾습니다.

  • 명사에서 s 를 제거합니다. 예를 들어 bicyclesbicycle이 됩니다.

  • 명사에서 es를 제거합니다. 예를 들어 스토리 는 스토리됩니다.

  • 사전에서 불규칙 명사에 대한 단수 형식을 검색합니다. 예를 들어 거위는 거위됩니다.

정규화된 단어

용어 추출 변환은 문장의 위치 때문에 대문자로만 사용되는 용어를 정규화하고 대신 대문자가 아닌 형식을 사용합니다. 예를 들어, 개 추적 고양이와 산 경로가 가파른 문구에서, 와 산은 개으로 정규화됩니다.

용어 추출 변환은 대문자 및 비자본화된 단어 버전이 다른 용어로 처리되지 않도록 단어를 정규화합니다. 예를 들어 텍스트에서 시애틀의 많은 자전거와 자전거가 파란색으로 표시되고 자전거와 자전거가 동일한 용어로 인식되고 변환 시 자전거유지됩니다. 내부 사전에 나열되지 않은 적절한 명사 및 단어는 정규화되지 않습니다.

대/소문자 구분 정규화

용어 추출 변환은 소문자와 대문자를 고유한 용어 또는 동일한 용어의 다른 변형으로 간주하도록 구성할 수 있습니다.

  • 경우에 따라 차이를 인식하도록 변환이 구성된 경우 메서드 및 메서드같은 용어는 두 개의 서로 다른 용어로 추출됩니다. 문장의 첫 번째 단어가 아닌 대문자로 표시된 단어는 기본 형태로 바뀌지 않으며 고유 명사로 분류됩니다.

  • 변환이 대/소문자를 구분하지 않는 것으로 구성된 경우 메서드 및 메서드같은 용어는 단일 용어의 변형으로 인식됩니다. 추출된 용어 목록에는 입력 데이터 집합에서 먼저 발생하는 단어에 따라 메서드 또는 메서드가 포함될 수 있습니다. Method 가 문장의 첫 번째 단어이기 때문에 대문자로 표기된 경우에는 기본 형태로 바뀌어서 추출됩니다.

문장 및 단어 경계

용어 추출 변환은 다음 문자를 문장 경계로 사용하여 텍스트를 문장으로 구분합니다.

  • ASCII 줄 바꿈 문자 0x0d(캐리지 리턴) 및 0x0a(줄 바꿈). 이 문자를 문장 경계로 사용하려면 행에 줄 바꿈 문자가 두 개 이상 있어야 합니다.

  • 하이픈(-). 이 문자를 문장 경계로 사용하려면 하이픈 왼쪽과 오른쪽의 문자가 모두 글자이면 안 됩니다.

  • 밑줄(_). 이 문자를 문장 경계로 사용하려면 하이픈 왼쪽과 오른쪽의 문자가 모두 글자이면 안 됩니다.

  • 0x19 작거나 같거나 0x7b 보다 크거나 같은 모든 유니코드 문자입니다.

  • 숫자, 문장 부호 및 사전순 문자의 조합입니다. 예를 들어 A23B#99 는 용어 A23B를 반환합니다.

  • 문자, %, @, &, $, #, *, :, ;, ., , , , ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", '.

    참고 항목

    하나 이상의 마침표(.)를 포함하는 약어는 여러 문장으로 구분되지 않습니다.

그런 다음 용어 추출 변환은 다음 단어 경계를 사용하여 문장을 단어로 구분합니다.

  • Space

  • Tab

  • ASCII 0x0d(캐리지 리턴)

  • ASCII 0x0a(줄 바꿈)

    참고 항목

    아포스트로피가 위축 된 단어에 있으면 아포스트로피에서 단어가 깨지고, 그렇지 않으면 아포스트로피 뒤의 문자가 잘립니다. 예를 들어, 우리는 우리분할 하 고 're, 그리고 자전거의 자전거트리밍 됩니다.

용어 추출 변환 구성

텍스트 추출 변환은 내부 알고리즘 및 통계 모델을 사용하여 결과를 생성합니다. 용어 추출 변환을 여러 번 실행하여 결과를 검토하고 텍스트 마이닝 솔루션에 적합한 결과를 생성하도록 변환을 구성해야 할 수도 있습니다.

용어 추출 변환에는 하나의 일반 입력, 하나의 출력 및 하나의 오류 출력이 있습니다.

SSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.

고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하세요.

속성을 설정하는 방법에 대한 자세한 내용은 데이터 흐름 구성 요소의 속성 설정을 참조하세요.

용어 추출 변환 편집기(용어 추출 탭)

용어 추출 변환 편집기 대화 상자의 용어 추출 탭을 사용하여 추출할 텍스트가 포함된 텍스트 열을 지정할 수 있습니다.

옵션

사용 가능한 입력 열
검사 상자를 사용하여 용어 추출에 사용할 단일 텍스트 열을 선택합니다.

기간
추출된 용어를 포함할 출력 열의 이름을 제공합니다.

점수
추출된 각 용어에 대한 점수를 포함할 출력 열의 이름을 지정합니다.

오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 발생시키는 행에 대한 오류 처리를 지정할 수 있습니다.

용어 추출 변환 편집기(제외 탭)

용어 추출 변환 편집기 대화 상자의 제외 탭을 사용하여 제외 테이블에 대한 연결을 설정하고 제외 용어를 포함하는 열을 지정할 수 있습니다.

옵션

제외 용어 사용
제외 용어를 포함하는 열을 지정하여 용어 추출 중 특정 용어를 제외할지 여부를 나타냅니다. 용어를 제외하도록 선택하는 경우 다음 원본 속성을 지정해야 합니다.

OLE DB 연결 관리자
기존 OLE DB 연결 관리자를 선택하거나 새로 만들기를 클릭하여 새 연결을 만듭니다.

New
OLE DB 구성 연결 관리자 대화 상자를 사용하여 데이터베이스에 대한 새 연결을 만듭니다.

테이블 또는 뷰
제외 용어가 포함된 테이블 또는 뷰를 선택합니다.


제외 용어가 포함된 테이블 또는 뷰에서 열을 선택합니다.

오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 발생시키는 행에 대한 오류 처리를 지정할 수 있습니다.

용어 추출 변환 편집기(고급 탭)

용어 추출 변환 편집기 대화 상자의 고급 탭을 사용하여 빈도, 길이 및 단어 또는 구를 추출할지 여부와 같은 추출 속성을 지정할 수 있습니다.

옵션

명사
변환에서 개별 명사만 추출되도록 지정합니다.

명사구
변환에서 명사 구만 추출되도록 지정합니다.

명사 및 명사구
변환에서 명사 및 명사 구를 모두 추출할 것을 지정합니다.

빈도
점수가 용어의 빈도임을 지정합니다.

TFIDF
점수를 용어의 TFIDF 값으로 지정합니다. TFIDF 점수는 용어 빈도 및 역 문서 빈도의 산물로, 용어 T의 TFIDF = (T의 빈도) * log( (입력의 #rows) / (T가 있는 #rows) )

빈도 임계값
단어 또는 구를 추출하기 전에 발생해야 하는 횟수를 지정합니다. 기본 값은 2입니다.

최대 기간
단어로 구의 최대 길이를 지정합니다. 이 옵션은 명사 구에만 영향을 줍니다. 기본 값은 12입니다.

대/소문자 구분 용어 추출 사용
추출을 대/소문자를 구분할지 여부를 지정합니다. 기본값은 False입니다.

오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 발생시키는 행에 대한 오류 처리를 지정할 수 있습니다.

참고 항목

Integration Services 오류 및 메시지 참조
용어 조회 변환