언어 기능 정보(FAST Search Server 2010 for SharePoint)

 

적용 대상: FAST Search Server 2010

마지막으로 수정된 항목: 2011-11-10

Microsoft FAST Search Server 2010 for SharePoint에는 검색 관련성을 향상시키는 데 도움이 되는 다양한 언어 기능이 있습니다. 일부 기능은 조정할 수 있지만 그 밖의 기능은 기본 동작으로만 작동하며 변경할 수 없습니다.

이 문서에서는 다음과 같은 언어 기능에 대해 설명합니다.

  • 토큰화

  • 자동 언어 검색

  • 형태소 분석

  • 맞춤법 검사 및 맞춤법 검사 조정

  • 중지 단어 제거 기능

  • 속성 추출

  • 비방성 콘텐츠 필터링

이러한 언어 기능이 지원되는 언어에 대한 개요는 언어별 언어 기능(FAST Search Server 2010 for SharePoint)을 참조하십시오.

토큰화

토큰화는 텍스트를 인덱싱할 수 있는 개별 단어(토큰)로 분할하는 것입니다. 공백, 탭, 마침표, 쉼표, 대시, 물음표 및 따옴표는 구분 기호로 간주됩니다. 단어 사이에 이러한 구분 기호를 사용하지 않는 아시아 언어(중국어, 일본어 및 한국어)의 경우 인덱싱할 수 있는 토큰을 생성하려면 좀 더 복잡한 방법을 사용해야 합니다.

토큰화는 항목 처리 및 쿼리 처리 도중 텍스트 내용에 대해 수행됩니다. FAST Search Server 2010 for SharePoint의 토큰화 프로세스는 다음과 같은 세 단계로 구성됩니다.

  1. 언어에 독립적인 입력 정규화에서는 입력 텍스트가 통합 형식으로 변환됩니다. 여기에는 합자 등의 복잡한 문자를 표준 형식으로 대체하거나 자주 사용되지 않는 유니코드 문자를 호환 가능한 문자 또는 문자열로 대체하는 작업이 포함됩니다. 이에 대한 예로는 상표를 tm으로 대체하거나 전자 라틴 문자를 반자 문자로 대체하는 것을 들 수 있습니다.

  2. 문서 언어에 기반을 둔 언어별 토큰화 엔진은 텍스트를 단어 분리기 토크나이저를 토대로 개별 단어/토큰으로 분할합니다.

  3. 인덱싱된 토큰은 교차 언어 검색을 지원하기 위해 언어 독립적인 규칙에 따라 정규화됩니다. 정규화는 문자를 변경하거나 문자의 일부를 제거하는 방식으로 문자의 복잡성을 줄입니다. FAST Search Server 2010 for SharePoint에서는 모든 문자가 소문자이며 악센트 부호 문자가 악센트 부호가 사용되지 않는 기본 문자로 간소화됩니다.

토큰화는 모든 언어에서 지원됩니다.

자동 언어 및 인코딩 검색

항목 처리 시 FAST Search Server 2010 for SharePoint에서는 모두 일반 인코딩으로 된 80개 이상의 다양한 언어를 자동으로 인식합니다. 텍스트 언어와 인코딩을 문서의 메타데이터로 정의할 수도 있고, 항목 처리 시 자동 프로세스를 통해 결정할 수도 있습니다.

이 정보는 항목 처리 시 해당하는 언어별 사전이나 알고리즘을 선택하는 데 사용됩니다.

형태소 분석

형태소 분석은 동일한 단어의 여러 형태(예: 명사의 단수 및 복수 형태)를 병합합니다. 형태소 분석은 회수율을 높이므로 동일한 단어의 여러 형태가 존재하는 언어의 경우 형태소 분석은 충분한 회수율을 얻는 데 매우 중요합니다. 형태소 분석 사전은 조정할 수 없습니다.

맞춤법 검사 및 맞춤법 검사 조정

맞춤법 검사는 쿼리 용어를 언어별 사전과 대조 확인하여 철자가 잘못된 용어를 식별함으로써 쿼리의 품질을 향상시킵니다.

맞춤법 검사 조정은 처리된 문서의 단어 빈도에 맞춰 맞춤법 검사 사전을 세부적으로 조정합니다. 사용자에게는 처리된 콘텐츠 내에서 관련된 맞춤법 검사 제안 항목만 표시됩니다. 이 맞춤 기능이 없으면 맞춤법 검사 제안 시 검색 결과가 0개로 표시될 수도 있습니다.

예를 들어 특정 제품이나 회사 이름 같이 맞춤법 검사에서 제외할 단어를 정의할 수 있습니다. 제외 목록은 모든 언어에 사용됩니다.

중지 단어 제거 기능

중지 단어 제거 기능은 검색 시스템이 최종 사용자 쿼리에서 무시하는 단어에 해당하는 중지 단어 개념과 밀접한 관련이 있습니다. 중지 단어 제거 기능은 단일 단어를 제거하지 않고 전체 구를 제거합니다. 단일 단어를 제거할 경우 중지 단어와 동일한 중요한 단어가 제거될 위험이 있기 때문입니다. 구는 모호함이 덜하기 때문에 쿼리에서 보다 안전하게 제거할 수 있습니다. 따라서 FAST Search Server 2010 for SharePoint와 함께 제공되는 중지 단어 제거 기능 사전에는 단일 단어가 들어 있지 않습니다. 또한 중지 단어 제거 기능 사전은 조정할 수 없습니다.

속성 추출

FAST Search Server 2010 for SharePoint에서는 개인 이름, 회사 이름 및 지리적 이름/위치에 대한 언어별 고급 속성 추출자를 제공합니다.

자세한 내용은 속성 추출 관리(FAST Search Server 2010 for SharePoint)을 참조하십시오.

비방성 콘텐츠 필터링

FAST Search Server 2010 for SharePoint에서는 다양한 언어에 대해 비방성 콘텐츠를 필터링할 수 있습니다.

비방성 콘텐츠 필터링은 즉시 사용할 수는 없지만 구성할 수 있습니다.

See Also

Concepts

언어별 언어 기능(FAST Search Server 2010 for SharePoint)
Windows PowerShell을 사용하여 매핑되지 않는 크롤링 속성 식별(FAST Search Server 2010 for SharePoint)
맞춤법 검사 조정 cmdlet(FAST Search Server 2010 for SharePoint)