사용자 지정 사전 만들기(SharePoint Server 2010)

 

적용 대상: SharePoint Server 2010

마지막으로 수정된 항목: 2015-07-06

사용자 지정 사전은 특정 언어의 단어 분리기가 인덱스 시와 쿼리 시에 표시되지 않는 것으로 간주하는 토큰을 지정하기 위해 관리자가 만드는 파일입니다. 사용자 지정 사전 파일은 제품과 함께 제공되지 않으며, 단어 분리기의 동작을 수정할 각 언어에 대해 별도의 사용자 지정 사전을 직접 만들어야 합니다.

참고

지정된 언어의 사용자 지정 사전은 서버 팜의 모든 Search Service 응용 프로그램에 적용됩니다.

이 문서의 내용

  • 사용자 지정 사전을 사용하는 이유

  • 사용자 지정 사전을 만드는 규칙

  • 사용자 지정 사전 만들기

  • 각 응용 프로그램 서버에 사용자 지정 사전 복사

  • SharePoint Server Search 14 서비스를 중지하고 다시 시작

  • 전체 크롤링 수행

  • 지원되는 언어

사용자 지정 사전을 사용하는 이유

사용자 지정 사전이 필요한지 여부와 사용자 지정 사전에 포함할 항목을 파악하려면 단어 분리기의 동작을 이해해야 합니다. 인덱싱 시스템에서는 크롤링된 콘텐츠를 인덱싱할 때 단어 분리기를 사용하여 토큰을 분리하며, 쿼리 프로세서는 쿼리에서 단어 분리기를 사용합니다. 각 경우에 사용 중인 단어 분리기의 언어를 지원하는 사용자 지정이 있으면 검색 시스템에서 해당 사용자 지정 사전의 단어를 확인한 다음 해당 단어에 대해 단어 분리기를 사용할지 여부를 결정합니다. 사용자 지정 사전에 단어가 없는 경우 단어 분리기는 정상적인 작업을 수행하여 토큰 하나를 여러 개로 분리합니다. 사용자 지정 사전에 토큰이 있는 경우에는 단어 분리기가 해당 토큰에 대해 아무런 작업도 수행하지 않습니다. 아래의 두 예제에서는 일반적인 단어 분리기의 동작과 사용자 지정 사전의 항목이 해당 동작에 어떤 영향을 주는지를 설명합니다.

  • 단어 분리기가 “IT&T” 토큰을 앰퍼샌드(&) 바로 앞뒤에서 분리하여 “IT”, “&”, “T”의 세 토큰을 생성할 수 있습니다. 그러나 “IT&T” 토큰이 현재 사용 중인 단어 분리기와 같은 언어의 사용자 지정 사전에 있는 경우에는 단어 분리기가 해당 토큰을 크롤링 시나 쿼리 시에 분리하지 않습니다. “IT&T”가 사용자 지정 사전에 있는데 문서에 "IT" 또는 "T"는 포함되어 있지 않고 “IT&T”만 포함되어 있으면 "IT" 또는 "T"는 포함하고 “IT&T”는 포함하지 않는 쿼리의 결과 집합에는 해당 문서가 반환되지 않습니다.

  • CAS(Chemical Abstracts Service) 등록 번호 등의 용어에는 단어 분리기가 적용될 수 있습니다. 예를 들어 단어 분리기는 보통 하이픈이나 기타 특수 문자 앞뒤의 숫자를 나머지 숫자와 분리합니다. 예를 들어 산소의 CAS 등록 번호는 7782-44-7인데, 단어 분리기의 처리 후 이 CAS 등록 번호는 세 부분(7782, 44, 7)으로 분리됩니다. 콘텐츠 모음에 나타나는 이와 같은 CAS 등록 번호를 사용자 지정 사전에 추가하면 각 번호를 분리하지 말고 인덱싱하도록 검색 시스템에 지시하게 됩니다.

정규화 및 동의어 사전 파일

날짜 정규화 등 일반적으로 단어 분리기를 통해 적용되는 명명된 엔터티 정규화는 사용자 지정 사전의 용어에는 적용되지 않습니다. 대신, 사용자 지정 사전의 모든 용어는 일치 항목으로 간주됩니다. 동의어 사전 파일에 단어나 숫자가 있는 경우는 이러한 정규화가 특히 중요합니다. 예를 들어 CAS 등록 번호 7782-44-7이 동의어 사전의 확장 집합에 포함되어 있는데, 단어 분리기가 해당 번호를 하이픈 앞뒤에서 분리하여 세 개의 개별 번호로 만드는 경우 해당 번호가 포함되는 확장 집합이 예상대로 작동하지 않을 수 있습니다. 이 경우 해당하는 언어의 사용자 지정 사전에 CAS 등록 번호 7782-44-7을 추가하면 문제가 해결됩니다. 동의어 사전 파일을 사용하는 방법에 대한 자세한 내용은 동의어 사전 파일 관리(SharePoint Server 2010)를 참조하십시오.

사용자 지정 사전을 만드는 규칙

사용자 지정 사전은 유니코드 형식 파일로, 각 항목은 CR(캐리지 리턴) 및 LF(줄 바꿈)로 구분된 개별 줄에 있어야 합니다. 사용자 지정 사전에 항목을 추가할 때는 예기치 않은 결과를 방지하기 위해 다음 규칙을 고려하십시오.

  • 항목은 대/소문자를 구분하지 않습니다.

  • 파이프 문자(|)는 사용할 수 없습니다.

  • 공백은 사용할 수 없습니다.

  • 우물 정자(#)는 항목 맨 앞에는 사용할 수 없지만 항목 중간이나 맨 끝에는 사용할 수 있습니다.

  • 앞서 설명한 파이프, 우물 정자 및 공백을 제외한 모든 영숫자 문자, 기호 및 구문 기호를 사용할 수 있습니다.

  • 항목 최대 길이는 128자(유니코드)입니다.

아래 표에는 지원되는 항목과 지원되지 않는 항목의 예가 나와 있습니다.

표 1 - 사용자 지정 사전 파일에 지원되는 항목과 지원되지 않는 항목의 예

지원 미지원

dogfood

dog food

3#

#3

For#sale

For|sale

ASP.NET

IT&T

(2-Methoxymethylethoxy)propanol

34590-97-8

C7H1603

사용자 지정 사전의 항목 수에 대한 고정된 제한은 없습니다. 그러나 사용자 지정 사전 파일 하나의 총 크기가 2GB를 초과하지 않는 것이 좋습니다. 실제로는 항목 수를 수천 개 정도로 제한하는 것이 적절합니다.

사용자 지정 사전 만들기

다음 절차에 따라 사용자 지정 사전을 만듭니다.

사용자 지정 사전을 만들려면

  1. 이 절차를 수행하는 사용자 계정이 로컬 컴퓨터에서 Administrators 그룹의 구성원인지 확인합니다.

  2. 크롤링 서버에 로그온합니다.

  3. 텍스트 편집기에서 새 파일을 엽니다.

    이 문서 앞부분의 사용자 지정 사전을 만드는 규칙에 나와 있는 규칙에 따라 사용자 지정 사전에 포함할 단어를 입력합니다.

  4. 파일 메뉴에서 다른 이름으로 저장을 클릭합니다.

  5. 파일 형식 목록에서 모든 파일을 선택합니다.

  6. 인코딩 목록에서 유니코드를 선택합니다.

  7. 파일 이름 상자에 파일 이름을 CustomNNNN.lex 형식으로 입력합니다. 여기서 "Custom"은 리터럴 문자열이고, NNNN은 사용자 지정 사전을 만드는 언어의 4자리 16진수 코드이며, lex는 파일 이름 확장명입니다. 지원되는 언어에 대해 유효한 파일 이름 목록은 이 문서 뒷부분의 지원되는 언어를 참조하십시오.

  8. 저장 위치 목록에서 단어 분리기가 포함된 폴더(기본적으로 %ProgramFiles%\Microsoft Office Servers\14.0\Bin)로 이동합니다.

    참고

    사용자 지정 사전 파일은 로컬 파일 시스템의 이 폴더에 저장된 경우에만 사용할 수 있습니다. 예를 들어 SharePoint 사이트에만 저장된 경우에는 사용할 수 없습니다.

  9. 저장을 클릭합니다.

  10. 팜에 다른 크롤링 서버 또는 쿼리 서버가 없는 경우 SharePoint Server Search 14 서비스를 중지하고 다시 시작으로 이동하고, 그렇지 않으면 다음 절차인 "팜의 각 응용 프로그램 서버에 사용자 지정 사전 복사"를 진행합니다.

각 응용 프로그램 서버에 사용자 지정 사전 복사

팜의 각 응용 프로그램 서버에 사용자 지정 사전의 복사본이 있어야 합니다.

각 응용 프로그램에 사용자 지정 사전을 복사하려면

  1. 이 절차를 수행하는 사용자 계정이 팜의 각 응용 프로그램 서버(각 크롤링 서버 또는 쿼리 서버)의 Administrators 그룹 구성원인지 확인합니다.

  2. 팜의 각 응용 프로그램 서버에서 단어 분리기가 포함된 폴더(기본적으로 %ProgramFiles%\Microsoft Office Servers\14.0\Bin)에 새 사용자 지정 사전 파일을 복사합니다.

    참고

    사용자 지정 사전 파일은 로컬 파일 시스템의 이 폴더에 저장된 경우에만 사용할 수 있습니다. 예를 들어 SharePoint 사이트에만 저장된 경우에는 사용할 수 없습니다.

각 응용 프로그램 서버에서 SharePoint Server Search 14 서비스를 중지하고 다시 시작

팜의 각 응용 프로그램 서버에서 SharePoint Server Search 14 서비스를 다시 시작해야 합니다.

중요

중앙 관리의 서버 제공 서비스 페이지를 통해 서비스를 중지하고 다시 시작하지 마십시오. 이렇게 하면 서비스가 제거되고 인덱스 및 연결된 구성이 삭제됩니다. 대신 다음 단계를 실행하십시오.

각 응용 프로그램 서버에서 SharePoint Server Search 14 서비스를 중지하고 다시 시작하려면

  1. 이 절차를 수행하는 사용자 계정이 로컬 컴퓨터에서 Administrators 그룹의 구성원인지 확인합니다.

  2. 시작 메뉴에서 모든 프로그램, 관리 도구를 차례로 가리킨 다음 서비스를 클릭합니다.

  3. SharePoint Server Search 14 서비스를 마우스 오른쪽 단추로 클릭하고 속성을 클릭합니다. 그러면 속성 대화 상자가 나타납니다.

  4. 중지를 클릭하고, 서비스가 중지되면 시작을 클릭합니다.

  5. 시작 유형사용 안 함으로 설정되어 있지 않은지 확인합니다.

  6. 팜의 각 응용 프로그램 서버(각 크롤링 서버 및 각 쿼리 서버)에 대해 이 절차를 반복합니다.

전체 크롤링 수행

콘텐츠 인덱스에 사용자 지정 사전을 적용하려면 사용자 지정 사전에 추가한 토큰을 포함하는 콘텐츠에 대해 전체 크롤링을 수행해야 합니다. 전체 크롤링을 수행하는 방법에 대한 자세한 내용은 크롤링 관리(SharePoint Server 2010)를 참조하십시오.

지원되는 언어

아래 표에는 SharePoint Server 2010에서 사용자 지정 사전을 지원하는 언어가 나와 있습니다. 언어 중립 단어 분리기에 대해서는 사용자 지정 사전을 만들 수 없습니다. 이 표에는 각 지원되는 언어의 LCID(언어 코드 식별자) 및 언어 16진수 코드가 포함되어 있습니다. 16진수 코드의 첫 두 숫자는 언어를, 뒤의 두 숫자는 언어를 나타냅니다. 개별 언어에 대해 별도의 단어 분리기가 없는 언어의 경우 언어 16진수 코드의 처음 두 숫자는 항상 00입니다.

표 2 - 지원되는 언어

언어 LCID 언어 16진수 코드

아랍어

1025

0001

벵골어

1093

0045

불가리아어

1026

0002

카탈로니아어

1027

0003

크로아티아어

1050

001a

덴마크어

1030

0006

네덜란드어

1043

0013

영어

1033

0009

프랑스어

1036

000c

독일어

1031

0007

구자라트어

1095

0047

히브리어

1037

000d

힌디어

1081

0039

아이슬란드어

1039

000f

인도네시아어

1057

0021

이탈리아어

1040

0010

일본어

1041

0011

카나다어

1099

004b

라트비아어

1062

0026

리투아니아어

1063

0027

말레이어

1086

003e

말라얄람어

1100

004c

마라티어

1102

004e

노르웨이어(복말)

1044

0414

포르투갈어

2070

0816

포르투갈어(브라질)

1046

0416

펀잡어

1094

0046

루마니아어

1048

0018

러시아어

1049

0019

세르비아어(키릴 자모)

3098

0c1a

세르비아어(라틴 문자)

2074

081a

슬로바키아어

1051

001b

슬로베니아어

1060

0024

스페인어

3082

000a

스웨덴어

1053

001d

타밀어

1097

0049

텔루구어

1098

004a

우크라이나어

1058

0022

우르두어

1056

0020

베트남어

1066

002a

See Also

Concepts

동의어 사전 파일 관리(SharePoint Server 2010)