사용자 지정 사전 만들기(Office SharePoint Server 2007)

업데이트 날짜: 2008년 10월

적용 대상: Office SharePoint Server 2007

 

마지막으로 수정된 항목: 2015-03-09

사용자 지정 사전은 동일한 언어의 단어 분리기가 완전한 단어로 간주하도록 할 단어를 지정하는 데 사용할 수 있는 유니코드 인코딩 파일입니다. 사용자 지정 사전은 기본적으로 제공되지 않습니다. 여러 언어의 단어 분리기 동작을 수정하려면 수정할 각 언어에 대해 사용자 지정 사전을 별도로 만들어야 합니다. 언어 중립 단어 분리기에 대해서는 사용자 지정 사전을 만들 수 없습니다.

참고

사용자 지정 사전은 서버 팜의 모든 공유 서비스 공급자에 적용됩니다.

다음 표에서는 Microsoft Office SharePoint Server 2007에서 사용자 지정 사전을 지원하는 언어 및 방언과, 지원되는 각 언어 및 방언에 대한 LCID(언어 코드 식별자) 및 16진수 언어 코드를 보여 줍니다.

각 언어의 16진수 코드에서 앞의 두 숫자는 방언을 나타내고 뒤의 두 숫자는 언어를 나타냅니다. 개별 방언에 대한 별도의 단어 분리기가 없는 언어의 경우 16진수 언어 코드에서 앞의 두 숫자는 항상 00입니다.

표 1 - 지원되는 언어

언어/방언 LCID 16진수 언어 코드

아랍어

1025

0001

벵골어

1093

0045

불가리아어

1026

0002

카탈로니아어

1027

0003

크로아티아어

1050

001a

덴마크어

1030

0006

네덜란드어

1043

0013

영어

1033

0009

프랑스어

1036

000c

독일어

1031

0007

구자라트어

1095

0047

히브리어

1037

000d

힌디어

1081

0039

아이슬란드어

1039

000f

인도네시아어

1057

0021

이탈리아어

1040

0010

일본어

1041

0011

카나다어

1099

004b

라트비아어

1062

0026

리투아니아어

1063

0027

말레이어

1086

003e

말라얄람어

1100

004c

마라티어

1102

004e

노르웨이어(복말)

1044

0414

포르투갈어

2070

0816

포르투갈어(브라질)

1046

0416

펀잡어

1094

0046

루마니아어

1048

0018

러시아어

1049

0019

세르비아어(키릴 자모)

3098

0c1a

세르비아어(라틴 문자)

2074

081a

슬로바키아어

1051

001b

슬로베니아어

1060

0024

스페인어

3082

000a

스웨덴어

1053

001d

타밀어

1097

0049

텔루구어

1098

004a

우크라이나어

1058

0022

우르두어

1056

0020

베트남어

1066

002a

사용자 지정 사전을 사용하는 이유

사용자 지정 사전은 특정 언어의 단어 분리기가 특정 언어를 무시(단어를 분리하지 않음)하도록 하는 데 사용됩니다. 사용자 지정 사전의 필요 여부 및 사용자 지정 사전에 포함해야 하는 단어나 항목에 대해 이해하려는 경우 단어 분리기의 동작을 이해하는 것이 도움이 됩니다.

단어 분리기는 인덱싱 시스템에서 콘텐츠를 인덱싱할 때 단어를 토큰으로 분리하는 데 사용되며, 쿼리 시스템에서 쿼리의 단어를 토큰으로 분리할 때도 사용됩니다. 두 경우 모두, 현재 사용 중인 단어 분리기의 언어 및 방언을 지원하는 사용자 지정 사전을 기존에 만든 경우에는 Office Server 검색 서비스에서 사용자 지정 사전에 단어가 있는지 확인한 후에 해당 단어에 대해 단어 분리기를 사용할 것인지를 결정합니다. 사용자 지정 사전에 단어가 없는 경우에는 단어 분리기가 일반적인 작업을 수행하여 해당 단어를 여러 단어나 토큰으로 분리합니다. 반면 사용자 지정 사전에 단어가 있는 경우에는 단어 분리기가 해당 단어에 대해 어떤 작업도 수행하지 않습니다.

다음 예제에서는 일반적인 단어 분리기 동작과 사용자 지정 사전의 항목이 해당 동작에 미치는 영향에 대해 설명합니다.

예제 1

특정 단어 분리기가 IT&T와 같은 단어를 발견하면 앰퍼샌드 기호(&)에서 단어를 분리합니다. 따라서 단어 IT와 문자 T가 분리되는데, 대부분의 언어에서 단어 분리기는 문자 T를 노이즈 단어로 간주하여 삭제합니다. 그러나 IT&T라는 단어가 현재 사용 중인 단어 분리기와 같은 언어의 사용자 지정 사전에 있는 경우에는 단어 분리기가 IT&T 단어를 무시합니다. 즉, 전체 크롤링을 수행하는 경우 해당 단어는 IT&T로 인덱싱됩니다. 사용자가 IT&T 단어에 대한 쿼리를 입력할 때도 단어 분리기는 해당 단어를 분리하지 않습니다. 즉, "IT" 또는 "T"를 포함하는 쿼리를 실행하면 "IT&T" 단어가 들어 있는 문서에 대한 검색 결과는 반환되지 않고 "IT" 또는 "T" 단어가 들어 있는 문서에 대한 검색 결과만 반환됩니다.

예제 2

SCN(SystemicChemicalNames) 또는 CAS 번호와 같은 용어는 단어 분리기의 영향을 받을 수 있습니다. 예를 들어 단어 분리기는 보통 하이픈이나 기타 특수 문자 앞뒤에 있는 숫자 하나를 나머지 숫자 부분과 분리합니다. CAS 번호의 예로 산소의 CAS 등록 번호인 7782-44-7을 들어보겠습니다. 단어 분리기의 처리가 끝나면 이 단어는 세 개의 부분, 즉 7782, 44, 7의 세 숫자로 분리됩니다. 숫자 모음에 나타나는 SCN 및 CAS 번호를 해당하는 각 언어의 사용자 지정 사전에 추가하면 시스템에서 SCN 및 CAS 번호를 개별 숫자로 분리하지 않고 인덱싱할 수 있습니다. 쿼리를 수행할 때 콘텐츠의 언어에 해당하는 단어 분리기와 사용자 지정 사전이 사용되므로, 사용자가 쿼리에 SCN 또는 CAS 번호를 포함해도 이들 번호가 여러 부분으로 분리되지 않습니다.

정규화 및 동의어 사전 파일

일반적으로 단어 분리기에서 적용하는 날짜 정규화와 같은 명명된 엔터티의 정규화는 사용자 지정 사전에 있는 쿼리 용어에 적용되지 않습니다. 대신, 사용자 지정 사전에 있는 모든 쿼리 용어는 정확하게 일치하는 항목으로 간주됩니다. 이는 동의어 사전 파일에 앞서 언급한 것과 같은 단어나 숫자가 있는 경우에 매우 중요합니다. 예를 들어 CAS 번호 7782-44-7이 동의어 사전의 확장 세트에 속하는 경우, 단어 분리기가 이 번호를 하이픈에서 분리하여 세 개의 개별 숫자로 나누면 해당 번호가 속한 확장 세트가 제대로 작동하지 않을 수 있습니다. 이 경우에는 해당하는 언어의 사용자 지정 사전에 CAS 번호 7782-44-7을 추가하면 문제가 해결됩니다.

시작하기 전에

사용자 지정 사전은 CR(캐리지 리턴) 및 LF(줄 바꿈)로 구분되는 각 줄에 항목(사용자가 지정하는 단어)이 있는 유니코드 형식 파일이며, 간단하게 만들거나 수정할 수 있습니다. 사용자 지정 사전에 항목을 추가할 때는 예기치 않은 결과가 발생하지 않도록 다음 규칙을 고려해야 합니다.

  • 항목은 대/소문자를 구분하지 않습니다.

  • 사용자 지정 사전에서는 파이프 문자(|)를 사용할 수 없습니다.

  • 사용자 지정 사전에서는 공백을 사용할 수 없습니다.

  • 우물 정자 문자(#)는 항목 앞에는 사용할 수 없지만 항목 안이나 뒤에는 사용할 수 있습니다.

  • 앞서 설명한 파이프, 우물 정자 및 공백을 제외한 모든 영숫자 문자, 문장 부호, 기호 및 분리 문자를 사용할 수 있습니다.

  • 항목의 최대 길이는 128자(유니코드)입니다.

다음 표에서는 지원되는 항목과 지원되지 않는 항목의 예제를 보여 줍니다.

표 2 - 지원되는 항목과 지원되지 않는 항목 예제

지원되는 항목 지원되지 않는 항목

dogfood

dog food

1.36kg

#3

Four#sale

dog|food

ASP.NET

IT&T

(2-Methoxymethylethoxy)propanol

34590-97-8

C7H1603

사용자 지정 사전에는 항목 수에 제한 없이 항목을 포함할 수 있지만 사용자 지정 사전의 전체 파일 크기가 2GB를 넘지 않도록 하는 것이 좋습니다. 그리고 실제로는 항목 수를 수천 개 단위로 제한하는 것이 좋습니다.

사용자 지정 사전 만들기

사용자 지정 사전을 만들기 전에 이 문서 앞부분의 시작하기 전에 섹션을 읽어야 합니다. 사용자 지정 사전에서 지원되는 항목과 지원되지 않는 항목 간의 차이점을 이해해야 하기 때문입니다.

참고

이 절차를 수행하려면 서버 팜의 각 인덱스 서버 및 쿼리 서버에서 Administrators 그룹의 구성원이어야 합니다.

사용자 지정 사전을 만들려면

  1. Administrators 그룹 구성원으로 인덱스 서버에 로그온합니다.

  2. 메모장을 시작하여 사용자 지정 사전에 포함할 단어를 입력합니다. 시작하기 전에 섹션에서 설명한 입력할 수 없는 항목을 입력하지 않도록 하십시오.

    단어는 한 줄에 하나씩 입력하고 CR(캐리지 리턴) 및 LF(줄 바꿈)로 구분해야 합니다.

  3. 파일 메뉴에서 다른 이름으로 저장을 클릭합니다.

  4. 파일 형식 목록에서 모든 파일을 선택합니다.

  5. 인코딩 목록에서 유니코드를 선택합니다.

  6. 파일 이름 상자에 파일 이름을 CustomNNNN.lex 형식으로 입력합니다. 여기서 NNNN은 사용자 지정 사전을 만드는 데 사용한 언어의 16진수 코드입니다. 지원되는 언어 및 방언의 올바른 파일 이름 목록은 이 문서 앞부분의 표 1을 참조하십시오.

  7. 저장 위치 목록에서 단어 분리기가 있는 폴더를 찾습니다. 이 폴더는 기본적으로 드라이브:\program files\Microsoft Office Servers\12\bin이며, 여기서 드라이브는 Office SharePoint Server 2007이 설치되어 있는 드라이브 문자입니다.

  8. 저장을 클릭합니다.

    인덱스 서버와 별도로 쿼리 서버가 있는 경우에만 다음 절차를 수행하십시오. 그렇지 않은 경우에는 Office SharePoint Server 검색 서비스 중지 및 다시 시작으로 이동합니다.

다른 서버로 사용자 지정 사전 복사

  1. Administrators 그룹 구성원으로 인덱스 서버에 로그온합니다.

  2. 사용자 지정 사전 파일을 저장한 폴더로 이동합니다.

  3. 사용자 지정 사전 파일을 첫 번째 쿼리 서버의 단어 분리기가 있는 폴더로 복사합니다. 이 폴더는 기본적으로 드라이브:\program files\Microsoft Office Servers\12\bin이며, 여기서 드라이브는 Office SharePoint Server 2007이 설치되어 있는 드라이브 문자입니다.

  4. 해당하는 콘텐츠에 대해 전체 크롤링을 수행합니다. 전체 크롤링을 수행하는 방법에 대한 자세한 내용은 콘텐츠 크롤링(Office SharePoint Server 2007)을 참조하십시오.

  5. 서버 팜의 각 쿼리 서버에 대해 1-3단계를 반복합니다.

Office SharePoint Server 검색 서비스 중지 및 다시 시작

모든 인덱스 서버 및 쿼리 서버에서 OSearch 서비스를 다시 시작해야 합니다.

중요

이러한 서비스를 중지하고 시작할 때 중앙 관리의 서버 제공 서비스 페이지를 사용하면 안 됩니다. 서버 제공 서비스 페이지를 사용하면 서비스가 제거되고 인덱스와 관련 구성이 삭제되므로, 다음 단계를 사용하십시오.

Office SharePoint Server 검색 서비스를 중지하고 다시 시작하려면

  1. Administrators 그룹 구성원으로 인덱스 서버에 로그온합니다.

  2. 시작 메뉴에서 모든 프로그램, 관리 도구를 차례로 가리킨 다음 서비스를 클릭합니다.

  3. 목록을 아래로 스크롤하여 Office SharePoint Server 검색 서비스를 마우스 오른쪽 단추로 클릭한 다음 속성을 클릭합니다. 속성 페이지가 나타납니다.

  4. 중지를 클릭합니다. 서비스가 중지된 후 시작을 클릭합니다.

  5. 시작 유형이 사용 안 함으로 설정되어 있으면 안 됩니다.

  6. 서버 팜에 인덱스 서버와는 별도로 쿼리 서버가 있는 경우에는 각 쿼리 서버에서 1-5단계를 반복합니다.

전체 크롤링 수행

사용자 지정 사전을 콘텐츠 인덱스에 적용하려면 사용자 지정 사전에 추가한 단어가 들어 있는 모든 콘텐츠 원본에 대해 전체 크롤링을 수행해야 합니다. 전체 크롤링을 수행하는 방법에 대한 자세한 내용은 콘텐츠 크롤링(Office SharePoint Server 2007)을 참조하십시오.