사용자 지정 사전 만들기(Office SharePoint Server 2007)
업데이트 날짜: 2008년 10월
적용 대상: Office SharePoint Server 2007
마지막으로 수정된 항목: 2015-03-09
사용자 지정 사전은 동일한 언어의 단어 분리기가 완전한 단어로 간주하도록 할 단어를 지정하는 데 사용할 수 있는 유니코드 인코딩 파일입니다. 사용자 지정 사전은 기본적으로 제공되지 않습니다. 여러 언어의 단어 분리기 동작을 수정하려면 수정할 각 언어에 대해 사용자 지정 사전을 별도로 만들어야 합니다. 언어 중립 단어 분리기에 대해서는 사용자 지정 사전을 만들 수 없습니다.
참고
사용자 지정 사전은 서버 팜의 모든 공유 서비스 공급자에 적용됩니다.
다음 표에서는 Microsoft Office SharePoint Server 2007에서 사용자 지정 사전을 지원하는 언어 및 방언과, 지원되는 각 언어 및 방언에 대한 LCID(언어 코드 식별자) 및 16진수 언어 코드를 보여 줍니다.
각 언어의 16진수 코드에서 앞의 두 숫자는 방언을 나타내고 뒤의 두 숫자는 언어를 나타냅니다. 개별 방언에 대한 별도의 단어 분리기가 없는 언어의 경우 16진수 언어 코드에서 앞의 두 숫자는 항상 00입니다.
표 1 - 지원되는 언어
언어/방언 | LCID | 16진수 언어 코드 |
---|---|---|
아랍어 |
1025 |
0001 |
벵골어 |
1093 |
0045 |
불가리아어 |
1026 |
0002 |
카탈로니아어 |
1027 |
0003 |
크로아티아어 |
1050 |
001a |
덴마크어 |
1030 |
0006 |
네덜란드어 |
1043 |
0013 |
영어 |
1033 |
0009 |
프랑스어 |
1036 |
000c |
독일어 |
1031 |
0007 |
구자라트어 |
1095 |
0047 |
히브리어 |
1037 |
000d |
힌디어 |
1081 |
0039 |
아이슬란드어 |
1039 |
000f |
인도네시아어 |
1057 |
0021 |
이탈리아어 |
1040 |
0010 |
일본어 |
1041 |
0011 |
카나다어 |
1099 |
004b |
라트비아어 |
1062 |
0026 |
리투아니아어 |
1063 |
0027 |
말레이어 |
1086 |
003e |
말라얄람어 |
1100 |
004c |
마라티어 |
1102 |
004e |
노르웨이어(복말) |
1044 |
0414 |
포르투갈어 |
2070 |
0816 |
포르투갈어(브라질) |
1046 |
0416 |
펀잡어 |
1094 |
0046 |
루마니아어 |
1048 |
0018 |
러시아어 |
1049 |
0019 |
세르비아어(키릴 자모) |
3098 |
0c1a |
세르비아어(라틴 문자) |
2074 |
081a |
슬로바키아어 |
1051 |
001b |
슬로베니아어 |
1060 |
0024 |
스페인어 |
3082 |
000a |
스웨덴어 |
1053 |
001d |
타밀어 |
1097 |
0049 |
텔루구어 |
1098 |
004a |
우크라이나어 |
1058 |
0022 |
우르두어 |
1056 |
0020 |
베트남어 |
1066 |
002a |
사용자 지정 사전을 사용하는 이유
사용자 지정 사전은 특정 언어의 단어 분리기가 특정 언어를 무시(단어를 분리하지 않음)하도록 하는 데 사용됩니다. 사용자 지정 사전의 필요 여부 및 사용자 지정 사전에 포함해야 하는 단어나 항목에 대해 이해하려는 경우 단어 분리기의 동작을 이해하는 것이 도움이 됩니다.
단어 분리기는 인덱싱 시스템에서 콘텐츠를 인덱싱할 때 단어를 토큰으로 분리하는 데 사용되며, 쿼리 시스템에서 쿼리의 단어를 토큰으로 분리할 때도 사용됩니다. 두 경우 모두, 현재 사용 중인 단어 분리기의 언어 및 방언을 지원하는 사용자 지정 사전을 기존에 만든 경우에는 Office Server 검색 서비스에서 사용자 지정 사전에 단어가 있는지 확인한 후에 해당 단어에 대해 단어 분리기를 사용할 것인지를 결정합니다. 사용자 지정 사전에 단어가 없는 경우에는 단어 분리기가 일반적인 작업을 수행하여 해당 단어를 여러 단어나 토큰으로 분리합니다. 반면 사용자 지정 사전에 단어가 있는 경우에는 단어 분리기가 해당 단어에 대해 어떤 작업도 수행하지 않습니다.
다음 예제에서는 일반적인 단어 분리기 동작과 사용자 지정 사전의 항목이 해당 동작에 미치는 영향에 대해 설명합니다.
예제 1
특정 단어 분리기가 IT&T와 같은 단어를 발견하면 앰퍼샌드 기호(&)에서 단어를 분리합니다. 따라서 단어 IT와 문자 T가 분리되는데, 대부분의 언어에서 단어 분리기는 문자 T를 노이즈 단어로 간주하여 삭제합니다. 그러나 IT&T라는 단어가 현재 사용 중인 단어 분리기와 같은 언어의 사용자 지정 사전에 있는 경우에는 단어 분리기가 IT&T 단어를 무시합니다. 즉, 전체 크롤링을 수행하는 경우 해당 단어는 IT&T로 인덱싱됩니다. 사용자가 IT&T 단어에 대한 쿼리를 입력할 때도 단어 분리기는 해당 단어를 분리하지 않습니다. 즉, "IT" 또는 "T"를 포함하는 쿼리를 실행하면 "IT&T" 단어가 들어 있는 문서에 대한 검색 결과는 반환되지 않고 "IT" 또는 "T" 단어가 들어 있는 문서에 대한 검색 결과만 반환됩니다.
예제 2
SCN(SystemicChemicalNames) 또는 CAS 번호와 같은 용어는 단어 분리기의 영향을 받을 수 있습니다. 예를 들어 단어 분리기는 보통 하이픈이나 기타 특수 문자 앞뒤에 있는 숫자 하나를 나머지 숫자 부분과 분리합니다. CAS 번호의 예로 산소의 CAS 등록 번호인 7782-44-7을 들어보겠습니다. 단어 분리기의 처리가 끝나면 이 단어는 세 개의 부분, 즉 7782, 44, 7의 세 숫자로 분리됩니다. 숫자 모음에 나타나는 SCN 및 CAS 번호를 해당하는 각 언어의 사용자 지정 사전에 추가하면 시스템에서 SCN 및 CAS 번호를 개별 숫자로 분리하지 않고 인덱싱할 수 있습니다. 쿼리를 수행할 때 콘텐츠의 언어에 해당하는 단어 분리기와 사용자 지정 사전이 사용되므로, 사용자가 쿼리에 SCN 또는 CAS 번호를 포함해도 이들 번호가 여러 부분으로 분리되지 않습니다.
정규화 및 동의어 사전 파일
일반적으로 단어 분리기에서 적용하는 날짜 정규화와 같은 명명된 엔터티의 정규화는 사용자 지정 사전에 있는 쿼리 용어에 적용되지 않습니다. 대신, 사용자 지정 사전에 있는 모든 쿼리 용어는 정확하게 일치하는 항목으로 간주됩니다. 이는 동의어 사전 파일에 앞서 언급한 것과 같은 단어나 숫자가 있는 경우에 매우 중요합니다. 예를 들어 CAS 번호 7782-44-7이 동의어 사전의 확장 세트에 속하는 경우, 단어 분리기가 이 번호를 하이픈에서 분리하여 세 개의 개별 숫자로 나누면 해당 번호가 속한 확장 세트가 제대로 작동하지 않을 수 있습니다. 이 경우에는 해당하는 언어의 사용자 지정 사전에 CAS 번호 7782-44-7을 추가하면 문제가 해결됩니다.
시작하기 전에
사용자 지정 사전은 CR(캐리지 리턴) 및 LF(줄 바꿈)로 구분되는 각 줄에 항목(사용자가 지정하는 단어)이 있는 유니코드 형식 파일이며, 간단하게 만들거나 수정할 수 있습니다. 사용자 지정 사전에 항목을 추가할 때는 예기치 않은 결과가 발생하지 않도록 다음 규칙을 고려해야 합니다.
항목은 대/소문자를 구분하지 않습니다.
사용자 지정 사전에서는 파이프 문자(|)를 사용할 수 없습니다.
사용자 지정 사전에서는 공백을 사용할 수 없습니다.
우물 정자 문자(#)는 항목 앞에는 사용할 수 없지만 항목 안이나 뒤에는 사용할 수 있습니다.
앞서 설명한 파이프, 우물 정자 및 공백을 제외한 모든 영숫자 문자, 문장 부호, 기호 및 분리 문자를 사용할 수 있습니다.
항목의 최대 길이는 128자(유니코드)입니다.
다음 표에서는 지원되는 항목과 지원되지 않는 항목의 예제를 보여 줍니다.
표 2 - 지원되는 항목과 지원되지 않는 항목 예제
지원되는 항목 | 지원되지 않는 항목 |
---|---|
dogfood |
dog food |
1.36kg |
#3 |
Four#sale |
dog|food |
ASP.NET |
|
IT&T |
|
(2-Methoxymethylethoxy)propanol |
|
34590-97-8 |
|
C7H1603 |
사용자 지정 사전에는 항목 수에 제한 없이 항목을 포함할 수 있지만 사용자 지정 사전의 전체 파일 크기가 2GB를 넘지 않도록 하는 것이 좋습니다. 그리고 실제로는 항목 수를 수천 개 단위로 제한하는 것이 좋습니다.
사용자 지정 사전 만들기
사용자 지정 사전을 만들기 전에 이 문서 앞부분의 시작하기 전에 섹션을 읽어야 합니다. 사용자 지정 사전에서 지원되는 항목과 지원되지 않는 항목 간의 차이점을 이해해야 하기 때문입니다.
참고
이 절차를 수행하려면 서버 팜의 각 인덱스 서버 및 쿼리 서버에서 Administrators 그룹의 구성원이어야 합니다.
사용자 지정 사전을 만들려면
Administrators 그룹 구성원으로 인덱스 서버에 로그온합니다.
메모장을 시작하여 사용자 지정 사전에 포함할 단어를 입력합니다. 시작하기 전에 섹션에서 설명한 입력할 수 없는 항목을 입력하지 않도록 하십시오.
팁
단어는 한 줄에 하나씩 입력하고 CR(캐리지 리턴) 및 LF(줄 바꿈)로 구분해야 합니다.
파일 메뉴에서 다른 이름으로 저장을 클릭합니다.
파일 형식 목록에서 모든 파일을 선택합니다.
인코딩 목록에서 유니코드를 선택합니다.
파일 이름 상자에 파일 이름을 CustomNNNN.lex 형식으로 입력합니다. 여기서 NNNN은 사용자 지정 사전을 만드는 데 사용한 언어의 16진수 코드입니다. 지원되는 언어 및 방언의 올바른 파일 이름 목록은 이 문서 앞부분의 표 1을 참조하십시오.
저장 위치 목록에서 단어 분리기가 있는 폴더를 찾습니다. 이 폴더는 기본적으로 드라이브:\program files\Microsoft Office Servers\12\bin이며, 여기서 드라이브는 Office SharePoint Server 2007이 설치되어 있는 드라이브 문자입니다.
저장을 클릭합니다.
인덱스 서버와 별도로 쿼리 서버가 있는 경우에만 다음 절차를 수행하십시오. 그렇지 않은 경우에는 Office SharePoint Server 검색 서비스 중지 및 다시 시작으로 이동합니다.
다른 서버로 사용자 지정 사전 복사
Administrators 그룹 구성원으로 인덱스 서버에 로그온합니다.
사용자 지정 사전 파일을 저장한 폴더로 이동합니다.
사용자 지정 사전 파일을 첫 번째 쿼리 서버의 단어 분리기가 있는 폴더로 복사합니다. 이 폴더는 기본적으로 드라이브:\program files\Microsoft Office Servers\12\bin이며, 여기서 드라이브는 Office SharePoint Server 2007이 설치되어 있는 드라이브 문자입니다.
해당하는 콘텐츠에 대해 전체 크롤링을 수행합니다. 전체 크롤링을 수행하는 방법에 대한 자세한 내용은 콘텐츠 크롤링(Office SharePoint Server 2007)을 참조하십시오.
서버 팜의 각 쿼리 서버에 대해 1-3단계를 반복합니다.
Office SharePoint Server 검색 서비스 중지 및 다시 시작
모든 인덱스 서버 및 쿼리 서버에서 OSearch 서비스를 다시 시작해야 합니다.
중요
이러한 서비스를 중지하고 시작할 때 중앙 관리의 서버 제공 서비스 페이지를 사용하면 안 됩니다. 서버 제공 서비스 페이지를 사용하면 서비스가 제거되고 인덱스와 관련 구성이 삭제되므로, 다음 단계를 사용하십시오.
Office SharePoint Server 검색 서비스를 중지하고 다시 시작하려면
Administrators 그룹 구성원으로 인덱스 서버에 로그온합니다.
시작 메뉴에서 모든 프로그램, 관리 도구를 차례로 가리킨 다음 서비스를 클릭합니다.
목록을 아래로 스크롤하여 Office SharePoint Server 검색 서비스를 마우스 오른쪽 단추로 클릭한 다음 속성을 클릭합니다. 속성 페이지가 나타납니다.
중지를 클릭합니다. 서비스가 중지된 후 시작을 클릭합니다.
시작 유형이 사용 안 함으로 설정되어 있으면 안 됩니다.
서버 팜에 인덱스 서버와는 별도로 쿼리 서버가 있는 경우에는 각 쿼리 서버에서 1-5단계를 반복합니다.
전체 크롤링 수행
사용자 지정 사전을 콘텐츠 인덱스에 적용하려면 사용자 지정 사전에 추가한 단어가 들어 있는 모든 콘텐츠 원본에 대해 전체 크롤링을 수행해야 합니다. 전체 크롤링을 수행하는 방법에 대한 자세한 내용은 콘텐츠 크롤링(Office SharePoint Server 2007)을 참조하십시오.