동의어 사전 파일 구성

업데이트: 2006년 12월 12일

Microsoft SQL Server 2005에 포함된 모든 동의어 사전 파일의 형식은 다음과 같습니다.

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out
    <thesaurus xmlns="x-schema:tsSchema.xml">
      <diacritics = false/>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

각 동의어 사전 파일에는 다음 섹션이 하나 이상 포함되어 있습니다.

  • 확장 집합
    확장 집합에는 동의어 그룹이 포함되어 있습니다. 이러한 동의어는 코드에서 "대체" 태그(<sub> 및 </sub>)로 식별됩니다. 하나의 대체 집합에 일치하는 항목이 있는 쿼리는 확장 집합의 다른 모든 대체 단어를 포함하도록 확장됩니다.
  • 교체 집합
    교체 집합에는 대체 집합으로 바꿀 텍스트 패턴이 포함되어 있습니다. 예를 보려면 이 항목의 뒷부분에 나오는 "교체 집합" 섹션을 참조하십시오.

또한 동의어 사전 파일에는 <diacritics = false/> 태그가 포함되어 있습니다. false는 확장 및 교체 집합에 지정된 용어가 악센트를 구분하지 않음을 나타냅니다. 동의어 사전을 사용하여 검색할 때 악센트를 구분하려면 이 태그를 <diacritics = true/>로 변경합니다. 예를 들어 전체 텍스트 검색 쿼리에서 "café" 패턴을 다른 패턴으로 바꾸도록 지정한다고 가정합니다. 동의어 사전 파일이 악센트를 구분하지 않으면 전체 텍스트 검색 시 "café" 및 "cafe" 패턴이 바뀝니다. 동의어 사전 파일이 악센트를 구분하면 전체 텍스트 검색 시 "café" 패턴만 바뀝니다. 이 설정은 파일에서 한 번만 적용될 수 있으며 해당 파일의 모든 검색 패턴에 적용됩니다. 개별 패턴에 대해서는 이 설정을 지정할 수 없습니다.

ms345186.note(ko-kr,SQL.90).gif중요:
텍스트 편집기 도구를 사용하여 동의어 사전 파일을 편집하는 경우 파일을 유니코드 형식으로 저장하고 바이트 순서 표시를 지정해야 합니다.

확장 집합

각 확장 집합은 <expansion> 태그로 묶입니다. 확장 태그 내에서 하나 이상의 대체 단어를 <sub> 태그로 묶어 지정합니다. 확장 집합에 서로의 동의어인 대체 그룹을 지정할 수 있습니다.

예를 들어 "writer", "author" 및 "journalist" 대체 단어를 동의어로 처리하도록 확장 섹션을 편집할 수 있습니다. 하나의 대체 집합에 일치하는 항목이 있는 전체 텍스트 검색 쿼리는 확장 집합에 지정된 다른 모든 대체 단어를 포함하도록 확장됩니다. 따라서 위 예에서 "author"라는 단어에 대해 FORMS OF THESAURUS 또는 FREETEXT 쿼리를 실행하면 전체 텍스트 검색에 "writer" 및 "journalist"라는 단어를 포함하는 검색 결과가 반환됩니다.

다음은 위 예에 대한 확장 집합 섹션을 나타낸 것입니다.

 <expansion>
         <sub>writer</sub>
         <sub>author</sub>
         <sub>journalist</sub>
 </expansion>

교체 집합

각 교체 집합은 <replacement> 태그로 묶입니다. 각 교체 태그 내에서 하나 이상의 패턴을 <pat> 태그로 묶어 지정할 수 있습니다. 하나 이상의 대체 단어를 <sub> 태그로 묶어 지정할 수 있습니다. 대체 집합으로 바꿀 패턴을 지정할 수 있습니다. 패턴 및 대체 집합에는 단어 또는 일련의 단어를 포함할 수 있습니다.

예를 들어 "W2K" 패턴을 "Windows 2000" 또는 "XP" 대체 단어로 바꾸는 쿼리를 원하는 경우 "W2K"에 대해 전체 텍스트 쿼리를 실행하면 전체 텍스트 검색에 "Windows 2000" 또는 "XP"를 포함하는 검색 결과만 반환되고 "W2K"를 포함하는 결과는 반환되지 않습니다. 이는 "W2K" 패턴이 "Windows 2000" 및 "XP" 패턴으로 "바뀌었기" 때문입니다.

다음은 위 예에 대한 교체 집합 섹션을 나타낸 것입니다.

 <replacement>
         <pat>W2K</pat>
         <sub>Windows 2000</sub>
         <sub>XP</sub>
 </replacement>

패턴이 유사하게 일치하는 두 개의 교체 집합이 있는 경우 두 개 중 더 긴 것이 우선적으로 적용됩니다. 예를 들어 "Internet Explorer online community"에 대해 FORMS OF THESAURUS 쿼리를 실행하고 다음과 같은 교체 집합이 있는 경우 "Internet Explorer" 교체 집합이 "Internet" 교체 집합보다 우선적으로 적용됩니다. 따라서 쿼리가 "IE online community" 또는 "IE 5 online community"로 처리됩니다.

<replacement>
         <pat>Internet</pat>
         <sub>intranet</sub>
</replacement>

<replacement>
         <pat>Internet Explorer</pat>
         <sub>IE</sub>
         <sub>IE 5</sub>
</replacement>

참고 항목

개념

전체 텍스트 검색 아키텍처
사전
전체 텍스트 검색

관련 자료

CONTAINS(Transact-SQL)
FREETEXT(Transact-SQL)
FREETEXTTABLE(Transact-SQL)

도움말 및 정보

SQL Server 2005 지원 받기

변경 내역

릴리스 내역

2006년 12월 12일

변경된 내용
  • <diacritics_sensitive> 태그의 구문을 <diacritics = false/>로 수정하고 이 태그에 대한 설명을 업데이트했습니다.
새로운 내용
  • 동의어 사전 파일을 유니코드 형식으로 저장하고 바이트 순서 표시를 지정해야 함을 설명하는 중요 참고 섹션을 추가했습니다.

2006년 7월 17일

새로운 내용
  • <diacritics_sensitive> 태그의 의미에 대해 설명했습니다.