다음을 통해 공유


단어 분리기, 형태소 분석기 및 의미 없는 단어 파일이 검색 결과에 미치는 영향(Search Server 2008)

적용 대상: Microsoft Search Server 2008

 

마지막으로 수정된 항목: 2015-03-09

참고

별도의 공지가 없는 한 이 문서의 정보는 Microsoft Search Server 2008과 Microsoft Search Server 2008 Express에 모두 적용됩니다.

단어 분리기, 형태소 분석기 및 의미 없는 단어 파일(중지 단어 파일이라고도 함)은 모두 인덱싱 및 쿼리 프로세스의 일부인 구성 요소입니다.

이 문서의 내용

  • 단어 분리기

  • 형태소 분석기

  • 의미 없는 단어 파일

단어 분리기

단어 분리기는 인덱싱 및 쿼리 프로세스 중에 텍스트 문자열을 개별 단어로 분리하는 데 사용되는 구성 요소입니다. 인덱싱 프로세스 중에 텍스트는 콘텐츠 항목에서 분리되지 않은 문자열로 추출됩니다. 단어 분리기는 문자열의 각 단어가 시작하고 끝나는 위치를 다시 설정합니다. 또한 단어 분리기는 사용자가 원래 복합어 부분에 대한 쿼리 결과와 복합어를 구성하는 개별 단어에 대한 쿼리 결과까지 받도록 복합어를 구분합니다. 단어 분리기는 콘텐츠 항목의 숫자와 날짜를 표준 형식으로 변환합니다.

언어마다 서로 다른 단어 분리기가 있습니다. 인덱싱 엔진은 사용할 단어 분리기를 결정하며, 둘 이상의 언어를 검색하는 경우 한 문서에서 제공되는 텍스트에 둘 이상의 단어 분리기를 사용할 수 있습니다. 특정 언어에 대한 단어 분리기가 없으면 중립 단어 분리기가 사용됩니다.

단어 분리기는 쿼리 엔진에서도 사용됩니다. 사용자가 쿼리를 전송하는 경우 단어 분리기는 복합어와 구를 분리하는 데 사용됩니다. 이에 따라 사용자의 쿼리가 콘텐츠 인덱스의 단어와 일치할 수 있는 가능성이 커집니다. 쿼리 중에 단어 분리기의 언어는 사용자 웹 브라우저의 언어로 결정됩니다.

기본적으로 Search Server 2008에서는 Search Server 팜의 각 서버에 다음 표에 나와 있는 단어 분리기를 설치합니다.

아랍어

헝가리어

펀잡어

벵골어

아이슬란드어

루마니아어

불가리아어

인도네시아어

러시아어

카탈로니아어

이탈리아어

세르비아어(키릴 자모)

크로아티아어

일본어

세르비아어(라틴 문자)

체코어

카나다어

슬로바키아어

덴마크어

한국어

슬로베니아어

네덜란드어

라트비아어

스페인어

영어

리투아니아어

스웨덴어

핀란드어

말레이어

타밀어

프랑스어

말라얄람어

텔루구어

독일어

마라티어

태국어

그리스어

노르웨이어(복말)

터키어

구자라트어

폴란드어

우크라이나어

히브리어

포르투갈어

우르두어

힌디어

포르투갈어(브라질)

베트남어

형태소 분석기

형태소 분석기는 단어의 어근을 찾는 구성 요소이며 해당 단어의 변형도 생성할 수 있습니다. 예를 들어 영어의 경우 쿼리에 “bought”라는 단어가 포함되어 있으면 형태소 분석기는 “buy”라는 어근을 쿼리에 추가하고 “buys” 및 “buying”과 같은 이 단어의 다른 형태를 생성하여 쿼리에 추가할 수도 있습니다.

형태소 분석기는 언어별로 다르며 지원하는 언어에 따라 다른 기능을 제공할 수 있습니다. 일부 형태소 분석기는 어근을 찾지만 추가적인 단어 형태를 생성하지 않습니다. 많은 언어의 경우 기본적으로 형태소 분석이 쿼리 중에 해제됩니다. 핵심 결과 검색 웹 파트에서 검색 쿼리의 형태소 분석을 수행하도록 설정할 수 있습니다.

참고

형태소 분석을 지원하는 언어의 경우 단어 분리기가 있는 모든 언어에는 형태소 분석기도 있습니다. 일부 언어의 경우 형태소 분석기가 설치되어 있지만 사용하도록 설정되어 있지 않습니다. 이러한 형태소 분석기를 사용하도록 설정하려면 레지스트리를 편집해야 합니다. 이러한 특정 언어에 형태소 분석기를 사용하도록 설정하는 방법에 대한 자세한 내용은 SharePoint Server 2007에서 단어 분리기 및 형태소 분석기를 설정하는 방법(https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x412)을 참조하십시오.

의미 없는 단어 파일

언어의 일부 단어는 검색을 수행할 때 유용하지 않습니다. 예를 들어 영어에서 “the” 및 “an”과 같은 단어는 영어로 작성된 거의 모든 문서에 포함되기 때문에 검색 가치가 거의 없습니다. 검색 가치가 거의 없는 단어를 의미 없는 단어라고 하며 중지 단어라고도 합니다. 인덱싱 프로세스 중에 의미 없는 단어는 인덱스를 더 작게 유지하기 위해 제거되므로 성능이 향상될 수 있습니다. 의미 없는 단어는 편집할 수 있는 언어별 텍스트 파일에 포함됩니다. 의미 없는 단어 파일에서 단어를 제거하거나 추가하려면 콘텐츠의 전체 크롤링이 필요합니다.

의미 없는 단어 파일은 이전 버전의 SharePoint 제품에서 크게 변경되었습니다. 의미 없는 단어 파일에 이전에 포함되어 있던 많은 의미 없는 단어가 Search Server 의미 없는 단어 파일에서 제거되고 콘텐츠 인덱스에 포함되었습니다. 기본적으로 사용자는 이전에 의미 없는 단어로 제외된 단어에 대한 쿼리를 수행할 수 있습니다. 이러한 쿼리를 의미 없는 단어 쿼리라고 합니다. 핵심 결과 검색 웹 파트에서 이러한 검색을 허용하지 않을 수 있습니다. 또한 쿼리에서 따옴표로 묶인 문자열에 의미 없는 단어가 포함된 경우 의미 없는 단어가 쿼리 결과에서 임의의 단어로 대체될 수 있습니다. 예를 들어 쿼리에 “configure a server”가 포함된 경우 “configure the server” 및 “configure every server”가 포함된 콘텐츠 항목이 쿼리 결과에 포함됩니다.

참고

의미 없는 단어 파일에서 단어를 모두 제거하지 마십시오. 의미 없는 단어 파일에는 항목이 적어도 하나 포함되어 있어야 합니다(항목은 마침표(.) 문자여도 됨).

참고 항목

개념

검색 결과 향상을 위한 설정 관리(Search Server 2008)
신뢰할 수 있는 페이지 구성(Search Server 2008)
최상의 선택이 포함된 키워드 용어 추가(Search Server 2008)