단어 분리기, 형태소 분석기 및 의미 없는 단어 파일이 검색 결과에 미치는 영향(Office SharePoint Server 2007)

적용 대상: Office SharePoint Server 2007

 

마지막으로 수정된 항목: 2015-03-09

중지 단어 파일이라고도 하는 단어 분리기, 형태소 분석기 및 의미 없는 단어 파일은 모두 인덱싱 및 쿼리 프로세스의 일부인 구성 요소입니다.

이 문서의 내용

  • 단어 분리기

  • 형태소 분석기

  • 의미 없는 단어 파일

단어 분리기

단어 분리기는 인덱싱 및 쿼리 프로세스 중 텍스트의 문자열을 개별 단어로 분리하는 데 사용되는 구성 요소입니다. 인덱싱 프로세스 중 콘텐츠 항목에서 분리되지 않은 문자열로 텍스트가 추출됩니다. 단어 분리기는 각 문자열의 각 단어가 시작되고 끝나는 부분을 다시 설정합니다. 또한 복합어를 분리하여 사용자가 원본 복합어의 일부 또는 복합어를 구성하고 있는 개별 용어에 대한 쿼리 결과를 받을 수 있도록 해 줍니다. 콘텐츠 항목의 숫자 및 날짜를 표준 양식으로 변환하기도 합니다.

각 언어마다 다른 단어 분리기가 있습니다. 둘 이상의 언어가 탐색되는 경우 인덱싱 엔진에서 사용할 단어 분리기를 결정하며 단일 문서로부터 오는 텍스트에 대해 둘 이상의 단어 분리기를 사용할 수 있습니다. 특정 언어에 대한 단어 분리기가 없는 경우 중립 단어 분리기가 사용됩니다.

단어 분리기는 쿼리 엔진에서도 사용됩니다. 사용자가 쿼리를 제출할 때 단어 분리기를 사용하여 복합어 및 구문을 분리합니다. 이렇게 하면 사용자의 쿼리가 콘텐츠 인덱스의 용어와 일치할 수 있는 확률이 높아집니다. 쿼리하는 동안 사용자의 웹 브라우저의 언어에 따라 단어 분리기의 언어가 정해집니다.

기본적으로 Microsoft Office SharePoint Server 2007에서 SharePoint 팜의 각 서버에 다음 표에 나열되어 있는 단어 분리기를 설치합니다.

아랍어

헝가리어

펀잡어

벵골어

아이슬란드어

루마니아어

불가리아어

인도네시아어

러시아어

카탈로니아어

이탈리아어

세르비아어(키릴 자모)

크로아티아어

일본어

세르비아어(라틴 문자)

체코어

카나다어

슬로바키아어

덴마크어

한국어

슬로베니아어

네덜란드어

라트비아어

스페인어

영어

리투아니아어

스웨덴어

핀란드어

말레이시아어

타밀어

프랑스어

말라얄람어

텔루구어

독일어

마라티어

태국어

그리스어

노르웨이어(복말)

터키어

구자라트어

폴란드어

우크라이나어

히브리어

포르투갈어

우르두어

힌디어

포르투갈어(브라질)

베트남어

형태소 분석기

형태소 분석기는 용어의 기본 단어를 검색하는 구성 요소이며 해당 용어의 파생어도 생성할 수 있습니다. 예를 들어 영어의 경우 쿼리에 단어 "bought"가 포함되어 있으면 형태소 분석기에서 기본 용어인 "buy"를 쿼리에 추가할 수 있으며, "buys", "buying"과 같이 이 용어의 다른 형태를 생성하여 쿼리에 추가할 수 있습니다.

형태소 분석기는 언어별로 사용하며 지원하는 언어에 따라 다른 기능을 제공합니다. 일부 형태소 분석기에서는 기본 단어를 검색하지만 단어의 추가 형태를 생성하지는 않습니다. 기본적으로 여러 언어에 대한 쿼리를 실행하는 동안 형태소 분석은 꺼져 있습니다. 핵심 결과 검색 웹 파트에서 검색 쿼리에 형태소 분석을 사용하도록 설정할 수 있습니다.

참고

형태소 분석을 지원하는 언어의 경우 단어 분리기가 있는 모든 언어에는 형태소 분석기도 있습니다. 일부 언어의 경우 형태소 분석기가 설치되어 있지만 사용하도록 설정되어 있지 않습니다. 이러한 형태소 분석기를 사용하도록 설정하려면 레지스트리를 편집해야 합니다. 특정 언어에 형태소 분석기를 사용하도록 설정하는 방법에 대한 자세한 내용은 SharePoint Server 2007에서 단어 분리기 및 형태소 분석기를 켜는 방법(https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x412)을 참조하십시오.

의미 없는 단어 파일

한 언어에서 일부 단어가 검색 수행에 유용하지 못한 경우가 있습니다. 예를 들어 영어의 경우 "the" 및 "an"은 영어로 작성된 거의 모든 문서에 포함되어 있으므로 검색 가치가 떨어집니다. 검색 가치가 떨어지는 단어를 의미 없는 단어라고 하며 중지 단어라고도 합니다. 인덱싱 프로세스 중 인덱스를 더욱 작게 만들기 위해 의미 없는 단어가 제거되며 이렇게 하여 성능을 향상시킬 수 있습니다. 의미 없는 단어는 편집할 수 있는 언어별 텍스트 파일에 포함되어 있습니다. 파일에서 의미 없는 단어를 제거하거나 파일에 추가하려면 콘텐츠에 대한 전체 크롤링을 수행해야 합니다. 자세한 내용은 의미 없는 단어 파일 편집(Office SharePoint Server)을 참조하십시오.

의미 없는 단어 파일은 SharePoint 제품 이전 버전의 의미 없는 단어 파일과 크게 달라졌습니다. 이전에 의미 없는 단어 파일에 포함되어 있던 대부분의 의미 없는 단어는 Office SharePoint Server 2007 의미 없는 단어 파일에서 제거되어 콘텐츠 인덱스에 포함되어 있습니다. 기본적으로 이전에 의미 없는 단어였기 때문에 제외되었던 단어에 대해 사용자가 쿼리를 수행할 수 있습니다. 이러한 쿼리를 의미 없는 단어 쿼리라고 합니다. 핵심 결과 검색 웹 파트에서 이러한 검색을 허용하지 않도록 설정할 수 있습니다. 또한 쿼리의 따옴표로 묶인 문자열에 의미 없는 단어가 포함되어 있는 경우 의미 없는 단어를 쿼리 결과의 단어로 대체할 수 있습니다. 예를 들어 쿼리에 "configure a server"이 포함되어 있는 경우 "configure the server" 및 "configure every server"가 포함되어 있는 콘텐츠 항목이 쿼리 결과에 포함됩니다.

중요

의미 없는 단어 파일의 모든 단어를 제거하지 마십시오. 의미 없는 단어 파일에는 마침표 하나만 들어 있더라도 하나 이상의 항목이 포함되어 있어야 합니다.

참고 항목

개념

설정을 관리하여 검색 결과 개선(Office SharePoint Server)
신뢰할 수 있는 페이지 구성(Office SharePoint Server)
최상의 선택이 포함된 키워드 용어 추가(Office SharePoint Server)
의미 없는 단어 파일 편집(Office SharePoint Server)
동의어 사전 파일 편집(Office SharePoint Server)
사용자 지정 사전 만들기(Office SharePoint Server 2007)