콘텐츠 크롤링 계획(Office SharePoint Server)

업데이트 날짜: 2009년 2월

적용 대상: Office SharePoint Server 2007

 

마지막으로 수정된 항목: 2015-03-09

이 문서의 내용

  • 콘텐츠 크롤링 및 인덱싱 정보

  • 크롤링할 콘텐츠 원본 확인

  • 콘텐츠 원본 계획

  • 인증 계획

  • 프로토콜 처리기 계획

  • 크롤링 영향 관리 계획

  • 크롤링 규칙 계획

  • 팜 수준에서 관리되는 검색 설정 계획

  • 여러 언어로 된 콘텐츠 인덱싱

  • 워크시트

이 문서에서는 검색 서비스 관리자가 Microsoft Office SharePoint Server 2007에서 콘텐츠를 크롤링하고 인덱싱하는 방식을 이해하도록 돕고 콘텐츠 크롤링을 계획하는 방법에 대해 설명합니다.

최종 사용자가 Office SharePoint Server 2007의 엔터프라이즈 검색 기능을 사용하여 콘텐츠를 검색하기 전에 쿼리할 수 있도록 만들 콘텐츠를 크롤링해야 합니다.

이 문서에서 콘텐츠란 웹 페이지, Microsoft Office Word 문서, 비즈니스 데이터, 전자 메일 메시지 등 크롤링 가능한 모든 항목입니다.

콘텐츠를 크롤링할 경우 다음과 같은 사항을 고려하십시오.

  • 크롤링할 콘텐츠의 실제 위치

  • 크롤링할 콘텐츠 중 일부가 다른 형식의 파일 원본(예: 파일 공유, Sharepoint 사이트, 웹 사이트 또는 기타 위치)에 저장되어 있는지 여부

  • 특정 원본의 모든 콘텐츠를 크롤링할지 일부 콘텐츠만 크롤링할지 여부

  • 크롤링할 콘텐츠를 구성하는 파일 형식

  • 콘텐츠 크롤링 시기 및 간격

  • 콘텐츠 보호 방법

이 문서의 정보를 사용하여 위와 같은 사항을 파악한 다음 크롤링할 콘텐츠에 대해 필요한 계획을 세우고, 해당 콘텐츠를 언제, 어떤 방법으로 크롤링할지도 계획해 보십시오.

이 문서의 주요 지점마다 그동안 읽은 정보와 관련된 워크시트의 섹션을 기입하라는 내용이 나옵니다. 이 문서를 읽으며 결정한 내용을 워크시트에 기록해도 되고 이 문서를 모두 읽은 다음 모든 내용을 한 번에 기록해도 좋습니다. 어떤 방법을 선택하든 완성된 워크시트는 검색 솔루션을 배포할 때 귀중한 자료가 됩니다.

참고

이 문서에서는 콘텐츠를 크롤링하고 하나의 인덱스로 인덱싱하기 위해 계획을 세우는 프로세스에 대해 설명합니다. 콘텐츠를 크롤링할 계획을 세울 때 추가 콘텐츠 인덱스를 사용하려는 경우에는 별도의 워크시트에 각 SSP(공유 서비스 공급자)에 대한 계획 결정을 기록하면 됩니다.

Office SharePoint Server 2007에는 콘텐츠를 크롤링하고 인덱싱하는 데 사용되는 Office SharePoint Server 검색 서비스가 포함됩니다. 이 서비스는 SSP의 일부이고, 특정 SSP를 사용하여 크롤링된 모든 콘텐츠는 하나의 인덱스로 인덱싱됩니다. 콘텐츠 인덱싱에 사용할 SSP의 수를 선택하는 방법에 대한 자세한 내용은 공유 서비스 공급자 계획을 참조하십시오.

콘텐츠 크롤링 및 인덱싱 정보

콘텐츠 크롤링 및 인덱싱은 시스템이 콘텐츠와 메타데이터라고도 하는 콘텐츠의 속성에 액세스하고 이를 구문 분석하여 검색 쿼리를 처리할 수 있는 콘텐츠 인덱스를 작성하는 프로세스입니다.

콘텐츠가 제대로 크롤링되면 쿼리를 검색하려는 개별 파일이나 콘텐츠에 크롤러가 액세스하고 읽을 수 있습니다. 해당 파일의 키워드 및 메타데이터가 콘텐츠 인덱스(인덱스라고도 함)에 저장됩니다. 인덱스는 인덱스 서버의 파일 시스템에 저장된 키워드와 검색 데이터베이스에 저장된 메타데이터로 구성됩니다. 시스템은 키워드, 키워드가 크롤링되는 콘텐츠의 개별 내용과 연결된 메타데이터 그리고 콘텐츠가 크롤링된 원본 URL 간의 매핑을 유지 관리합니다.

참고

크롤러는 어떠한 방법으로든 호스트 서버의 파일을 변경하지 않습니다. 대신, 호스트 서버의 파일에 액세스하고, 읽기만 하며, 해당 파일의 텍스트 및 메타데이터를 인덱싱할 인덱스 서버로 보냅니다. 그러나 크롤러는 호스트 서버의 콘텐츠를 읽으므로 특정 콘텐츠 원본을 호스팅하는 일부 서버가 크롤링된 파일에 마지막으로 액세스한 날짜를 업데이트할 수 있습니다.

크롤링할 콘텐츠 원본 확인

대부분의 경우, 조직에서는 조직 내 서버 팜의 SharePoint 사이트에 포함된 모든 콘텐츠만 크롤링할 수 있으면 됩니다. 이 경우, 서버 팜의 모든 사이트 모음은 기본 콘텐츠 원본을 사용하여 크롤링할 수 있으므로 크롤링할 콘텐츠 원본을 확인할 필요가 없을 수도 있습니다. 기본 콘텐츠 원본에 대한 자세한 내용은 이 문서의 뒷부분에 나오는 콘텐츠 원본 계획을 참조하십시오.

파일 공유나 인터넷의 웹 사이트 등 서버 팜의 외부에 있는 콘텐츠를 크롤링해야 하는 조직도 많이 있습니다. Office SharePoint Server 2007에서는 다른 Windows SharePoint Services 또는 Office SharePoint Server 팜, 웹 사이트, 파일 공유, Microsoft Exchange 공용 폴더, IBM Lotus Notes 서버에서 호스팅하는 콘텐츠 및 데이터베이스에 저장된 비즈니스 데이터를 크롤링하고 인덱싱할 수 있습니다. 이로 인해 쿼리로 검색할 수 있는 콘텐츠가 크게 늘어납니다.

그러나 대부분의 경우 서버 팜의 모든 사이트 모음을 크롤링할 필요는 없습니다. 일부 사이트 모음에 저장된 콘텐츠가 검색 결과와 관련성이 없을 수도 있기 때문입니다. 이런 경우에는 다음 중 하나 또는 두 가지 작업을 수행해야 합니다.

  • 크롤링하지 않을 사이트 모음을 기록합니다. 기본 콘텐츠 원본을 사용하려면 크롤링하지 않을 사이트 모음의 시작 주소가 기본 콘텐츠 원본에 표시되지 않도록 합니다.

  • 크롤링할 사이트 모음의 시작 주소를 기록합니다. 이 콘텐츠를 크롤링할 다른 콘텐츠 원본을 만들려면 해당 시작 주소를 알아야 합니다. 콘텐츠 원본 하나 이상을 사용할 시기에 대한 자세한 내용은 이 문서 뒷부분의 콘텐츠 원본 계획 을 참조하십시오.

Microsoft Office Servers 인프라 업데이트가 설치되어 있는 경우에는 두 가지 방법으로 검색 쿼리를 처리하여 사용자에게 검색 결과를 반환할 수 있습니다. 즉, 검색 서버 콘텐츠 인덱스를 쿼리하는 방법과 연결된 검색을 사용하는 방법을 사용할 수 있습니다.

Microsoft Office Servers 인프라 업데이트를 설치하면 Search Server 2008에 처음으로 도입된 연결된 검색 기능을 Office SharePoint Server 2007에서 사용할 수 있습니다.

각 방법마다 장점이 있습니다. 검색 쿼리를 처리하는 이 두 방법을 비교한 내용은 연결된 검색 개요 (영문)(https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x412)를 참조하십시오. 연결 이해 및 사용에 대해 다루는 문서의 목록 및 간단한 설명을 보려면 연결 사용(Office SharePoint Server)을 참조하십시오. Microsoft Office Server 인프라 업데이트에 대한 자세한 내용은 Microsoft Office Server 인프라 업데이트 설치(Office SharePoint Server 2007)를 참조하십시오.

콘텐츠 원본 계획

콘텐츠를 크롤링하려면 먼저 콘텐츠의 위치와 콘텐츠를 호스팅하는 서버의 종류를 확인해야 합니다. 이 정보를 수집한 후에는 공유 서비스 관리자가 해당 콘텐츠를 크롤링하는 데 사용할 콘텐츠 원본을 하나 이상 만들 수 있습니다. 크롤링이 진행되는 동안 이러한 콘텐츠 원본은 크롤러에 다음 정보를 제공합니다.

  • 크롤링할 콘텐츠 형식(예: SharePoint 사이트 또는 파일 공유)

  • 크롤링을 시작할 시작 주소

  • 크롤링할 때 사용할 동작(예: 시작 주소에서 크롤링할 깊이, 또는 허용할 서버 홉 수).

  • 크롤링 일정

참고

특정 콘텐츠 원본을 사용하여 콘텐츠를 크롤링하는 것을 "콘텐츠 원본 크롤링"이라고도 합니다.

이 섹션에서는 조직에 필요한 콘텐츠 원본을 계획하는 방법에 대해 설명합니다.

기본 콘텐츠 원본은 로컬 Office SharePoint Server 사이트라고 합니다. 공유 서비스 관리자는 이 콘텐츠 원본을 사용하여 SSP와 연결된 모든 웹 응용 프로그램에서 모든 콘텐츠를 크롤링하고 인덱싱할 수 있습니다. 기본적으로 Office SharePoint Server 2007에서는 같은 SSP를 사용하는 웹 응용 프로그램에 만들어진 각 사이트 모음의 최상위 사이트 시작 주소(이 경우에는 URL)를 기본 콘텐츠 원본에 추가합니다.

일부 조직에서는 기본 콘텐츠 원본을 사용하여 자체 사이트 모음의 모든 사이트를 크롤링하기만 해도 검색 요구 사항이 충족됩니다. 그러나 대부분의 조직에서는 추가 콘텐츠 원본을 사용해야 합니다.

다음과 같은 작업이 필요할 경우에 추가 콘텐츠 원본을 만듭니다.

  • 여러 가지 형식의 콘텐츠 크롤링

  • 다른 콘텐츠와 다른 일정에 따라 일부 콘텐츠 크롤링

  • 크롤링되는 콘텐츠의 양 제한 또는 증대

공유 서비스 관리자는 각 SSP에서 콘텐츠 원본을 최대 500개까지 만들 수 있으며, 각 콘텐츠 원본은 최대 500개의 시작 주소를 포함할 수 있습니다. 가능한 한 간편하게 관리하려면 콘텐츠 원본을 필요한 만큼만 만들어야 합니다.

다른 형식의 콘텐츠 크롤링

콘텐츠 원본당 한 가지 형식의 콘텐츠만 크롤링할 수 있습니다. 즉, SharePoint 사이트의 URL이 포함된 콘텐츠 원본과 파일 공유의 URL이 포함된 콘텐츠 원본을 별도로 만들 수는 있지만, SharePoint 사이트의 URL과 파일 공유의 URL이 모두 포함된 단일 콘텐츠 원본은 만들 수 없습니다. 다음 표는 구성 가능한 콘텐츠 원본 형식을 나타냅니다.

콘텐츠 원본 형식 다음 콘텐츠 형식 포함

SharePoint 사이트

같은 팜이나 다른 Office SharePoint Server 2007, Windows SharePoint Services 3.0 또는 UNRESOLVED_TOKEN_VAL(2nd_Search) 팜의 SharePoint 사이트

Microsoft Office SharePoint Portal Server 2003 또는 Microsoft Windows SharePoint Services 2.0 팜의 SharePoint 사이트

참고

Office SharePoint Server 2007, Windows SharePoint Services 3.0 또는 UNRESOLVED_TOKEN_VAL(2nd_Search)에서 SharePoint 사이트를 크롤링할 때와 달리 이전 버전의 SharePoint 제품 및 기술에서는 크롤러가 사이트 모음의 모든 하위 사이트를 자동으로 크롤링할 수 없습니다. 따라서 이전 버전에서 SharePoint 사이트를 크롤링하는 경우에는 크롤링할 각 최상위 수준 사이트와 각 하위 사이트의 URL을 지정해야 합니다. 포털 사이트를 크롤링할 때는 Microsoft Office SharePoint Portal Server 2003 팜의 사이트 디렉터리에 표시된 사이트가 크롤링됩니다. 사이트 디렉터리에 대한 자세한 내용은 사이트 디렉터리 정보 (영문)(https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x412)를 참조하십시오.

웹 사이트

SharePoint 사이트에 없는 조직의 기타 웹 콘텐츠

인터넷 웹 사이트의 콘텐츠

파일 공유

조직 내 파일 공유에 있는 콘텐츠

Exchange 공용 폴더

Microsoft Exchange Server 콘텐츠

Lotus Notes

Lotus Notes 데이터베이스에 저장된 전자 메일 메시지

참고

다른 콘텐츠 원본 형식과 달리 Lotus Notes 콘텐츠 원본 옵션은 적절한 필수 구성 요소 소프트웨어를 설치하고 구성할 때까지 사용자 인터페이스에 표시되지 않습니다. 자세한 내용은 Lotus Notes를 크롤링하도록 Office SharePoint Server 검색 구성(Office SharePoint Server 2007)을 참조하십시오.

비즈니스 데이터

기간 업무(LOB) 애플리케이션에 저장된 비즈니스 데이터

비즈니스 데이터에 대한 콘텐츠 원본 계획

비즈니스 데이터 콘텐츠 원본을 사용하려면 먼저 데이터를 호스팅하는 응용 프로그램을 비즈니스 데이터 카탈로그에 등록해야 합니다. 비즈니스 데이터를 크롤링할 비즈니스 데이터 콘텐츠 원본 형식과 다른 별도의 콘텐츠 원본을 하나 이상 만들어야 합니다. 콘텐츠 원본 하나를 만들어 비즈니스 데이터 카탈로그에 등록된 모든 응용 프로그램을 크롤링할 수도 있고, 별도의 콘텐츠 원본을 만들어 비즈니스 데이터 카탈로그에 등록된 개별 응용 프로그램을 크롤링할 수도 있습니다.

비즈니스 데이터를 사이트 모음으로 통합하려는 사용자가 전체 콘텐츠 계획 프로세스에 관여하지 않는 경우가 종종 있습니다. 따라서 비즈니스 응용 프로그램 관리자를 콘텐츠 계획 팀에 포함하여 해당 관리자의 데이터를 다른 콘텐츠에 통합하는 방법 및 사용자의 사이트 모음에 효과적으로 표시하는 방법에 대해 도움을 받는 것이 좋습니다.

비즈니스 데이터 검색을 계획하는 방법에 대한 자세한 내용은 비즈니스 데이터 검색 계획을 참조하십시오.

다른 일정으로 콘텐츠 크롤링

공유 서비스 관리자는 보통 일부 콘텐츠를 다른 콘텐츠보다 자주 크롤링할지 여부를 결정해야 합니다. 크롤링하는 콘텐츠의 양이 많을수록 여러 가지 원본에서 콘텐츠를 크롤링할 가능성이 커집니다. 이러한 여러 가지 원본은 같은 형식일 수도 있고 다른 형식일 수도 있으며, 서버에 호스팅되는 속도도 서로 다를 수 있습니다.

이러한 이유로 서로 다른 시간대에 서로 다른 콘텐츠 원본을 크롤링하기 위해 보통 추가 콘텐츠 원본이 필요합니다.

콘텐츠를 다른 일정으로 크롤링하는 주된 이유는 다음과 같습니다.

  • 가동 중지 시간 및 사용률 최대 시간 조정

  • 자주 업데이트되는 콘텐츠 크롤링 빈도 증가

  • 속도가 느린 호스트 서버에서 호스팅하는 콘텐츠와 속도가 빠른 호스트 서버의 콘텐츠를 별도로 크롤링

대부분의 경우 Office SharePoint Server 2007을 배포하고 일정 시간 실행할 때까지는 이 정보의 일부만 알 수 있습니다. 이 중 몇 가지는 작업 단계에서 결정됩니다. 그러나 계획 단계에서 이러한 요소를 모두 고려하여 주어진 정보에 따라 크롤링 일정을 계획하는 것이 좋습니다.

다음 두 섹션에서는 콘텐츠를 다른 일정으로 크롤링하는 방법에 대한 정보를 제공합니다.

가동 중지 시간 및 사용률 최대 시간

크롤링할 콘텐츠를 호스팅하는 서버의 가동 중지 시간 및 사용률 최대 시간을 고려하십시오. 예를 들어 서버 팜 외부의 여러 서버에서 호스팅되는 콘텐츠를 크롤링하는 경우 이러한 서버는 보통 서로 다른 일정으로 백업되고 사용률 최대 시간도 서로 다릅니다. 일반적으로 서버 팜 외부에 있는 서버는 관리할 수 없습니다. 따라서 크롤링할 콘텐츠를 호스팅하는 서버의 관리자와 크롤링을 조정하여 가동 중지 시간 또는 사용률 최대 시간에는 해당 서버의 콘텐츠를 크롤링하지 않도록 하는 것이 좋습니다.

일반적인 시나리오로 SharePoint 사이트의 콘텐츠와 관련이 있지만 조직에서 제어하지 않는 콘텐츠를 들 수 있습니다. 이러한 콘텐츠의 시작 주소를 기존 콘텐츠 원본에 추가하거나 외부 콘텐츠의 콘텐츠 원본을 새로 만들 수 있습니다. 외부 사이트의 가용성은 크게 다르므로 서로 다른 외부 콘텐츠마다 별도의 콘텐츠 원본을 추가하는 것이 좋습니다. 그러면 외부 콘텐츠의 콘텐츠 원본을 다른 콘텐츠 원본과 다른 시간에 크롤링할 수 있습니다. 그런 다음 각 사이트의 가용성을 고려하는 크롤링 일정에 따라 외부 콘텐츠를 업데이트할 수 있습니다.

자주 업데이트되는 콘텐츠

크롤링 일정을 계획할 때 일부 콘텐츠 원본은 일반적으로 다른 콘텐츠 원본보다 자주 업데이트된다는 사실을 고려하십시오. 예를 들어 일부 사이트 모음이나 외부 원본의 콘텐츠가 금요일에만 업데이트되는 경우 해당 콘텐츠를 일주일에 두 번 이상 크롤링하는 것은 리소스 낭비입니다. 그러나 월요일부터 금요일까지는 지속적으로 업데이트되지만 보통 토요일과 일요일에는 업데이트되지 않는 다른 사이트 모음이 서버 팜에 있을 수 있습니다. 이 경우 평일에는 여러 번 크롤링하되 주말에는 한 번 또는 두 번만 크롤링하는 것이 좋습니다.

해당 환경의 사이트 모음에 콘텐츠가 저장되는 방식에 따라 각 웹 응용 프로그램의 각 사이트 모음에서 추가 콘텐츠 원본을 만드는 방법이 달라질 수 있습니다. 예를 들어 보관된 정보만 사이트 모음에서 저장하는 경우 자주 업데이트되는 콘텐츠를 저장한 사이트 모음을 크롤링할 때처럼 해당 콘텐츠를 자주 크롤링할 필요는 없습니다. 이 경우 서로 다른 콘텐츠 원본을 사용하여 두 사이트 모음을 크롤링하면 보관 사이트를 다른 콘텐츠만큼 자주 크롤링할 필요 없이 서로 다른 일정으로 두 사이트 모음을 크롤링할 수 있습니다.

전체 및 증분 크롤링 일정

공유 서비스 관리자는 각 콘텐츠 원본에 대한 크롤링 일정을 개별적으로 구성할 수 있습니다. 공유 서비스 관리자는 각 콘텐츠 원본에 대해 전체 크롤링을 수행할 시간을 지정하고 증분 크롤링을 수행할 시간을 별도로 지정할 수 있습니다. 먼저 특정 콘텐츠 원본에 대해 전체 크롤링을 실행한 후에만 증분 크롤링을 실행할 수 있습니다. 아직 크롤링되지 않은 콘텐츠에 대해 증분 크롤링을 선택하는 경우 전체 크롤링이 수행됩니다.

참고

전체 크롤링은 해당 콘텐츠를 이전에 크롤링했었는지 여부와 관계없이 크롤러에 걸리는 모든 콘텐츠와 읽기 권한 이상이 있는 모든 콘텐츠를 크롤링하므로 전체 크롤링을 완료하는 데 걸리는 시간이 증분 크롤링보다 훨씬 길 수 있습니다.

검색 서비스를 실행하는 서버와 크롤링된 콘텐츠를 호스팅하는 서버의 가용성, 성능 및 대역폭을 고려하여 크롤링 일정을 계획하는 것이 좋습니다.

크롤링 일정을 계획하는 경우 다음과 같은 최상의 방법을 고려합니다.

  • 콘텐츠를 호스팅하는 서버의 유사한 가용성과 적절한 전체 리소스 사용 현황을 기준으로 콘텐츠 원본의 시작 주소를 그룹화합니다.

  • 콘텐츠를 호스팅하는 서버가 사용 가능한 상태이고 서버의 리소스 사용량이 적은 시간에 각 콘텐츠 원본에 대한 증분 크롤링이 수행되도록 일정을 계획합니다.

  • 팜에 있는 서버의 부하가 시간에 따라 균등하게 배분되도록 크롤링 일정을 적절히 배치합니다.

  • 다음 섹션에 나열한 이유로 필요한 경우에만 전체 크롤링 일정을 계획합니다. 전체 크롤링은 증분 크롤링보다 낮은 빈도로 수행하는 것이 좋습니다.

  • 전체 크롤링이 필요한 관리 변경 사항의 경우 계획된 전체 크롤링 일정 바로 전에 수행되도록 예약합니다. 예를 들어 추가 전체 크롤링이 필요하지 않도록 다음에 예약된 전체 크롤링 전에 크롤링 규칙을 만드는 작업을 예약하는 것이 좋습니다.

  • 인덱스 서버에서 동시에 크롤링할 수 있는 성능을 고려하여 동시 크롤링을 계획합니다. 일반적으로 크롤링 일정은 시차를 두어 적절히 배치하여 인덱스 서버가 여러 콘텐츠 원본을 동시에 사용하여 크롤링하지 않도록 하는 것이 좋습니다. 성능을 최대화하려면 콘텐츠 원본의 크롤링 일정에 시차를 두어 적절히 배치하십시오. 인덱스 서버 및 콘텐츠를 호스팅하는 서버의 성능에 따라 크롤링을 중복하여 실행할 수 있는 정도가 다릅니다. 시간이 지남에 따라 각 콘텐츠 원본의 일반적인 크롤링 기간을 파악하게 되면 크롤링 예약 전략을 효과적으로 개발할 수 있습니다.

전체 크롤링을 수행해야 하는 이유

검색 서비스 관리자가 전체 크롤링을 수행해야 하는 경우는 다음과 같습니다.

  • 하나 이상의 핫픽스나 서비스 팩이 팜의 서버에 설치된 경우. 자세한 내용은 핫픽스 또는 서비스 팩의 지침을 참조하십시오.

  • SSP 관리자가 새 관리 속성을 추가한 경우

  • Windows SharePoint Services 3.0 또는 Office SharePoint Server 2007 사이트에서 ASPX 페이지를 다시 인덱싱하려는 경우

    참고

    크롤러는 Windows SharePoint Services 3.0 또는 Office SharePoint Server 2007 사이트의 ASPX 페이지가 변경된 시기를 검색할 수 없습니다. 따라서 개별 목록 항목을 삭제하면 증분 크롤링이 뷰 또는 홈 페이지를 다시 인덱싱하지 않습니다. 이러한 페이지를 다시 인덱싱하려면 ASPX 파일이 포함된 사이트의 전체 크롤링을 정기적으로 수행하는 것이 좋습니다.

  • 연속적인 증분 크롤링 오류를 해결하려는 경우. 드물기는 하지만 저장소의 한 수준에서 100번 연속해서 증분 크롤링에 실패한 경우 인덱스 서버는 해당 콘텐츠를 인덱스에서 제거합니다.

  • 크롤링 규칙이 추가, 삭제 또는 수정된 경우

  • 손상된 인덱스를 복구하려는 경우

  • 검색 서비스 관리자가 하나 이상의 서버 이름 매핑을 만든 경우

  • 기본 콘텐츠 액세스 계정에 할당된 계정 또는 크롤링 규칙이 변경된 경우

다음과 같은 조건에서는 증분 크롤링을 요청하는 경우에도 전체 크롤링이 수행됩니다.

  • SSP 관리자가 이전 크롤링을 중지한 경우

  • 콘텐츠 데이터베이스를 백업에서 복원한 경우

    참고

    Microsoft Office Servers 인프라 업데이트를 실행하는 경우 stsadm 명령줄 도구의 restore 작업을 사용하여 콘텐츠 데이터베이스 복원 후 전체 크롤링의 자동 수행 여부를 변경할 수 있습니다.

  • 팜 관리자가 콘텐츠 데이터베이스를 분리했다가 다시 연결한 경우

  • 사이트의 전체 크롤링이 한 번도 수행되지 않은 경우

  • 변경 로그에 크롤링 중인 주소의 항목이 포함되어 있지 않은 경우. 변경 로그에 크롤링할 항목에 대한 내용이 없으면 증분 크롤링이 수행되지 않습니다.

  • 기본 콘텐츠 액세스 계정에 할당된 계정 또는 크롤링 규칙이 변경된 경우

  • 손상된 인덱스를 복구하려는 경우

    인덱스에서 손상이 발견되면 손상 정도에 따라 시스템에서 전체 크롤링을 수행할 수 있습니다.

초기 배포 후 팜에 있는 서버와 콘텐츠를 호스팅하는 서버의 성능 및 용량에 따라 일정을 조정할 수 있습니다.

워크시트 작업

콘텐츠 크롤링 계획 워크시트 (영문)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x412)의 Content sources(콘텐츠 원본) 섹션에 있는 표에 초기 배포의 콘텐츠 원본에 대한 결정 사항을 기록하십시오.

크롤링되는 콘텐츠의 양 제한 또는 증대

각 콘텐츠 원본에 대해 해당 콘텐츠 원본에서 시작 주소를 크롤링할 범위를 선택할 수 있습니다. 크롤링 동작(크롤링 설정이라고도 함)도 지정할 수 있습니다. 특정 콘텐츠 원본에 대해 선택할 수 있는 옵션은 선택한 콘텐츠 원본 형식에 따라 조금씩 다릅니다. 그러나 대부분의 옵션은 콘텐츠 원본에 표시된 각 시작 주소에서 크롤링되는 계층 구조 내 깊이 수준을 결정합니다. 이 동작은 특정 콘텐츠 원본의 모든 시작 주소에 적용됩니다. 일부 사이트를 더 깊은 수준에서 크롤링해야 하는 경우 해당 사이트를 포괄하는 다른 콘텐츠 원본을 추가로 만들 수 있습니다.

각 콘텐츠 원본의 속성에서 사용할 수 있는 옵션은 선택한 콘텐츠 원본 형식에 따라 다릅니다. 다음 표에서는 각 콘텐츠 원본 형식의 크롤링 설정 옵션에 대해 설명합니다.

콘텐츠 원본 형식 크롤링 설정 옵션

SharePoint 사이트

각 시작 주소의 호스트 이름 아래에 있는 모든 항목

각 시작 주소의 SharePoint 사이트만

웹 사이트

각 시작 주소의 서버 내부에서만

각 시작 주소의 첫 페이지만

사용자 지정 - 페이지 수준 및 서버 홉 수 지정

참고

이 옵션의 기본 설정은 페이지 수준 및 서버 홉 제한 없음입니다.

파일 공유

각 시작 주소의 폴더와 모든 하위 폴더

각 시작 주소의 폴더만

Exchange 공용 폴더

각 시작 주소의 폴더와 모든 하위 폴더

각 시작 주소의 폴더만

비즈니스 데이터

전체 비즈니스 데이터 카탈로그 크롤링

선택한 응용 프로그램 크롤링

위의 표에서와 같이, 공유 서비스 관리자는 크롤링 설정 옵션을 사용하여 크롤링되는 콘텐츠의 양을 제한하거나 늘릴 수 있습니다.

다음 표에서는 크롤링 설정 옵션을 구성할 때 활용할 수 있는 최상의 방법에 대해 설명합니다.

콘텐츠 원본 형식 해당하는 경우 사용할 크롤링 설정 옵션

SharePoint 사이트

사이트 자체에 콘텐츠를 포함하려는 경우

또는

하위 사이트에서 사용할 수 있는 콘텐츠를 포함하지 않거나 다른 일정으로 크롤링하려는 경우

각 시작 주소의 SharePoint 사이트만 크롤링

SharePoint 사이트

사이트 자체에 콘텐츠를 포함하려는 경우

또는

시작 주소 아래의 모든 콘텐츠를 같은 일정으로 크롤링하려는 경우

각 시작 주소의 호스트 이름 아래에 있는 모든 항목 크롤링

웹 사이트

사이트 자체의 콘텐츠가 관련성이 있는 경우

또는

연결된 사이트에서 사용할 수 있는 콘텐츠가 관련성이 없는 경우

각 시작 주소의 서버 내에서만 크롤링

웹 사이트

관련 콘텐츠가 첫 페이지에만 있는 경우

각 시작 주소의 첫 페이지만 크롤링

웹 사이트

시작 주소에서 링크를 크롤링할 수준을 제한하려는 경우

사용자 지정 - 크롤링할 페이지 수준 및 서버 홉 수 지정

참고

페이지 수준을 4단계 이상 지정하거나 서버 홉 수를 4개 이상 지정하면 인터넷 전체를 크롤링할 수 있으므로 연결이 많은 사이트에서는 적은 수로 시작하는 것이 좋습니다.

파일 공유

Exchange 공용 폴더

하위 폴더에서 사용할 수 있는 콘텐츠가 관련성이 없는 경우

각 시작 주소의 폴더만 크롤링

파일 공유

Exchange 공용 폴더

하위 폴더의 콘텐츠가 관련성이 있는 경우

각 시작 주소의 폴더와 하위 폴더 크롤링

비즈니스 데이터

비즈니스 데이터 카탈로그에 등록된 모든 응용 프로그램에 관련 콘텐츠가 포함된 경우

전체 비즈니스 데이터 카탈로그 크롤링

비즈니스 데이터

비즈니스 데이터 카탈로그에 등록된 일부 응용 프로그램에 관련 콘텐츠가 포함되지 않은 경우

또는

일부 응용 프로그램을 다른 일정으로 크롤링하려는 경우

선택한 응용 프로그램 크롤링

파일 형식 포함 및 IFilter 계획

파일 형식 포함 목록에 관련 파일 이름 확장명이 포함되어 있고 해당 파일 형식을 지원하는 인덱스 서버에 IFilter가 설치된 경우에만 콘텐츠가 크롤링됩니다. 초기 설치 중에 여러 파일 형식이 자동으로 포함됩니다. 초기 배포에서 콘텐츠 원본을 계획할 때 크롤링할 콘텐츠가 포함되지 않은 파일 형식을 사용하는지 여부를 결정하십시오. 파일 형식이 포함되지 않은 경우 배포하는 동안 파일 형식 관리 페이지에서 해당 파일 형식을 추가해야 하며, 해당 파일 형식을 지원하기 위해 IFilter가 설치 및 등록되어 있는지 확인해야 합니다.

Office SharePoint Server 2007에서는 다양한 IFilter가 제공되며, Microsoft 및 타사 공급업체에서도 여러 가지 IFilter를 제공합니다. Microsoft에서 제공하는 추가 IFilter를 설치 및 등록하는 방법에 대한 자세한 내용은 SharePoint Server 2007 및 Search Server 2008에 Microsoft Filter Pack을 등록하는 방법(https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x412)을 참조하십시오. 필요한 경우 소프트웨어 개발자가 새 파일 형식용으로 IFilter를 만들 수 있습니다.

반면 특정 파일 형식이 크롤링되지 않도록 제외하려면 파일 형식 포함 목록에서 해당 파일 형식의 파일 이름 확장명을 삭제하면 됩니다. 그러면 해당 확장명을 가진 파일 이름이 크롤링 대상에서 제외됩니다.

다음 표는 기본적으로 설치되는 IFilter에서 지원하는 파일 형식 및 파일 형식 관리 페이지에서 기본적으로 사용되는 파일 형식을 보여 줍니다.

파일 이름 확장명 기본 IFilter 지원 기본 파일 형식 포함

ascx

asm

아니요

asp

aspx

bat

아니요

c

아니요

cmd

아니요

cpp

아니요

css

아니요

cxx

아니요

def

아니요

dic

아니요

doc

docm

docx

dot

eml

exch

아니요

h

아니요

hhc

아니요

hht

아니요

hpp

아니요

hta

아니요

htm

html

htw

아니요

htx

아니요

jhtml

아니요

jsp

아니요

lnk

아니요

mht

mhtml

mpx

아니요

msg

mspx

아니요

nsf

아니요

odc

one

아니요

아니요

php

아니요

pot

아니요

pps

아니요

ppt

pptm

pptx

pub

stm

아니요

tif

tiff

아니요

trf

아니요

txt

url

아니요

vdx

아니요

vsd

아니요

vss

아니요

vst

아니요

vsx

아니요

vtx

아니요

xlb

아니요

xlc

아니요

xls

xlsm

xlsx

xlt

아니요

xml

IFilter 및 Microsoft Office OneNote

Microsoft Office OneNote에서 사용되는 .one 파일 이름 확장명에 대해서는 IFilter가 제공되지 않습니다. 사용자가 Office OneNote 파일의 콘텐츠를 검색할 수 있도록 하려면 OneNote용 IFilter를 설치해야 합니다. 이렇게 하려면 다음 중 하나를 수행해야 합니다.

  • 인덱스 서버에 Microsoft Office OneNote 2007 클라이언트 응용 프로그램을 설치합니다.

    Office OneNote 2007에서 제공되는 IFilter는 Office OneNote 2003 파일과 Office OneNote 2007 파일을 모두 크롤링하는 데 사용할 수 있으며, Office OneNote 2003을 통해 설치되는 IFilter는 Office OneNote 2003 파일만 크롤링할 수 있습니다. 자세한 내용은 OneNote IFilter 설치 및 등록(Office SharePoint Server 2007)을 참조하십시오.

  • Microsoft Filter Pack을 설치 및 등록합니다.

    이 필터 팩에서 제공되는 OneNote IFilter는 Office OneNote 2007 파일을 크롤링할 때만 사용할 수 있습니다. 자세한 내용은 SharePoint Server 2007 및 Search Server 2008에 Microsoft Filter Pack을 등록하는 방법을 참조하십시오.

워크시트 작업

콘텐츠 크롤링 계획 워크시트 (영문)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x412)의 File-type inclusions(파일 형식 포함) 섹션에 초기 배포의 파일 형식 포함 및 IFilter에 대한 결정 사항을 기록하십시오.

크롤링 규칙을 사용하여 콘텐츠 제한 또는 제외

콘텐츠 원본에 시작 주소를 추가하고 기본 동작을 사용하도록 선택하면 하나 이상의 크롤링 규칙을 사용하여 제외하지 않는 한 해당 시작 주소 아래의 모든 하위 사이트 또는 폴더가 크롤링됩니다.

크롤링 규칙에 대한 자세한 내용은 이 문서의 뒷부분에 나오는 크롤링 규칙 계획을 참조하십시오.

콘텐츠 원본을 계획할 때 고려할 기타 사항

여러 콘텐츠 원본을 사용하여 같은 주소를 크롤링할 수는 없습니다. 예를 들어 특정 콘텐츠 원본을 사용하여 사이트 모음 및 해당 사이트 모음의 모든 하위 사이트를 크롤링하는 경우 별도의 콘텐츠 원본을 사용하여 해당 하위 사이트 중 하나를 다른 일정으로 크롤링할 수는 없습니다. 이러한 제한에 맞추려면 이러한 사이트 중 일부를 따로 크롤링해야 합니다. 다음과 같은 예를 참조하십시오.

Contoso의 SSP 관리자가 http://contoso를 크롤링하려고 합니다. 이 사이트에는 http://contoso/sites/site1 및 http://contoso/sites/site2라는 하위 사이트가 포함되어 있는데, http://contoso/sites/site2를 다른 사이트와는 다른 일정으로 크롤링하려고 합니다. 이를 위해 관리자는 http://contoso 및 http://contoso/sites/site1이라는 주소를 하나의 콘텐츠 원본에 추가하고 각 시작 주소의 SharePoint 사이트만 크롤링 설정을 선택합니다. 그런 다음 http://contoso/sites/site2를 다른 콘텐츠 원본에 추가하고 해당 콘텐츠 원본에 대해 다른 일정을 지정합니다.

콘텐츠 원본을 계획할 때 크롤링 일정 외에 고려해야 할 다른 사항이 있습니다. 예를 들어 시작 주소를 한 콘텐츠 원본으로 그룹화할지 또는 해당 시작 주소를 크롤링할 다른 콘텐츠 원본을 만들지는 보통 어떤 식으로 관리할지에 따라 달라집니다. 또한 관리자가 특정 콘텐츠 원본을 전체적으로 업데이트해야 하는 변경 작업을 실행하는 경우가 자주 있습니다. 콘텐츠 원본을 변경하려면 해당 콘텐츠 원본에 대해 전체 크롤링을 수행해야 합니다. 좀 더 간편하게 관리하려면 콘텐츠 원본과 크롤링 규칙, 크롤링 콘텐츠 원본을 손쉽게 업데이트할 수 있도록 콘텐츠를 구성하십시오.

콘텐츠 원본 요약

콘텐츠 원본을 계획할 때 다음 사항을 고려하십시오.

  • 특정 콘텐츠 원본을 사용하여 SharePoint 사이트, SharePoint 사이트가 아닌 웹 사이트, 파일 공유, Exchange 공용 폴더, Lotus Notes 데이터베이스 및 비즈니스 데이터 중 한 가지 콘텐츠 형식만 크롤링할 수 있습니다.

  • 공유 서비스 관리자는 각 SSP의 콘텐츠 원본을 최대 500개까지 만들 수 있으며, 각 콘텐츠 원본에는 시작 주소를 최대 500개까지 포함할 수 있습니다. 가능한 한 간편하게 관리하려면 콘텐츠 원본을 필요한 만큼만 만들어야 합니다.

  • 특정 콘텐츠 원본의 각 URL은 콘텐츠 원본 형식과 같아야 합니다.

  • 특정 콘텐츠 원본의 경우 시작 주소에서 크롤링할 깊이 수준을 선택할 수 있습니다. 이러한 구성 설정은 콘텐츠 원본의 모든 시작 주소에 적용됩니다. 시작 주소를 크롤링할 수 있는 깊이 수준을 선택하는 데 사용할 수 있는 옵션은 선택한 콘텐츠 원본 형식에 따라 다릅니다.

  • 전체 콘텐츠 원본에 대해 전체 크롤링 또는 증분 크롤링을 수행할 시간을 예약할 수 있습니다. 크롤링 일정에 대한 자세한 내용은 이 문서의 앞부분에 나오는 "전체 및 증분 크롤링 일정"을 참조하십시오.

  • 공유 서비스 관리자는 기본 콘텐츠 원본을 수정할 수도 있고, 다른 콘텐츠를 크롤링하도록 다른 콘텐츠 원본을 추가로 만들 수도 있으며, 둘 모두를 수행할 수도 있습니다. 예를 들어 기본 콘텐츠 원본을 구성하여 다른 서버 팜의 콘텐츠를 크롤링하거나, 새 콘텐츠 원본을 만들어 다른 콘텐츠를 크롤링할 수 있습니다.

  • 조직에 필요한 모든 콘텐츠를 효과적으로 크롤링하려면 크롤링할 원본 형식 및 크롤링을 계획하는 빈도에 맞춰 적절한 수의 콘텐츠 원본을 사용하십시오.

인증 계획

크롤러가 콘텐츠 원본에 표시된 시작 주소에 액세스할 때 크롤러가 해당 콘텐츠를 호스팅하는 서버의 인증을 받고 해당 서버에 대한 액세스 권한을 부여 받아야 합니다. 즉, 크롤러가 사용하는 도메인 계정에 해당 콘텐츠에 대한 읽기 권한 이상이 있어야 합니다.

기본 콘텐츠 액세스 계정은 콘텐츠 원본을 크롤링할 때 기본적으로 사용되는 계정입니다. 이 계정은 공유 서비스 관리자가 지정합니다. 또는 크롤링 규칙을 사용하여 특정 콘텐츠를 크롤링할 때 사용할 다른 콘텐츠 액세스 계정을 지정할 수 있습니다. 기본 콘텐츠 액세스 계정을 사용하든, 크롤링 규칙으로 지정한 다른 콘텐츠 액세스 계정을 사용하든 관계없이 사용자가 사용하는 콘텐츠 액세스 계정에는 크롤링되는 모든 콘텐츠에 대한 읽기 권한이 있어야 합니다. 그렇지 않으면 콘텐츠가 크롤링되지 않으므로 콘텐츠를 쿼리할 수 없습니다.

크롤링되는 대부분의 콘텐츠에 대해 가장 광범위한 액세스 권한을 가지고 있는 기본 콘텐츠 액세스 계정을 선택하고, 보안을 위해 별도의 콘텐츠 액세스 계정이 필요한 경우에만 다른 콘텐츠 액세스 계정을 사용하는 것이 좋습니다. 기본 콘텐츠 액세스 계정을 사용하여 읽을 수 없는 콘텐츠를 크롤링하기 위해 별도의 콘텐츠 액세스 계정을 만드는 방법에 대한 자세한 내용은 이 문서의 뒷부분에 나오는 크롤링 규칙 계획을 참조하십시오.

계획한 각 콘텐츠 원본에 대해 기본 콘텐츠 액세스 계정으로 액세스할 수 없는 시작 주소를 확인하고, 해당 시작 주소를 포함하는 URL 패턴에 대한 크롤링 규칙을 추가하도록 계획을 세우십시오.

참고

기본 콘텐츠 액세스 계정이나 다른 모든 콘텐츠 액세스 계정에 사용되는 도메인 계정은 크롤링할 웹 응용 프로그램에 연결된 응용 프로그램 풀에서 사용하는 도메인 계정과 달라야 합니다. 같을 경우 SharePoint 사이트의 게시되지 않은 콘텐츠 및 SharePoint 사이트의 부 버전 파일(기록)이 크롤링 및 인덱싱될 수 있습니다.

콘텐츠 액세스 계정을 계획할 때 고려할 사항에 대한 자세한 내용은 이 문서의 뒷부분에 나오는 크롤링 규칙 계획을 참조하십시오.

워크시트 작업

콘텐츠 크롤링 계획 워크시트 (영문)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x412)의 Default content access account(기본 콘텐츠 액세스 계정) 섹션에 콘텐츠를 크롤링할 때 크롤러가 사용할 기본 콘텐츠 액세스 계정을 기록하십시오.

또 다른 중요한 고려 사항은 크롤러가 호스트 서버와 같은 인증 방법을 사용해야 한다는 점입니다. 기본적으로 크롤러는 NTLM 인증을 사용하여 인증을 시도합니다. 필요한 경우 다른 인증 방법을 사용하도록 크롤러를 구성할 수 있습니다. 자세한 내용은 인증 방법 계획(Office SharePoint Server)의 "콘텐츠 크롤링을 위한 인증 요구 사항"을 참조하십시오.

프로토콜 처리기 계획

크롤링되는 모든 콘텐츠에 대한 액세스 권한은 프로토콜 처리기를 사용하여 얻어야 합니다. Office SharePoint Server 2007에서는 모든 일반적인 인터넷 프로토콜에 대한 프로토콜 처리기를 제공합니다. 그러나 Office SharePoint Server 2007과 함께 설치되지 않는 프로토콜 처리기가 필요한 콘텐츠를 크롤링하려면 타사 또는 사용자 지정 프로토콜 처리기를 설치한 후 해당 콘텐츠를 크롤링해야 합니다.

다음 표는 기본적으로 설치되는 프로토콜 처리기를 나타냅니다.

프로토콜 처리기 크롤링 대상

Bdc

비즈니스 데이터 카탈로그

Bdc2

비즈니스 데이터 카탈로그 URL(내부 프로토콜)

File

파일 공유

http

웹 사이트

https

SSL(Secure Sockets Layer)을 사용하는 웹 사이트

Notes

Lotus Notes 데이터베이스

Rb

Exchange 공용 폴더

Rbs

SSL을 사용하는 Exchange 공용 폴더

Sps

Windows SharePoint Services 2.0 서버 팜의 사용자 프로필

Sps3

Windows SharePoint Services 3.0 서버 팜의 사용자 프로필만 크롤링

Sps3s

SSL을 사용하는 Windows SharePoint Services 3.0 서버 팜의 사용자 프로필만 크롤링

Spsimport

사용자 프로필 가져오기

Spss

SSL을 사용하는 Windows SharePoint Services 2.0 서버 팜에서 사용자 프로필 가져오기

Sts

Windows SharePoint Services 3.0 루트 URL(내부 프로토콜)

Sts2

Windows SharePoint Services 2.0 사이트

Sts2s

SSL을 사용하는 Windows SharePoint Services 2.0 사이트

Sts3

Windows SharePoint Services 3.0 사이트

Sts3s

SSL을 사용하는 Windows SharePoint Services 3.0 사이트

워크시트 작업

콘텐츠 크롤링 계획 워크시트 (영문)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x412)의 Protocol handlers(프로토콜 처리기) 섹션에 초기 배포의 프로토콜 처리기에 대한 결정 사항을 기록하십시오.

크롤링 영향 관리 계획

콘텐츠를 크롤링하면 해당 콘텐츠를 호스팅하는 서버의 성능이 크게 저하될 수 있습니다. 크롤링이 특정 서버에 미치는 영향은 해당 호스트 서버에서 발생하는 부하 및 사용률이 보통 또는 최대인 경우 서버에 서비스 수준 계약을 유지할 수 있을 만큼 충분한 리소스(특히 CPU 및 RAM)가 있는지 여부에 따라 다릅니다.

크롤러 영향 규칙을 사용하면 크롤러가 크롤링 중인 서버에 미치는 영향을 팜 관리자가 관리할 수 있습니다. 각 크롤러 영향 규칙에 대해 하나의 URL을 지정하거나 URL 경로에 와일드카드 문자를 사용하여 규칙을 적용할 URL 블록을 포함할 수 있습니다. 그런 다음 지정된 URL에 대한 페이지당 동시 요청 수를 지정하거나 한 번에 하나의 문서만 요청하도록 선택하고 선택한 요청 사이의 대기 시간(초)만큼 기다립니다.

크롤러 영향 규칙은 해당 주소를 크롤링하는 데 사용되는 콘텐츠 원본과는 관계없이 크롤러가 특정 시작 주소나 시작 주소의 범위(사이트 이름이라고도 함)에서 콘텐츠를 요청하는 속도를 줄이거나 늘립니다. 다음 표는 규칙을 추가할 때 사이트 이름에 사용할 수 있는 와일드카드 문자를 보여 줍니다.

와일드카드 결과

사이트 이름 대신 * 사용

모든 사이트에 규칙을 적용합니다.

사이트 이름 대신 *.* 사용

이름에 점이 포함된 사이트에 규칙을 적용합니다.

*.*사이트_이름*.com 사이트 이름

*사이트_이름*.com 도메인(예: *.adventure-works.com)의 모든 사이트에 규칙을 적용합니다.

*.*최상위_도메인_이름* 사이트 이름

특정 최상위 도메인 이름으로 끝나는 모든 사이트(예: *.com 또는 *.net)에 규칙을 적용합니다.

?

규칙에서 하나의 문자를 대체합니다. 예를 들어 *.adventure-works?.com은 도메인 adventure-works1.com, adventure-works2.com 등의 모든 사이트에 적용됩니다.

특정 최상위 도메인 내 모든 사이트에 적용되는 크롤러 영향 규칙을 만들 수 있습니다. 예를 들어 *.com은 주소가 .com으로 끝나는 모든 인터넷 사이트에 적용됩니다. 예를 들어 포털 사이트의 관리자가 samples.microsoft.com에 대한 콘텐츠 원본을 추가할 수 있습니다. 이 경우 samples.microsoft.com에 대해 크롤러 영향 규칙을 별도로 지정하지 않으면 *.com 규칙이 이 사이트에 적용됩니다.

조직 내에서 다른 관리자가 크롤링하는 콘텐츠의 경우 해당 관리자와 조정하여 서버의 성능 및 용량에 따라 크롤러 영향 규칙을 설정할 수 있습니다. 대부분의 외부 사이트는 이와 같이 조정할 수 없습니다. 크롤링에서 너무 많은 리소스나 대역폭을 사용하고 있는데 외부 서버의 콘텐츠를 너무 많이 요청하거나 너무 자주 요청하는 경우 해당 사이트의 관리자가 이후에 액세스를 제한할 수 있습니다. 따라서 크롤링 속도를 낮추는 것이 가장 좋습니다. 이렇게 하면 관련 콘텐츠를 크롤링하는 데 필요한 액세스 권한을 잃게 될 위험을 줄일 수 있습니다.

초기 배포 동안에는 다른 서버에 주는 영향을 최소화하면서 충분한 콘텐츠를 자주 크롤링하여 크롤링되는 콘텐츠가 최신 상태로 유지되도록 크롤러 영향 규칙을 설정합니다.

작업 단계에서 경험과 크롤링 로그의 데이터를 바탕으로 크롤러 영향 규칙을 조정할 수 있습니다.

워크시트 작업

콘텐츠 크롤링 계획 워크시트 (영문)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x412)의 Crawler impact rules(크롤러 영향 규칙) 섹션에 초기 배포의 크롤러 영향 규칙에 대한 결정 사항을 기록하십시오.

크롤링 규칙 계획

크롤링 규칙은 특정 URL 또는 와일드카드로 표시되는 URL 집합(규칙의 영향을 받는 경로라고도 함)에 적용됩니다. 크롤링 규칙을 사용하면 다음 작업을 수행할 수 있습니다.

  • URL을 하나 이상 제외하여 관련 없는 콘텐츠가 크롤링되지 않도록 방지할 수 있습니다. URL을 제외하면 서버 리소스 사용량 및 네트워크 트래픽이 줄어들고 검색 결과의 관련성도 높아집니다.

  • URL 자체를 크롤링하지 않고 URL의 링크를 크롤링할 수 있습니다. 이 옵션은 관련성 있는 콘텐츠에 대한 링크는 있지만 링크가 포함된 페이지에는 관련 정보가 없는 사이트에 유용합니다.

  • 복합 URL을 크롤링하도록 설정할 수 있습니다. 이 옵션은 물음표로 지정한 쿼리 매개 변수가 포함된 URL을 크롤링합니다. 사이트에 따라 이러한 URL에 관련성 있는 콘텐츠가 들어 있을 수도 있고, 그렇지 않을 수도 있습니다. 복합 URL은 관련성 없는 사이트로 리디렉션되는 경우가 많기 때문에 복합 URL의 콘텐츠가 확실히 관련성 있는 사이트에 대해서만 이 옵션을 사용하는 것이 좋습니다.

  • SharePoint 사이트의 콘텐츠를 HTTP 페이지로 크롤링할 수 있습니다. 이 옵션을 사용하면 인덱스 서버에서 방화벽 뒤에 있는 SharePoint 사이트를 크롤링할 수 있습니다. 또는 크롤링되는 사이트에서 크롤러가 사용하는 웹 서비스에 대한 액세스를 제한하는 경우에 인덱스 서버에서 SharePoint 사이트를 크롤링할 수 있습니다.

  • 지정된 URL을 크롤링할 때 기본 콘텐츠 액세스 계정, 다른 콘텐츠 액세스 계정 및 클라이언트 인증서 중 어느 것을 사용할지 지정할 수 있습니다.

참고

크롤링 규칙은 SSP의 모든 콘텐츠 원본에 동시에 적용됩니다.

특정 사이트 주소의 콘텐츠는 대부분 관련성이 있지만, 해당 사이트 주소 아래의 특정 하위 사이트나 사이트 범위의 콘텐츠는 관련성이 없습니다. 집중 검색할 URL 조합을 선택하여 불필요한 항목을 제외하는 크롤링 규칙을 만들면 공유 서비스 관리자가 인덱스의 콘텐츠 관련성을 최대화하고 검색 데이터베이스의 크롤링 성능 및 크기에 대한 영향을 최소화할 수 있습니다. URL을 제외할 크롤링 규칙을 만들면 조직의 사용자가 리소스 사용에 대한 영향을 관리할 수 없는 외부 콘텐츠의 시작 주소를 계획할 때 특히 유용합니다.

크롤링 규칙을 만들 때 경로에 표준 와일드카드 문자를 사용할 수 있습니다. 예를 들면 다음과 같습니다.

  • http://server1/folder*라고 입력하면 URL이 http://server1/folder로 시작되는 모든 웹 리소스가 포함됩니다.

  • *://*.txt라고 입력하면 파일 이름 확장명이 .txt인 모든 문서가 포함됩니다.

콘텐츠 크롤링에는 리소스와 대역폭이 사용되므로 관련성이 떨어질 수 있는 대량의 콘텐츠보다는 관련성이 확실한 소량의 콘텐츠를 포함하는 것이 좋습니다. 초기 배포 후 쿼리 및 크롤링 로그를 검토하여 콘텐츠의 관련성을 높이고 보다 많은 콘텐츠가 포함되도록 콘텐츠 원본과 크롤링 규칙을 조정할 수 있습니다.

다른 콘텐츠 액세스 계정 지정

콘텐츠가 포함된 크롤링 규칙에는 관리자가 규칙과 관련된 콘텐츠 액세스 계정을 변경하는 옵션이 있습니다. 크롤링 규칙에 다른 계정을 지정하지 않으면 기본 콘텐츠 액세스 계정이 사용됩니다. 크롤링 규칙에 다른 콘텐츠 액세스 계정을 사용하는 주된 이유는 기본 콘텐츠 액세스 계정에 모든 시작 주소에 대한 액세스 권한이 없기 때문입니다. 액세스 권한이 없는 시작 주소에 대해서 크롤링 규칙을 만들고 액세스 권한이 있는 계정을 지정할 수 있습니다.

참고

기본 콘텐츠 액세스 계정이나 다른 모든 콘텐츠 액세스 계정에 사용되는 도메인 계정은 크롤링할 웹 응용 프로그램에 연결된 응용 프로그램 풀에서 사용하는 도메인 계정과 달라야 합니다. 같을 경우 SharePoint 사이트의 게시되지 않은 콘텐츠 및 SharePoint 사이트의 부 버전 파일(기록)이 크롤링 및 인덱싱될 수 있습니다.

워크시트 작업

콘텐츠 크롤링 계획 워크시트 (영문)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x412)의 Crawl rules(크롤링 규칙) 섹션에 초기 배포의 크롤링 규칙에 대한 결정 사항을 기록하십시오.

팜 수준에서 관리되는 검색 설정 계획

SSP 수준에서 구성되는 설정 외에도 팜 수준에서 관리되는 여러 가지 설정에 따라 콘텐츠를 크롤링하는 방법이 달라집니다. 크롤링을 계획할 때 다음과 같은 팜 수준 검색 설정을 고려하십시오.

  • 담당자 전자 메일 주소: 콘텐츠 크롤링은 크롤링되는 서버의 리소스에 영향을 미칩니다. 콘텐츠를 크롤링하기 전에 구성 설정에서 크롤링이 서버에 좋지 않은 영향을 줄 때 관리자가 연락할 수 있는 담당자의 전자 메일 주소를 입력해야 합니다. 이 전자 메일 주소는 크롤링되는 서버의 관리자를 위한 로그에 나타나므로 크롤링이 서버의 성능 및 대역폭에 미치는 영향이 너무 크거나 다른 문제가 발생할 경우에 해당 관리자가 담당자에게 연락할 수 있습니다.

    담당자 전자 메일 주소는 필요한 전문 지식이 있고 요청에 대해 빠르게 응답할 수 있는 사용자의 주소여야 합니다. 또는 정밀하게 모니터링하는 메일 그룹 별칭을 담당자 전자 메일 주소로 사용할 수도 있습니다. 크롤링되는 콘텐츠가 조직 내부나 외부, 어느 곳에 저장되어 있던지 문의에 빠르게 응답하는 것이 중요합니다.

  • 프록시 서버 설정: 콘텐츠를 크롤링할 때 프록시 서버를 사용할지 여부를 선택할 수 있습니다. 사용할 프록시 서버는 Office SharePoint Server 2007 배포 토폴로지 및 조직 내 다른 서버의 아키텍처에 따라 다릅니다.

  • 시간 제한 설정: 시간 제한 설정은 검색 서버가 다른 서비스에 연결하는 동안 기다리는 시간을 제한하는 데 사용됩니다.

  • SSL 설정: SSL(Secure Sockets Layer) 설정은 SSL 인증서가 정확히 일치해야만 콘텐츠를 크롤링할 수 있도록 할지 여부를 결정합니다.

워크시트 작업

콘텐츠 크롤링 계획 워크시트 (영문)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x412)의 Farm-level search settings(팜 수준 검색 설정) 섹션에 초기 배포의 팜 수준 검색 설정에 대한 결정 사항을 기록하십시오.

여러 언어로 된 콘텐츠 인덱싱

콘텐츠를 크롤링할 때 크롤러는 검색되는 콘텐츠의 개별 단어를 결정합니다. 단어가 공백으로 구분되는 언어의 경우 크롤러가 각 단어를 구별하기가 비교적 쉽습니다. 그러나 단어의 경계를 찾는 것이 보다 복잡한 언어도 있습니다.

Office SharePoint Server 2007에서는 다양한 언어로 된 콘텐츠를 쉽게 크롤링 및 인덱싱할 수 있도록 단어 분리기와 형태소 분석기가 기본적으로 제공됩니다. 단어 분리기는 전체 텍스트가 인덱싱된 데이터에서 단어 경계를 찾는 반면 형태소 분석기는 동사의 변화를 파악합니다.

아래 표에 나와 있는 언어를 크롤링하는 경우 Office SharePoint Server 2007에서는 해당 언어에 적합한 단어 분리기 및 형태소 분석기를 자동으로 사용합니다. 별표(*)는 형태소 분석기가 기본적으로 설정되어 있음을 나타냅니다.

기본적으로 지원되는 언어 기본적으로 지원되는 언어

아랍어

리투아니아어*

벵골어

말레이어

불가리아어*

말라얄람어*

카탈로니아어

마라티어

크로아티아어

노르웨이어(복말)

체코어*

폴란드어*

덴마크어

포르투갈어

네덜란드어

포르투갈어(브라질)

영어

펀잡어

핀란드어*

루마니아어*

프랑스어*

러시아어*

독일어*

세르비아어(키릴 자모)*

그리스어*

세르비아어(라틴 문자)*

구자라트어

슬로바키아어*

히브리어

슬로베니아어*

힌디어

스페인어*

헝가리어*

스웨덴어

아이슬란드어*

타밀어*

인도네시아어

텔루구어*

이탈리아어

태국어

일본어

터키어*

카나다어*

우크라이나어*

한국어

우르두어*

라트비아어*

베트남어

크롤러에서 지원되지 않는 언어의 콘텐츠를 인덱싱하는 경우 중립 분리기가 사용됩니다. 중립 분리기를 사용해도 원하는 결과를 얻을 수 없는 경우에는 Office SharePoint Server 2007에서 작동하는 타사 솔루션을 사용해 볼 수 있습니다.

최상의 방법으로는 지원해야 할 각 언어에 해당하는 단어 분리기와 형태소 분석기를 설치하는 것이 좋습니다. Office SharePoint Server 검색 서비스를 실행하는 모든 서버에 단어 분리기 및 형태소 분석기를 설치해야 합니다.

단어 분리기 및 형태소 분석기에 대한 자세한 내용은 다국어 사이트 계획을 참조하십시오.

워크시트 작업

콘텐츠 크롤링 계획 워크시트 (영문)(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x412)의 Word breakers and stemmers(단어 분리기 및 형태소 분석기) 섹션에 초기 배포의 단어 분리기 및 형태소 분석기에 대한 결정 사항을 기록하십시오.

워크시트

아직 결정 사항을 모두 기록하지 않은 경우 다음 워크시트에 콘텐츠 원본에 대해 결정한 계획 및 콘텐츠 크롤링과 관련된 다른 결정을 기록하십시오.

초기 배포 및 구성 단계에서 계획한 콘텐츠 원본 및 크롤링 규칙 가운데 몇 가지만 만들려는 경우에도 작업을 진행하면서 이 워크시트를 사용할 수 있습니다.

이 문서의 다운로드

이 항목은 다운로드 가능한 다음 문서에도 포함되어 있어 더 쉽게 읽고 인쇄할 수 있습니다.

사용 가능한 문서의 전체 목록은 다운로드 가능한 Office SharePoint Server 2007 관련 콘텐츠 (영문)를 참조하십시오.