콘텐츠 크롤링(Office SharePoint Server 2007)

업데이트 날짜: 2010년 9월

적용 대상: Office SharePoint Server 2007

 

마지막으로 수정된 항목: 2010-09-20

콘텐츠 크롤링은 시스템이 콘텐츠와 메타데이터라고도 하는 콘텐츠의 속성에 액세스하고 이를 구문 분석하여 검색 쿼리를 처리할 수 있는 콘텐츠 인덱스를 작성하는 프로세스입니다.

콘텐츠가 제대로 크롤링되면 쿼리를 검색하려는 개별 파일이나 콘텐츠에 크롤러가 액세스하여 해당 내용을 읽을 수 있어야 합니다. 해당 파일의 키워드 및 메타데이터가 콘텐츠 인덱스(인덱스라고도 함)에 저장됩니다. 인덱스는 인덱스 서버의 파일 시스템에 저장된 키워드와 검색 데이터베이스에 저장된 메타데이터로 구성됩니다. 시스템은 키워드, 콘텐츠의 개별 내용과 연결된 메타데이터, 그리고 콘텐츠가 크롤링된 원본 URL 간의 매핑을 유지 관리합니다.

참고

크롤러는 호스트 서버의 파일을 변경하지 않습니다. 대신, 호스트 서버의 파일에 액세스하고 해당 내용을 읽으며, 해당 파일의 텍스트 및 메타데이터를 인덱싱할 인덱스 서버로 보냅니다. 그러나 크롤러는 호스트 서버의 콘텐츠를 읽으므로 특정 콘텐츠 원본을 호스팅하는 일부 서버가 크롤링된 파일에 마지막으로 액세스한 날짜를 업데이트할 수 있습니다.

콘텐츠 크롤링 시기 결정

서버 팜을 배포하고 일정 기간 실행한 후 검색 서비스 관리자는 일반적으로 다음과 같은 경우 크롤링 일정을 변경해야 합니다.

  • 가동 중지 시간 및 사용률 최대 시간에 변경 내용을 적용하려는 경우

  • 콘텐츠를 호스팅하는 서버에서 콘텐츠를 업데이트하는 빈도로 변경 내용을 적용하려는 경우

  • 다음과 같이 크롤링 일정을 지정하려는 경우

    • 느린 호스트 서버에 호스팅된 콘텐츠를 빠른 호스트 서버에 호스팅된 콘텐츠와는 별도로 크롤링

    • 새 콘텐츠 원본을 크롤링

    • 대상이 지정된 콘텐츠의 업데이트 빈도에 맞춰 크롤링. 예를 들어 매일 업데이트되는 저장소에 대해서는 매일 크롤링을 수행하고 거의 업데이트되지 않는 저장소는 가끔씩 크롤링할 수 있습니다.

크롤링 수행

일반적으로는 크롤링 일정을 지정하여 대부분의 크롤링을 자동화합니다. 그러나 크롤링을 수동으로 시작해야 하는 경우도 있습니다. 예를 들어 크롤링 및 인덱싱하는 콘텐츠에 대한 크롤링 규칙 같은 관리상의 변경 내용을 적용하거나 크롤링 로그의 오류가 해결되었는지 확인하기 위해 크롤링을 시작할 수 있습니다.

또한 크롤링을 예약에 의해 시작하든 또는 수동으로 시작하든 상관없이 하나 이상의 크롤링을 중단하거나 일시 중지해야 할 수도 있습니다. 예를 들어 크롤링 대상 콘텐츠를 호스팅하는 서버의 관리자가 크롤링이 서버에 너무 많은 부담을 준다고 알려 주거나 크롤링 중인 서버가 현재 오프라인 상태라는 알림을 받을 수 있습니다. 이러한 경우 크롤링을 중단하거나 일시 중지할 수 있습니다.

전체 크롤링을 수행하려면 증분 크롤링을 수행하는 경우에 비해 더 많은 시간과 서버 리소스가 필요하다는 점을 고려하십시오. 전체 크롤링의 특징은 다음과 같습니다.

  • 인덱스 서버에서 증분 크롤링보다 더 많은 메모리 및 CPU 주기를 사용합니다.

  • 서버 팜의 콘텐츠를 크롤링하는 경우 프런트 엔드 웹 서버에서 더 많은 메모리 및 CPU 주기를 사용합니다. 서버 팜 외부의 콘텐츠를 크롤링하는 경우에는 그렇지 않습니다.

  • 증분 크롤링보다 더 많은 네트워크 대역폭을 사용합니다.

중요

콘텐츠 원본의 크롤링을 중단한 경우 다음에 해당 콘텐츠 원본을 크롤링하면 Microsoft Office SharePoint Server 2007에서 자동으로 콘텐츠 원본의 전체 크롤링을 수행합니다. 이는 증분 크롤링을 수행할 경우에도 마찬가지입니다. 따라서 크롤링을 중단하지 않고 일시 중지해야 하는지 여부를 신중히 고려해야 합니다.

또한 일시 중지된 각 콘텐츠 원본에서 인덱스 서버의 메모리 및 CPU 리소스를 사용하므로 너무 많은 콘텐츠 원본에 대한 크롤링을 동시에 일시 중지하지 않도록 주의해야 합니다.

전체 또는 증분 크롤링을 시작하거나 크롤링을 중단, 일시 중지 또는 다시 시작하려면 다음 절차 중 하나를 수행하십시오.

크롤링 예약

다음 섹션에서는 일정에 따른 콘텐츠 크롤링을 위한 고려 사항에 대해 자세히 설명합니다.

가동 중지 시간 및 사용률 최대 시간

크롤링할 콘텐츠를 호스팅하는 서버의 가동 중지 시간 및 사용률 최대 시간을 고려하십시오. 예를 들어 서버 팜 외부의 여러 서버에서 호스팅되는 콘텐츠를 크롤링하는 경우 이러한 서버는 보통 서로 다른 일정으로 백업되고 사용률이 최대인 시간도 서로 다릅니다. 일반적으로 서버 팜 외부에 있는 서버는 관리할 수 없습니다. 따라서 크롤링할 콘텐츠를 호스팅하는 서버의 관리자와 크롤링을 조정하여 해당 관리자의 서버가 가동 중지 시간이거나 사용률 최대 시간인 경우에는 해당 서버에서 콘텐츠를 크롤링하지 않도록 해야 합니다.

참고

호스트 서버의 사용률 최대 시간 및 가동 중지 시간이 변경될 수 있으므로 새로 만든 콘텐츠 원본뿐만 아니라 모든 콘텐츠 원본의 크롤링 일정을 정기적으로 다시 평가하는 것이 좋습니다.

일반적인 예로 SharePoint 사이트의 콘텐츠와 관련이 있지만 조직의 관리 대상이 아닌 콘텐츠를 들 수 있습니다. 이러한 콘텐츠의 시작 주소를 기존 콘텐츠 원본에 추가하거나 외부 콘텐츠의 콘텐츠 원본을 새로 만들 수 있습니다. 외부 사이트의 가용성은 매우 다양하므로 외부 콘텐츠마다 다른 콘텐츠 원본을 추가하는 것이 좋습니다. 이런 방식으로 외부 콘텐츠의 콘텐츠 원본을 다른 콘텐츠 원본과 다른 시간대에 크롤링할 수 있습니다. 그런 다음 각 사이트의 가용 시간을 고려하는 크롤링 일정에 따라 외부 콘텐츠를 업데이트할 수 있습니다.

자주 업데이트되는 콘텐츠

크롤링 일정을 계획할 때 일부 콘텐츠 원본은 다른 콘텐츠 원본보다 자주 업데이트된다는 사실을 고려하십시오. 예를 들어 일부 사이트 모음이나 외부 원본의 콘텐츠가 금요일에만 업데이트되는 경우 해당 콘텐츠를 일주일에 두 번 이상 크롤링하는 것은 리소스 낭비입니다. 그러나 월요일부터 금요일까지는 지속적으로 업데이트되지만 보통 토요일과 일요일에는 업데이트되지 않는 다른 사이트 모음이 서버 팜에 있을 수 있습니다. 이 경우 평일에는 해당 사이트를 여러 번 크롤링하되 주말에는 크롤링하지 않는 것이 좋습니다.

해당 환경의 사이트 모음에 콘텐츠가 저장되는 방식에 따라 각 웹 응용 프로그램의 각 사이트 모음에서 추가 콘텐츠 원본을 만드는 방법이 달라질 수 있습니다. 예를 들어 보관된 정보만 사이트 모음에서 저장하는 경우 자주 업데이트되는 콘텐츠를 저장한 사이트 모음을 크롤링할 때처럼 해당 콘텐츠를 자주 크롤링할 필요는 없습니다. 이 경우 서로 다른 콘텐츠 원본을 사용하여 두 사이트 모음을 크롤링하면 서로 다른 일정으로 두 사이트 모음을 크롤링할 수 있습니다.

전체 및 증분 크롤링 일정

검색 서비스 관리자는 각 콘텐츠 원본에 대한 크롤링 일정을 개별적으로 구성할 수 있습니다. 또한 각 콘텐츠 원본에 대해 전체 크롤링을 수행할 시간을 지정하고 증분 크롤링을 수행할 시간을 별도로 지정할 수 있습니다.

참고

먼저 특정 콘텐츠 원본에 대해 전체 크롤링을 실행한 후에만 증분 크롤링을 실행할 수 있습니다.

검색 서비스를 실행하는 서버와 크롤링된 콘텐츠를 호스팅하는 서버의 가용성, 성능 및 대역폭을 고려하여 크롤링 일정을 계획하는 것이 좋습니다.

크롤링 일정을 계획하는 경우 다음과 같은 최상의 방법을 고려합니다.

  • 콘텐츠를 호스팅하는 서버의 유사한 가용성과 적절한 전체 리소스 사용 현황을 기준으로 콘텐츠 원본의 시작 주소를 그룹화합니다.

  • 콘텐츠를 호스팅하는 서버가 사용 가능한 상태이고 서버의 리소스 사용량이 적은 시간에 각 콘텐츠 원본에 대한 증분 크롤링이 수행되도록 일정을 계획합니다. 하나 이상의 크롤러 영향 규칙을 추가하거나 편집하여 크롤링할 서버의 부하를 줄일 수 있습니다. 크롤러 영향 규칙에 대한 자세한 내용은 크롤러 영향 관리(Office SharePoint Server 2007)를 참조하십시오.

  • 팜에 있는 서버의 부하가 시간에 따라 균등하게 배분되도록 크롤링 일정에 시차를 두어 적절히 배치합니다.

  • 다음 섹션에 나열한 이유로 필요한 경우에만 전체 크롤링 일정을 계획합니다. 전체 크롤링은 증분 크롤링보다 낮은 빈도로 수행하는 것이 좋습니다.

  • 전체 크롤링이 필요한 관리 변경 사항의 경우 계획된 전체 크롤링 일정 바로 전에 수행되도록 예약합니다. 예를 들어 추가 전체 크롤링이 필요하지 않도록 다음에 예약된 전체 크롤링 전에 크롤링 규칙을 만드는 작업을 예약하는 것이 좋습니다.

  • 인덱스 서버의 크롤링 용량을 기준으로 동시 크롤링을 계획합니다. 인덱스 서버가 여러 콘텐츠 원본을 동시에 사용하여 크롤링하지 않도록 크롤링 일정을 분산하는 것이 좋습니다. 크롤링이 겹칠 수 있는 범위는 인덱스 서버의 성능 및 콘텐츠를 호스팅하는 서버의 성능에 따라 결정됩니다. 나중에 각 콘텐츠 원본의 일반적인 크롤링 지속 기간에 익숙해지면 크롤링 일정을 설정하는 전략을 개발할 수 있습니다. 해당 환경에서 크롤링에 걸리는 시간의 추세 데이터를 기록하는 것이 좋습니다.

전체 크롤링을 수행해야 하는 이유

검색 서비스 관리자가 전체 크롤링을 수행해야 하는 경우는 다음과 같습니다.

  • 하나 이상의 핫픽스나 서비스 팩이 팜의 서버에 설치된 경우. 자세한 내용은 핫픽스 또는 서비스 팩의 지침을 참조하십시오.

  • SSP 관리자가 새 관리 속성을 추가한 경우

  • Windows SharePoint Services 3.0 또는 Office SharePoint Server 2007 사이트에서 ASPX 페이지를 다시 인덱싱하려는 경우

    참고

    크롤러는 Windows SharePoint Services 3.0 또는 Office SharePoint Server 2007 사이트의 ASPX 페이지가 변경된 시기를 검색할 수 없습니다. 따라서 개별 목록 항목을 삭제하면 증분 크롤링이 뷰 또는 홈 페이지를 다시 인덱싱하지 않습니다. 이러한 페이지를 다시 인덱싱하려면 ASPX 파일이 포함된 사이트의 전체 크롤링을 정기적으로 수행하는 것이 좋습니다.

  • 파일 공유를 마지막으로 전체 크롤링한 후 파일 공유에서 변경된 보안 관련 내용을 검색하려는 경우

  • 연속적인 증분 크롤링 오류를 해결하려는 경우. 드물기는 하지만 저장소의 한 수준에서 100번 연속해서 증분 크롤링에 실패한 경우 인덱스 서버는 해당 콘텐츠를 인덱스에서 제거합니다.

  • 크롤링 규칙이 추가, 삭제 또는 수정된 경우

  • 손상된 인덱스를 복구하려는 경우

  • 검색 서비스 관리자가 하나 이상의 서버 이름 매핑을 만든 경우

  • 기본 콘텐츠 액세스 계정에 할당된 계정 또는 크롤링 규칙이 변경된 경우

다음과 같은 조건에서는 증분 크롤링을 요청하는 경우에도 전체 크롤링이 수행됩니다.

  • SSP 관리자가 이전 크롤링을 중지한 경우

  • 콘텐츠 데이터베이스를 백업에서 복원한 경우

    참고

    Microsoft Office Servers 인프라 업데이트를 실행하는 경우 stsadm 명령줄 도구의 restore 작업을 사용하여 콘텐츠 데이터베이스 복원 후 전체 크롤링의 자동 수행 여부를 변경할 수 있습니다.

  • 팜 관리자가 콘텐츠 데이터베이스를 분리했다가 다시 연결한 경우

  • 사이트의 전체 크롤링이 한 번도 수행되지 않은 경우

  • 변경 로그에 크롤링 중인 주소의 항목이 포함되어 있지 않은 경우. 변경 로그에 크롤링할 항목에 대한 내용이 없으면 증분 크롤링이 수행되지 않습니다.

  • 기본 콘텐츠 액세스 계정에 할당된 계정 또는 크롤링 규칙이 변경된 경우

  • 손상된 인덱스를 복구하려는 경우

    인덱스에서 손상이 발견되면 손상 정도에 따라 시스템에서 전체 크롤링을 수행할 수 있습니다.

초기 배포 후 팜에 있는 서버와 콘텐츠를 호스팅하는 서버의 성능 및 용량에 따라 일정을 조정할 수 있습니다.

참고 항목

개념

콘텐츠 크롤링(Office SharePoint Server 2007)
전체 크롤링 예약(Office SharePoint Server 2007)
증분 크롤링 예약(Office SharePoint Server 2007)