크롤링 및 연결 계획(SharePoint Server 2010)

 

적용 대상: SharePoint Server 2010

마지막으로 수정된 항목: 2016-11-30

최종 사용자가 Microsoft SharePoint Server 2010의 엔터프라이즈 검색 기능을 사용하기 전에 쿼리할 수 있도록 만들 콘텐츠를 크롤링하거나 연결해야 합니다. 크롤링 또는 연결 계획에는 다음과 같은 작업이 포함됩니다.

  • 콘텐츠 원본 계획

  • 파일 형식 포함 및 IFilter 계획

  • 인증 계획

  • 커넥터 계획

  • 크롤링 영향 관리 계획

  • 크롤링 규칙 계획

  • 팜 수준에서 관리되는 검색 설정 계획

  • 연결 계획

콘텐츠 원본 계획

콘텐츠 원본을 옵션 집합으로 사용하여 크롤링할 콘텐츠 종류 및 URL, 그리고 크롤링 수준과 시기를 지정할 수 있습니다. 기본 콘텐츠 원본은 로컬 SharePoint 사이트입니다. 이 콘텐츠 원본을 사용하여 특정 Search Service 응용 프로그램과 연결된 모든 웹 응용 프로그램에서 모든 콘텐츠를 크롤링하는 방법을 지정할 수 있습니다. 기본적으로 특정 Search Service 응용 프로그램을 사용하는 각 웹 응용 프로그램의 경우 SharePoint Server 2010에서는 각 사이트 모음에 있는 최상위 사이트의 시작 주소를 기본 콘텐츠 원본에 추가합니다.

일부 조직에서는 기본 콘텐츠 원본을 사용하여 해당 검색 요구 사항을 충족합니다. 그러나 많은 조직에는 추가 콘텐츠 원본이 있어야 합니다. 다음을 수행해야 하는 경우 추가 콘텐츠 원본을 계획하십시오.

  • 서로 다른 콘텐츠 형식 크롤링(예: SharePoint 사이트, 파일 공유 및 비즈니스 데이터)

  • 다른 콘텐츠와 다른 일정에 따라 일부 콘텐츠 크롤링

  • 크롤링되는 콘텐츠의 양 제한 또는 증대

  • 서로 다른 사이트의 크롤링에 각기 다른 우선 순위 설정

각각의 Search Service 응용 프로그램에는 최대 500개의 콘텐츠 원본을 만들 수 있으며 각 콘텐츠 원본에는 500개나 되는 시작 주소가 포함될 수 있습니다. 관리 업무를 최대한 단순화하려면 만드는 콘텐츠 원본의 수를 제한하는 것이 좋습니다.

서로 다른 형식의 콘텐츠 크롤링 계획

콘텐츠 원본당 한 가지 형식의 콘텐츠만 크롤링할 수 있습니다. 즉, SharePoint 사이트의 시작 주소가 포함된 콘텐츠 원본과 파일 공유의 시작 주소가 포함된 콘텐츠 원본을 별도로 만들 수는 있지만, SharePoint 사이트의 시작 주소와 파일 공유의 시작 주소가 모두 포함된 단일 콘텐츠 원본은 만들 수 없습니다. 다음 표에는 구성 가능한 콘텐츠 원본 형식이 나와 있습니다.

콘텐츠 원본 종류 콘텐츠

SharePoint 사이트

동일하거나 서로 다른 Microsoft SharePoint Server 2010, Microsoft SharePoint Foundation 2010 또는 Microsoft Search Server 2010 팜의 SharePoint 사이트

동일하거나 서로 다른 Microsoft Office SharePoint Server 2007, Windows SharePoint Services 3.0 또는 Microsoft Search Server 2008 팜의 SharePoint 사이트

Microsoft Office SharePoint Portal Server 2003 또는 Windows SharePoint Services 2.0 팜의 SharePoint 사이트

참고

SharePoint Server 2010, SharePoint Foundation 2010 또는 Search Server 2010에서 SharePoint 사이트를 크롤링할 때와 달리 이전 버전의 SharePoint 제품 및 기술에서는 크롤러가 사이트 모음의 모든 하위 사이트를 자동으로 크롤링할 수 없습니다. 따라서 이전 버전에서 SharePoint 사이트를 크롤링하는 경우에는 크롤링할 각 최상위 수준 사이트의 시작 주소와 각 하위 사이트의 URL을 지정해야 합니다.

웹 사이트

SharePoint 사이트에 없는 조직의 기타 웹 콘텐츠

인터넷 웹 사이트의 콘텐츠

파일 공유

조직 내 파일 공유에 있는 콘텐츠

Exchange 공용 폴더

Microsoft Exchange Server 콘텐츠

Lotus Notes

Lotus Notes 데이터베이스에 저장된 전자 메일 메시지

참고

다른 모든 콘텐츠 원본 형식과 달리 Lotus Notes 콘텐츠 원본 옵션은 적절한 필수 구성 요소 소프트웨어를 설치하고 구성할 때까지 사용자 인터페이스에 표시되지 않습니다. 자세한 내용은 Lotus Notes 커넥터 구성 및 사용(SharePoint Server 2010)를 참조하십시오.

비즈니스 데이터

기간 업무(LOB) 응용 프로그램에 저장된 비즈니스 데이터

비즈니스 데이터에 대한 콘텐츠 원본 계획

비즈니스 데이터 콘텐츠 원본을 사용하려면 데이터를 호스팅하는 응용 프로그램을 Business Data Connectivity Service 응용 프로그램의 응용 프로그램 모델에 지정해야 합니다. 콘텐츠 원본 하나를 만들어 Business Data Connectivity Service에 등록된 모든 응용 프로그램을 크롤링할 수도 있고 서로 다른 콘텐츠 원본을 만들어 개별 응용 프로그램을 크롤링할 수도 있습니다.

비즈니스 데이터를 사이트 모음으로 통합하려는 사용자가 전체 콘텐츠 계획 프로세스에 관여하지 않는 경우가 종종 있습니다. 따라서 비즈니스 응용 프로그램 데이터를 콘텐츠에 통합하는 방법 및 사이트 모음에 이를 효과적으로 표시하는 방법과 관련하여 도움을 얻을 수 있도록 비즈니스 응용 프로그램 관리자를 콘텐츠 계획 팀에 포함하십시오.

다른 일정으로 콘텐츠 크롤링

일부 콘텐츠를 다른 콘텐츠보다 자주 크롤링할지 여부를 결정해야 합니다. 크롤링하는 콘텐츠의 양이 많을수록 여러 가지 콘텐츠 저장소에서 콘텐츠를 크롤링할 가능성이 커집니다. 콘텐츠는 형식이 저마다 다를 수도 있고 용량이 각기 다른 서버에 있을 수도 있습니다. 이러한 이유로 서로 다른 일정에 따라 각기 다른 콘텐츠 저장소를 크롤링하기 위해 콘텐츠 원본을 추가해야 할 가능성이 높아집니다.

콘텐츠를 다른 일정으로 크롤링하는 주된 이유는 다음과 같습니다.

  • 가동 중지 시간 및 사용률 최대 시간을 조정하기 위해

  • 자주 업데이트되는 콘텐츠 크롤링 빈도를 높이기 위해

  • 속도가 느린 서버에 있는 콘텐츠를 속도가 빠른 서버에 있는 콘텐츠와 별도로 크롤링하기 위해

대부분의 경우 SharePoint Server 2010을 배포하고 일정 시간 실행할 때까지는 이런 정보의 일부만 알 수 있습니다. 이러한 경우 팜을 프로덕션 환경에 배포한 후 크롤링 일정을 지정해야 합니다. 그러나 계획 단계에서 이러한 요소를 모두 고려하여 주어진 정보에 따라 크롤링 일정을 계획하는 것이 좋습니다.

다음 두 섹션에서는 콘텐츠를 다른 일정으로 크롤링하는 방법에 대한 정보를 제공합니다.

크롤링 일정 계획 고려 사항

각 콘텐츠 원본에 대한 크롤링 일정을 개별적으로 구성할 수 있습니다. 각 콘텐츠 원본에 대해 전체 크롤링을 수행할 시간을 지정하고 증분 크롤링을 수행할 시간을 별도로 지정할 수 있습니다. 먼저 특정 콘텐츠 원본에 대해 전체 크롤링을 실행한 후에만 증분 크롤링을 실행할 수 있습니다. 아직 크롤링되지 않은 콘텐츠에 대해 증분 크롤링을 지정하더라도 전체 크롤링이 수행됩니다.

참고

전체 크롤링은 해당 콘텐츠를 이전에 크롤링했는지 여부와 관계없이 크롤러에 걸리는 모든 콘텐츠와 읽기 권한 이상이 있는 모든 콘텐츠를 크롤링하므로 전체 크롤링을 완료하는 데 걸리는 시간이 증분 크롤링보다 훨씬 길 수 있습니다.

크롤링 및 쿼리 서버의 가용성, 성능 및 대역폭을 고려하여 크롤링 일정을 계획하는 것이 좋습니다.

크롤링 일정을 계획하는 경우 다음과 같은 최상의 방법을 고려합니다.

  • 콘텐츠를 호스팅하는 서버의 유사한 가용성과 적절한 전체 리소스 사용 현황을 기준으로 콘텐츠 원본의 시작 주소를 그룹화합니다.

  • 콘텐츠를 호스팅하는 서버가 사용 가능한 상태이고 서버의 리소스 사용량이 적은 시간에 각 콘텐츠 원본에 대한 증분 크롤링이 수행되도록 일정을 계획합니다.

  • 팜에 있는 서버의 부하가 시간에 따라 균등하게 배분되도록 크롤링 일정을 적절히 배치합니다.

  • 다음 섹션에 나열된 이유에 따라 필요한 경우에만 전체 크롤링을 예약합니다. 전체 크롤링은 증분 크롤링보다 낮은 빈도로 실행하는 것이 좋습니다.

  • 전체 크롤링이 필요한 관리 변경 사항의 경우 계획된 전체 크롤링 일정 바로 전에 실행되도록 예약합니다. 예를 들어 추가 전체 크롤링이 필요하지 않도록 다음에 예약된 전체 크롤링 전에 크롤링 규칙을 만드는 작업을 예약하는 것이 좋습니다.

  • 사용 가능한 용량을 고려하여 동시 크롤링을 계획합니다. 성능을 최대화하려면 콘텐츠 원본의 크롤링 일정에 시차를 두어 적절히 배치하십시오. 시간이 지남에 따라 각 콘텐츠 원본의 일반적인 크롤링 기간을 파악하게 되면 크롤링 일정을 최적화할 수 있습니다.

전체 크롤링을 수행해야 하는 이유

Search Service 응용 프로그램 관리자가 전체 크롤링을 수행해야 하는 경우는 다음과 같습니다.

  • 소프트웨어 업데이트나 서비스 팩이 팜의 서버에 설치된 경우. 자세한 내용은 소프트웨어 업데이트 또는 서비스 팩의 지침을 참조하십시오.

  • Microsoft Office SharePoint Server 2007 공유 서비스 관리자 또는 SharePoint Server 2010 Search Service 응용 프로그램 관리자가 새 관리 속성을 추가한 경우. 새 관리 속성을 즉시 적용하려면 전체 크롤링을 수행해야 합니다. 새 관리 속성을 즉시 적용하지 않으려는 경우에는 전체 크롤링을 수행할 필요가 없습니다.

  • Windows SharePoint Services 3.0 또는 Microsoft Office SharePoint Server 2007 사이트의 ASPX 페이지를 다시 인덱싱하려는 경우

    참고

    크롤러는 Windows SharePoint Services 3.0 또는 Office SharePoint Server 2007 사이트의 ASPX 페이지가 변경된 시기를 검색할 수 없습니다. 따라서 개별 목록 항목을 삭제하면 증분 크롤링이 보기 또는 홈 페이지를 다시 인덱싱하지 않습니다. 이러한 페이지를 다시 인덱싱하려면 ASPX 파일이 포함된 사이트의 전체 크롤링을 정기적으로 수행하는 것이 좋습니다.

  • 연속적인 증분 크롤링 오류를 해결하려는 경우. 저장소의 모든 수준에서 증분 크롤링이 100번 연속 실패하면 영향을 받은 콘텐츠가 인덱스에서 제거됩니다.

  • 크롤링 규칙이 추가, 삭제 또는 수정된 경우

  • 손상된 인덱스를 복구하려는 경우

  • Search Service 응용 프로그램 관리자가 하나 이상의 서버 이름 매핑을 만든 경우

  • 기본 콘텐츠 액세스 계정 또는 크롤링 규칙에 할당된 사용자 계정의 자격 증명이 변경된 경우

다음과 같은 조건에서는 증분 크롤링을 요청하는 경우에도 전체 크롤링이 수행됩니다.

  • 검색 관리자가 이전 크롤링을 중지한 경우

  • 콘텐츠 데이터베이스가 복원된 경우 또는 팜 관리자가 콘텐츠 데이터베이스를 분리했다가 다시 연결한 경우

    참고

    Office SharePoint Server 2007과 Microsoft Office Servers 인프라 업데이트 또는 SharePoint Server 2010을 함께 실행하는 경우 Stsadm 명령줄 도구의 restore 작업을 사용하여 콘텐츠 데이터베이스 복원 후 전체 크롤링의 자동 수행 여부를 변경할 수 있습니다.

  • 이 Search Service 응용 프로그램에서 사이트의 전체 크롤링을 한 번도 수행하지 않은 경우

  • 변경 로그에 크롤링 중인 주소의 항목이 포함되어 있지 않은 경우. 변경 로그에 크롤링할 항목에 대한 내용이 없으면 증분 크롤링이 수행되지 않습니다.

초기 배포 후 팜에 있는 서버와 콘텐츠를 호스트하는 서버의 성능 및 용량에 따라 일정을 조정할 수 있습니다.

크롤링되는 콘텐츠의 양 제한 또는 증대

각 콘텐츠 원본에 대해 시작 주소를 크롤링할 범위를 지정할 수 있습니다. 크롤링 설정을 변경하여 크롤링 동작도 지정할 수 있습니다. 특정 콘텐츠 원본에 대해 사용할 수 있는 옵션은 선택한 콘텐츠 원본 형식에 따라 다릅니다. 그러나 대부분의 크롤링 옵션은 각 시작 주소에서 크롤링되는 계층 구조 내의 깊이 수준을 지정합니다. 이 동작은 특정 콘텐츠 원본의 모든 시작 주소에 적용됩니다. 일부 사이트를 더 깊은 수준에서 크롤링해야 하는 경우 해당 사이트를 포함하는 다른 콘텐츠 원본을 추가로 만들 수 있습니다.

크롤링 설정 옵션을 사용하여 크롤링되는 콘텐츠의 양을 제한하거나 늘릴 수 있습니다. 각 콘텐츠 원본의 속성에서 사용할 수 있는 옵션은 선택한 콘텐츠 원본 형식에 따라 다릅니다. 다음 표에서는 크롤링 설정 옵션을 구성하는 최상의 방법에 대해 설명합니다.

콘텐츠 원본 종류 해당하는 경우 다음 크롤링 설정 옵션 사용

SharePoint 사이트

사이트 자체에 콘텐츠를 포함하고 하위 사이트의 콘텐츠는 포함하지 않으려는 경우 또는 하위 사이트의 콘텐츠를 다른 일정으로 크롤링하려는 경우

각 시작 주소의 SharePoint 사이트만 크롤링

SharePoint 사이트

사이트 자체에 콘텐츠를 포함하려는 경우

-또는-

시작 주소 아래의 모든 콘텐츠를 같은 일정으로 크롤링하려는 경우

각 시작 주소의 호스트 이름 아래에 있는 모든 항목 크롤링

웹 사이트

연결된 사이트에서 사용할 수 있는 콘텐츠가 관련성이 없는 경우

각 시작 주소의 서버 내부만 크롤링

웹 사이트

관련 콘텐츠가 첫 페이지에만 있는 경우

각 시작 주소의 첫 페이지만 크롤링

웹 사이트

시작 주소에서 링크를 크롤링하는 수준을 제한하려는 경우

사용자 지정 - 크롤링할 페이지 수준 및 서버 홉 수 지정

참고

페이지 수준을 4단계 이상 지정하거나 서버 홉 수를 4개 이상 지정하면 인터넷 전체를 크롤링할 수 있으므로 연결이 많은 사이트에서는 적은 수로 시작하는 것이 좋습니다.

파일 공유

Exchange 공용 폴더

하위 폴더에서 사용할 수 있는 콘텐츠가 관련성이 없는 경우

각 시작 주소의 폴더만 크롤링

파일 공유

Exchange 공용 폴더

하위 폴더의 콘텐츠가 관련성이 있는 경우

각 시작 주소의 폴더와 모든 하위 폴더 크롤링

비즈니스 데이터

BDC 메타데이터 저장소에 등록된 모든 응용 프로그램에 관련 콘텐츠가 포함된 경우

전체 BDC 메타데이터 저장소 크롤링

비즈니스 데이터

BDC 메타데이터 저장소에 등록된 일부 응용 프로그램에 관련 콘텐츠가 포함되지 않은 경우

-또는-

일부 응용 프로그램을 다른 일정으로 크롤링하려는 경우

선택한 응용 프로그램 크롤링

콘텐츠 원본을 계획할 때 고려할 기타 사항

동일한 Search Service 응용 프로그램에서 여러 콘텐츠 원본을 사용하여 동일한 시작 주소를 크롤링할 수는 없습니다. 예를 들어 특정 콘텐츠 원본을 사용하여 사이트 모음 및 해당 사이트 모음의 모든 하위 사이트를 크롤링하는 경우 별도의 콘텐츠 원본을 사용하여 해당 하위 사이트 중 하나를 다른 일정으로 크롤링할 수는 없습니다.

크롤링 일정을 고려하는 것 외에도 시작 주소를 단일 콘텐츠 원본으로 그룹화할지 또는 추가 콘텐츠 원본을 만들지는 대개 어떤 식으로 관리할지에 따라 크게 달라집니다. 또한 관리자가 특정 콘텐츠 원본을 업데이트해야 하는 변경 작업을 실행하는 경우가 자주 있습니다. 콘텐츠 원본을 변경하려면 해당 콘텐츠 원본에 지정된 콘텐츠 저장소에 대해 전체 크롤링을 수행해야 합니다. 좀 더 간편하게 관리하려면 콘텐츠 원본과 크롤링 규칙, 크롤링 일정을 손쉽게 업데이트할 수 있도록 콘텐츠를 구성하십시오.

파일 형식 포함 및 IFilter 계획

파일 형식 포함 목록에 관련 파일 이름 확장명이 포함되어 있고 해당 파일 형식을 지원하는 크롤링 서버에 IFilter가 설치된 경우에만 콘텐츠가 크롤링됩니다. 초기 설치 중에 여러 파일 형식 및 IFilter가 자동으로 포함됩니다. 초기 배포에서 콘텐츠 원본을 계획할 때 크롤링할 콘텐츠가 포함되지 않은 파일 형식을 사용하는지 여부를 결정하십시오. 파일 형식이 포함되지 않은 경우 배포하는 동안 파일 형식 관리 페이지에서 해당 파일 형식을 추가해야 하며, 이러한 파일 형식을 지원하기 위해 IFilter가 설치 및 등록되어 있는지 확인해야 합니다.

반대로 특정 파일 형식이 크롤링되지 않도록 제외하려면 파일 형식 포함 목록에서 해당 파일 형식의 파일 이름 확장명을 삭제하면 됩니다. 그러면 해당 확장명을 가진 파일 이름이 크롤링 대상에서 제외됩니다. 기본적으로 설치되는 파일 형식 및 IFilter 목록을 확인하려면 File types and IFilters reference (SharePoint Server 2010)를 참조하십시오.

인증 계획

크롤러가 콘텐츠 원본에 표시된 시작 주소에 액세스할 때 크롤러가 해당 콘텐츠를 호스팅하는 서버의 인증을 받고 해당 서버에 대한 액세스 권한을 부여받아야 합니다. 즉, 크롤러가 사용하는 도메인 계정에 해당 콘텐츠에 대한 읽기 권한 이상이 있어야 합니다.

기본적으로 시스템에서는 기본 콘텐츠 액세스 계정을 사용합니다. 또는 크롤링 규칙을 사용하여 특정 콘텐츠를 크롤링할 때 사용할 다른 콘텐츠 액세스 계정을 지정할 수 있습니다. 기본 콘텐츠 액세스 계정을 사용하든 아니면 크롤링 규칙에 따라 지정되는 다른 콘텐츠 액세스 계정을 사용하든 사용하는 콘텐츠 액세스 계정에는 크롤링되는 모든 콘텐츠에 대한 읽기 권한이 있어야 합니다. 콘텐츠 액세스 계정에 읽기 권한이 없는 경우에는 콘텐츠가 크롤링 및 인덱싱되지 않으므로 쿼리에 사용할 수 없습니다.

기본 콘텐츠 액세스 계정으로 지정하는 계정에는 크롤링되는 대부분의 콘텐츠에 대한 액세스 권한이 있는 것이 좋습니다. 다른 액세스 계정은 보안 고려 사항에 따라 별도의 콘텐츠 액세스 계정이 필요한 경우에만 사용하십시오.

계획한 각 콘텐츠 원본에 대해 기본 콘텐츠 액세스 계정으로 액세스할 수 없는 시작 주소를 확인하고, 해당 시작 주소에 대한 크롤링 규칙을 추가하도록 계획을 세우십시오.

중요

기본 콘텐츠 액세스 계정이나 다른 모든 콘텐츠 액세스 계정에 사용되는 도메인 계정은 크롤링할 웹 응용 프로그램에 연결된 응용 프로그램 풀에서 사용하는 도메인 계정과 달라야 합니다. 같을 경우 SharePoint 사이트의 게시되지 않은 콘텐츠 및 SharePoint 사이트의 부 버전 파일(기록)이 크롤링 및 인덱싱될 수 있습니다.

또 다른 중요한 고려 사항은 크롤러가 호스트 서버와 동일한 인증 방법을 사용해야 한다는 점입니다. 기본적으로 크롤러는 NTLM을 사용하여 인증합니다. 필요한 경우 다른 인증 프로토콜을 사용하도록 크롤러를 구성할 수 있습니다.

클레임 기반 인증을 사용하는 경우에는 크롤링할 모든 웹 응용 프로그램에서 Windows 인증을 사용하도록 설정합니다.

커넥터 계획

크롤링하는 모든 콘텐츠의 경우 커넥터(이전 버전의 프로토콜 처리기)를 사용하여 해당 콘텐츠에 액세스할 수 있어야 합니다. SharePoint Server 2010에서는 모든 일반적인 인터넷 프로토콜에 사용할 수 있는 커넥터를 제공합니다. 하지만 SharePoint Server 2010과 함께 설치되지 않는 커넥터가 필요한 콘텐츠를 크롤링하는 경우 해당 콘텐츠를 크롤링하기 전에 타사 또는 사용자 지정 커넥터를 설치해야 합니다. 기본적으로 설치되는 커넥터 목록을 확인하려면 Default connectors (SharePoint Server 2010)를 참조하십시오. 커넥터를 설치하는 방법에 대한 자세한 내용은 커넥터 설치(SharePoint Server 2010)를 참조하십시오.

크롤링 영향 관리 계획

콘텐츠를 크롤링하면 콘텐츠를 호스팅하는 서버의 성능이 크게 줄어들 수 있습니다. 그 영향이 특정 서버에 미치는 정도는 해당 호스트 서버에서 발생하는 부하 및 일반적인 사용 또는 최대 사용 시 서버에 서비스 수준 계약을 유지할 수 있을 만큼 충분한 리소스(특히 CPU 및 RAM)가 있는지 여부에 따라 달라집니다.

검색 관리자는 크롤러 영향 규칙을 사용하여 크롤러가 크롤링 중인 서버에 미치는 영향을 관리할 수 있습니다. 각 크롤러 영향 규칙에 대해 하나의 URL을 지정하거나 URL 경로에 와일드카드 문자를 사용하여 규칙을 적용할 URL 블록을 포함할 수 있습니다. 그런 다음 지정된 URL에 대한 페이지당 동시 요청 수를 지정하거나 한 번에 하나의 문서만 요청하도록 선택하고 선택한 요청 사이의 대기 시간(초)만큼 기다립니다.

크롤러 영향 규칙은 크롤러가 특정 시작 주소나 시작 주소의 범위(사이트 이름이라고도 함)에서 콘텐츠를 요청하는 속도를 지정합니다. 크롤러 영향 규칙은 Search Service 응용 프로그램의 모든 콘텐츠 원본에 적용되며 요청 빈도는 크롤링 구성 요소당 적용됩니다. 다음 표에서는 크롤러 영향 규칙을 추가하거나 편집할 때 사이트 이름에 사용할 수 있는 와일드카드 문자를 보여 줍니다.

와일드카드 문자 사용 결과

사이트 이름 대신 * 사용

모든 사이트에 규칙을 적용합니다.

사이트 이름 대신 *.* 사용

이름에 점이 포함된 사이트에 규칙을 적용합니다.

사이트 이름 대신 *.사이트_이름.com 사용

사이트_이름.com 도메인(예: *.adventure-works.com)의 모든 사이트에 규칙을 적용합니다.

사이트 이름 대신 *.최상위_도메인_이름 사용

특정 최상위 도메인 이름으로 끝나는 모든 사이트(예: *.com 또는 *.net)에 규칙을 적용합니다.

?

규칙에서 하나의 문자를 대체합니다. 예를 들어 *.adventure-works?.com은 도메인 adventure-works1.com, adventure-works2.com 등의 모든 사이트에 적용됩니다.

특정 최상위 도메인 내 모든 사이트에 적용되는 크롤러 영향 규칙을 만들 수 있습니다. 예를 들어 *.com은 주소가 .com으로 끝나는 모든 인터넷 사이트에 적용됩니다. 예를 들어 포털 사이트의 관리자가 samples.microsoft.com에 대한 콘텐츠 원본을 추가할 수 있습니다. 이 경우 samples.microsoft.com에 대해 크롤러 영향 규칙을 별도로 추가하지 않으면 *.com 규칙이 이 사이트에 적용됩니다.

조직 내에서 콘텐츠를 크롤링하는 검색 시스템의 관리자와 조정하여 서버의 성능 및 용량에 따라 크롤러 영향 규칙을 설정할 수 있습니다. 대부분의 외부 사이트는 이와 같이 조정할 수 없습니다. 크롤링에서 너무 많은 리소스를 사용하고 있는 상황에서 외부 서버의 콘텐츠를 너무 많이 요청하거나 너무 자주 요청하는 경우 해당 사이트의 관리자가 액세스를 제한할 수 있습니다. 초기 배포를 수행하는 동안 다른 서버에 주는 영향을 최소화하면서 충분한 콘텐츠를 자주 크롤링하여 인덱스의 최신 상태가 서비스 수준 계약을 충족하도록 크롤러 영향 규칙을 설정합니다. 팜이 프로덕션 환경에 배포된 후에는 크롤링 로그의 데이터를 기반으로 크롤러 영향 규칙을 조정할 수 있습니다.

크롤링 규칙 계획

크롤링 규칙은 Search Service 응용 프로그램의 모든 콘텐츠 원본에 적용됩니다. 크롤링 규칙을 특정 URL 또는 URL 집합에 적용하여 다음을 수행할 수 있습니다.

  • URL을 하나 이상 제외하여 관련 없는 콘텐츠가 크롤링되지 않도록 방지할 수 있습니다. URL을 제외하면 서버 리소스 사용량 및 네트워크 트래픽이 줄어들고 검색 결과의 관련성도 높아집니다.

  • URL 자체를 크롤링하지 않고 URL의 링크를 크롤링할 수 있습니다. 이 옵션은 관련성 있는 콘텐츠에 대한 링크는 있지만 링크가 포함된 페이지에는 관련 정보가 없는 사이트에 유용합니다.

  • 복합 URL을 크롤링하도록 설정할 수 있습니다. 이 옵션을 사용하면 시스템에서 물음표로 지정한 쿼리 매개 변수가 포함된 URL을 크롤링할 수 있습니다. 사이트에 따라 이러한 URL에 관련성 있는 콘텐츠가 들어 있지 않을 수도 있습니다. 복합 URL은 관련성 없는 사이트로 리디렉션되는 경우가 많기 때문에 복합 URL의 콘텐츠가 관련성 있는 것으로 확인된 사이트에 대해서만 이 옵션을 사용하는 것이 좋습니다.

  • SharePoint 사이트의 콘텐츠를 HTTP 페이지로 크롤링할 수 있습니다. 이 옵션을 사용하면 시스템에서 방화벽 뒤에 있는 SharePoint 사이트를 크롤링할 수 있습니다. 또는 크롤링되는 사이트에서 크롤러가 사용하는 웹 서비스에 대한 액세스를 제한하는 경우에 시스템에서 SharePoint 사이트를 크롤링할 수 있습니다.

  • 지정된 URL을 크롤링할 때 기본 콘텐츠 액세스 계정, 다른 콘텐츠 액세스 계정 및 클라이언트 인증서 중 어느 것을 사용할지 지정할 수 있습니다.

콘텐츠 크롤링에는 리소스와 대역폭이 사용되므로 관련성이 떨어질 수 있는 대량의 콘텐츠보다는 관련성이 확실한 소량의 콘텐츠를 포함하는 것이 좋습니다. 초기 배포 후 쿼리 및 크롤링 로그를 검토하여 콘텐츠의 관련성을 높이고 보다 많은 콘텐츠가 포함되도록 콘텐츠 원본과 크롤링 규칙을 조정할 수 있습니다.

팜 수준에서 관리되는 검색 설정 계획

팜 수준에서 관리되는 여러 가지 설정에 따라 콘텐츠를 크롤링하는 방법이 달라집니다. 크롤링을 계획할 때 다음과 같은 팜 수준 검색 설정을 고려하십시오.

  • 담당자 전자 메일 주소: 콘텐츠 크롤링은 크롤링되는 서버의 리소스에 영향을 미칩니다. 콘텐츠를 크롤링하기 전에 구성 설정에서 크롤링이 서버에 좋지 않은 영향을 줄 때 관리자가 연락할 수 있는 담당자의 전자 메일 주소를 입력해야 합니다. 이 전자 메일 주소는 크롤링되는 서버의 관리자를 위한 로그에 나타나므로 크롤링이 성능 및 대역폭에 미치는 영향이 너무 크거나 다른 문제가 발생할 경우에 해당 관리자가 담당자에게 연락할 수 있습니다.

    담당자 전자 메일 주소는 필요한 전문 지식이 있고 요청에 대해 빠르게 응답할 수 있는 사용자의 주소여야 합니다. 또는 정밀하게 모니터링하는 메일 그룹 별칭을 담당자 전자 메일 주소로 사용할 수도 있습니다. 크롤링되는 콘텐츠가 조직 내부나 외부 중 어느 곳에 저장되어 있든지 문의에 빠르게 응답하는 것이 중요합니다.

  • 프록시 서버 설정: 콘텐츠를 크롤링할 때 프록시 서버를 사용할지 여부를 선택할 수 있습니다. 사용할 프록시 서버는 SharePoint Server 2010 배포의 토폴로지 및 조직 내 다른 서버의 아키텍처에 따라 달라집니다. 인터넷 콘텐츠를 크롤링할 경우 프록시 서버를 사용해야 할 수 있습니다. 검색에 대해 프록시 서버 설정을 구성하는 방법에 대한 자세한 내용은 팜 수준 프록시 서버 설정 구성(SharePoint Server 2010)검색을 위한 프록시 서버 설정 구성(SharePoint Server 2010)을 참조하십시오.

  • 시간 제한 설정: 시간 제한 설정은 검색 시스템이 다른 서비스에 연결하는 동안 기다리는 시간을 제한하는 데 사용됩니다.

  • SSL 설정: SSL(Secure Sockets Layer) 설정은 SSL 인증서가 정확히 일치해야만 콘텐츠를 크롤링할 수 있도록 할지 여부를 결정합니다.

연결 계획

연결된 검색은 여러 웹 리소스 또는 데이터베이스를 동시에 쿼리하여 최종 사용자에게 단일 검색 결과를 생성하는 기능입니다. 연결된 위치를 추가하면 최종 사용자가 로컬 시스템의 서버에서 크롤링되지 않은 콘텐츠를 검색하고 가져올 수 있습니다. 연결된 위치를 사용하면 쿼리를 원격 검색 엔진 및 피드로 보낼 수 있습니다. 그에 따라 시스템에서는 연결된 콘텐츠가 크롤링된 콘텐츠의 일부인 것처럼 최종 사용자에게 결과를 렌더링합니다.

SharePoint Server 2010에서는 다음과 같은 유형의 연결된 위치를 지원합니다.

  • 이 서버의 검색 인덱스SharePoint Server 2010을 실행하는 서버가 있는 조직에서 로컬 또는 원격 사이트를 연결된 위치로 사용할 수 있습니다. 예를 들어 회사의 인사부 서버에 있는 SharePoint 사이트가 직원 연락처 정보를 얻을 수 있는 유일한 출처인 경우 이 사이트가 크롤링 범위에 속하지 않더라도 검색 센터 사이트에서 검색을 시작하는 사용자가 직원 연락처 정보 결과를 검색할 수 있도록 해당 사이트에 대한 연결된 위치를 구성할 수 있습니다. 이때 다음과 같은 조건이 적용됩니다.

    1. 위치가 이 서버의 검색 인덱스로 설정됩니다.

    2. 쿼리 서식 파일이 필요하지 않습니다. SharePoint Server 2010에서는 개체 모델을 사용하여 위치를 쿼리합니다.

    3. 기본 서버 인증이 사용됩니다.

    4. 고급 검색 쿼리가 지원되지 않습니다.

  • OpenSearch 1.0 또는 1.1 OpenSearch 표준을 지원하는 공용 웹 사이트를 연결된 위치로 사용할 수 있습니다. 이러한 위치의 예는 Bing 같은 인터넷 검색 엔진이나 RSS 또는 Atom 프로토콜을 지원하는 검색 결과 페이지입니다. 예를 들어 비공개 기술 연구를 위한 내부 사이트를 검색하는 사용자가 공용 웹 사이트에서 관련 연구 정보도 확인하게 하려는 경우, Bing 검색 쿼리에 대한 연결된 위치를 구성하면 웹 검색 결과가 해당 사용자를 위해 자동으로 포함됩니다. 이때 다음과 같은 조건이 적용됩니다.

    1. 검색 엔진에 쿼리를 URL(예: http://www.example.com/search.aspx?q=TEST)로 보낼 수 있습니다.

    2. 검색 결과가 RSS, Atom 또는 다른 구조화된 XML 형식으로 반환됩니다.

    3. 위치 기능, 쿼리 서식 파일 및 응답 요소가 위치와 연결된 OpenSearch 설명 파일(.osdx)의 일부입니다.

    4. SharePoint Server 2010 특유의 OpenSearch 확장을 통해 트리거를 포함하는 기능 및 XSL 코드를 검색 결과와 연결하는 기능이 지원됩니다.

    5. 검색 결과에 표시할 메타데이터 선택은 OpenSearch 위치에 따라 결정됩니다.

    OpenSearch에 대한 자세한 내용은 https://www.opensearch.org/home(영문일 수 있음)를 참조하십시오.

검색 쿼리가 연결된 위치로 전송되는 경우 쿼리 서식 파일이라는 형식의 URL 매개 변수로 전송됩니다. 시스템에서는 결과의 서식을 지정하고 검색 센터 사이트의 사용자를 위해 XML로 결과를 렌더링합니다. 이 XML은 검색 결과 페이지의 웹 파트에 읽을 수 있는 텍스트로 표시됩니다. 검색 결과 페이지에서 연결된 검색 결과 웹 파트, 최상위 연결된 결과 웹 파트 또는 핵심 결과 웹 파트로 웹 파트를 추가하고 구성할 수 있습니다. 기본적으로 검색 결과 페이지에는 세 가지 연결된 검색 결과 웹 파트가 포함됩니다.

연결된 검색 결과를 사용자에게 표시할지 여부를 결정할 때는 다음 질문을 고려합니다.

  1. 특정 검색의 사용자 지정 결과를 표시하겠습니까? 연결된 위치가 특정 쿼리와 일치하는 결과를 반환하도록 하기 위해 트리거 규칙을 사용할 수 있습니다. 연결된 위치에 대한 트리거 규칙을 만들면 해당 위치에 연결된 웹 파트는 지정된 패턴 또는 접두어와 일치하는 사용자 쿼리에 대해서만 결과를 표시합니다.

  2. URL을 사용하여 쿼리에 대해 검색할 결과를 지정할 수 있습니까? 연결된 위치를 만들려면 쿼리 서식 파일을 지정해야 합니다. 쿼리 서식 파일은 검색 쿼리를 보내고 결과를 XML로 반환하는 데 필요한 매개 변수와 URL의 조합입니다. 이 정보를 연결된 위치 추가 페이지의 쿼리 서식 파일 필드에 추가하는 경우 연결된 위치 추가 페이지의 예에서처럼 문자열의 형식을 올바르게 지정해야 하며, 그렇지 않으면 검색 결과 공급자에서 결과를 반환하지 않습니다.

  3. 사용자가 연결된 위치에서 제공하는 링크에 액세스할 수 있습니까? 조직에서 인터넷 리소스에 제한적으로만 액세스할 수 있도록 하는 경우 인터넷 검색 엔진을 연결된 위치로 사용하면 일부 검색 결과를 확인할 수 없는 문제가 발생할 수 있습니다.

  4. 인증이 필요합니까? 연결된 위치에 인증이 필요한 경우 올바른 자격 증명을 제공해야 합니다. 인터넷 검색 엔진과 같은 대부분의 연결된 위치에는 자격 증명이 필요하지 않습니다.

연결에 사용할 인증 유형 계획

연결된 검색에는 다양한 사용자 인증 유형(사용자별 및 일반 자격 증명)을 사용할 수 있습니다. 그러나 자격 증명을 수집하려면 사용자별 인증에서 Kerberos가 아닌 인증 유형에 대해 웹 파트 확장이 필요합니다. 위치 정의의 인증 및 자격 증명 정보 섹션에서 연결된 위치의 인증 유형을 지정합니다. 인증 유형은 다음 중 하나일 수 있습니다.

  • 익명

    연결된 위치에 연결하는 데 자격 증명이 필요하지 않습니다.

  • 일반

    각 연결에서 동일한 자격 증명 집합을 사용하여 연결된 위치에 연결합니다.

  • 사용자별

    검색 쿼리를 전송한 사용자의 자격 증명을 사용하여 연결된 위치에 연결합니다.

일반 인증 유형 및 사용자별 인증 유형에 대해서는 다음 인증 프로토콜 중 하나를 함께 지정해야 합니다.

  • 기본

    기본 인증은 HTTP 사양에 속하며 대부분의 브라우저에서 지원됩니다.

    보안 참고 사항Security Note
    기본 인증을 사용하는 웹 브라우저는 암호화되지 않은 암호를 전송합니다. 이 경우 악의적인 사용자가 네트워크의 통신을 모니터링하여 일반 사용자에게 제공되는 도구를 통해 이러한 암호를 가로채 암호를 해독할 수 있습니다. 따라서 전용선이나 SSL(Secure Sockets Layer) 연결과 같이 연결이 안전한 것으로 확신할 수 있는 경우를 제외하고 기본 인증은 사용하지 않는 것이 좋습니다.
  • 다이제스트

    다이제스트 인증은 W3C(World Wide Web Consortium) 웹 사이트의 RFC 2617 사양에 정의되어 있는 HTTP 1.1 프로토콜을 사용합니다. 이 인증은 HTTP 1.1과 호환되어야 하므로, 일부 브라우저에서는 이 인증을 지원하지 않습니다. 다이제스트 인증을 사용하도록 설정한 상태에서 HTTP 1.1 요청과 호환되지 않는 브라우저에서 파일을 요청하면 클라이언트에서 다이제스트 인증이 지원되지 않으므로 요청이 거부됩니다. 다이제스트 인증은 Windows 도메인에서만 사용할 수 있으며, Windows Server 2008, Microsoft Windows Server 2003 및 Microsoft Windows 2000 Server 도메인 계정에 대해서만 작동합니다. 또한 이들 계정에서는 암호를 암호화된 일반 텍스트로 저장해야 할 수 있습니다.

  • NTLM

    사용자 레코드가 SAM(보안 계정 관리자) 데이터베이스 또는 Active Directory 데이터베이스에 저장됩니다. 각 사용자 계정은 두 개의 암호, 즉 LAN Manager 호환 암호 및 Windows 암호에 연결되어 있습니다. 이들 각 암호는 암호화되어 SAM 데이터베이스 또는 Active Directory 데이터베이스에 저장됩니다.

  • Kerberos(사용자별 인증 유형만 해당함)

    Kerberos 프로토콜을 사용하면 각 네트워크 연결 주체가 연결 상대의 신원을 확인할 수 있습니다. NTLM을 사용하는 경우 서버에서 클라이언트의 ID를 확인할 수는 있지만 클라이언트에서 서버의 ID를 확인할 수는 없으며, 서버 간에 서로의 ID를 확인할 수도 없습니다. NTLM 인증은 서버를 신뢰할 수 있는 네트워크 환경에 사용하기 위한 것입니다.

  • 폼 기반

    폼 기반 인증 쿠키는 단순히 인증 티켓의 컨테이너일 뿐입니다. 각 요청은 티켓을 쿠키 값으로 전달하며, 티켓은 서버에서 인증된 사용자를 식별하는 데 사용됩니다. 그러나 쿠키를 사용하지 않는 폼 기반 인증은 URL의 티켓을 암호화된 형식으로 전달합니다. 클라이언트 브라우저가 쿠키를 차단할 수도 있는 경우에 쿠키를 사용하지 않는 폼 기반 인증을 사용합니다. 이 기능은 Microsoft .NET Framework 2.0에 처음으로 도입되었습니다.

해당 환경에서 클레임 기반 인증을 사용하는 경우에는 크롤링할 모든 콘텐츠 원본에 대해 Windows 인증도 사용하도록 설정해야 합니다. SharePoint Server 2010의 인증 방법에 대한 자세한 내용은 인증 방법 계획(SharePoint Server 2010)을 참조하십시오.

See Also

Concepts

현재 검색 환경 정보 수집(SharePoint Server 2010)
엔터프라이즈 검색 팀 및 이해 관계자 결정(SharePoint Server 2010)