크롤링 로그를 사용하기 위한 최상의 방법(FAST Search Server 2010 for SharePoint)

 

적용 대상: FAST Search Server 2010

마지막으로 수정된 항목: 2015-03-09

크롤링 로그는 SharePoint Server 2010에 통합된 인덱싱 커넥터를 사용하여 FAST Search Content Search Service 응용 프로그램을 통해 크롤링된 콘텐츠의 상태에 대한 정보를 추적합니다.

참고

크롤링 로그에는 FAST Search 관련 인덱싱 커넥터에 대한 정보는 포함되지 않으며, 이러한 커넥터에는 FAST Search 웹 크롤러, FAST Search Lotus Notes 커넥터 및/또는 FAST Search 데이터베이스 커넥터가 있습니다.

이 로그를 사용하면 크롤링된 콘텐츠가 인덱스에 올바르게 추가되었는지 여부, 크롤링 규칙으로 인해 크롤링된 콘텐츠가 제외되었는지 여부 또는 오류로 인해 인덱싱에 실패했는지 여부를 확인할 수 있습니다. 마지막으로 성공한 크롤링 시간, 콘텐츠 원본, 크롤링 규칙이 적용되었는지 여부 등 크롤링된 콘텐츠에 대한 추가 정보도 크롤링 로그에 포함됩니다. 크롤링 로그를 사용하여 검색 환경의 문제를 진단할 수 있습니다.

이 문서의 내용:

  • 크롤링 로그를 보려면

  • 크롤링 로그 보기

  • 크롤링 로그 타이머 작업

  • 일반적인 문제 해결

크롤링 로그를 보려면

  1. 이 절차를 수행할 사용자 계정이 FAST Search Content Search Service 응용 프로그램의 관리자인지 확인합니다.

  2. 중앙 관리의 빠른 실행에서 응용 프로그램 관리를 클릭합니다.

  3. 응용 프로그램 관리 페이지의 서비스 응용 프로그램에서 서비스 응용 프로그램 관리를 클릭합니다.

  4. 서비스 응용 프로그램 페이지의 서비스 응용 프로그램 목록에서 FAST Search Content Search Service 응용 프로그램을 클릭합니다.

  5. 검색 관리 페이지의 빠른 실행에 있는 크롤링에서 크롤링 로그를 클릭합니다.

  6. 크롤링 로그 - 콘텐츠 원본 페이지에서 원하는 보기를 클릭합니다.

크롤링 로그 보기

다음 표에서는 크롤링된 콘텐츠의 상태를 보려고 할 때 선택할 수 있는 다양한 보기를 보여 줍니다.

보기 설명

콘텐츠 원본

크롤링된 항목을 콘텐츠 원본별로 요약해서 보여 줍니다. 성공, 경고, 오류, 최상위 오류 및 삭제를 보여 줍니다. 이 보기의 데이터는 인덱스에 이미 있는 항목의 현재 상태를 콘텐츠 원본별로 나타냅니다. 이 보기의 데이터는 개체 모델에서 제공합니다.

호스트 이름

크롤링된 항목을 호스트별로 요약해서 보여 줍니다. 성공, 경고, 오류, 삭제, 최상위 오류 및 합계를 보여 줍니다. 이 보기의 데이터는 인덱스에 이미 있는 항목의 현재 상태를 호스트별로 나타냅니다. 이 보기의 데이터는 검색 관리 데이터베이스에서 제공합니다. 다음 호스트 이름/경로로 시작하는 URL 찾기: 상자에 URL을 입력하여 결과를 필터링할 수 있습니다.

URL

콘텐츠 원본이나 URL 또는 호스트 이름을 기준으로 크롤링 로그를 검색하고 인덱스에 있는 모든 항목의 세부 정보를 볼 수 있습니다. 이 보기의 데이터는 크롤링 데이터베이스의 MSSCrawlURLReport 테이블에서 제공합니다. 상태, 메시지:, 시작 시간종료 시간 필드를 설정하여 결과를 필터링할 수 있습니다.

크롤링 기록

크롤링 중 완료된 크롤링 트랜잭션을 요약해서 보여 줍니다. 단일 크롤링에서 항목당 여러 개의 크롤링 트랜잭션이 발생할 수 있으므로 트랜잭션의 수가 총 항목 수보다 클 수 있습니다. 이 보기에서는 다음과 같은 세 가지 종류의 크롤링에 대한 데이터를 보여 줍니다.

  • 전체. 콘텐츠 원본의 모든 항목을 크롤링합니다.

  • 증분. 마지막 전체 크롤링 또는 증분 크롤링 이후 변경된 항목을 크롤링합니다. 이 크롤링은 예약된 경우에만 실행됩니다.

  • 삭제. 콘텐츠 원본에서 시작 주소가 제거될 경우 삭제 크롤링에서는 전체 크롤링 또는 증분 크롤링이 실행되기 전에 삭제된 시작 주소와 관련된 항목을 인덱스에서 제거합니다. 이 크롤링은 예약할 수 없습니다.

이 보기의 데이터는 검색 관리 데이터베이스에서 제공합니다. 콘텐츠 원본을 기준으로 결과를 필터링할 수 있습니다.

오류 메시지

콘텐츠 원본 또는 호스트 이름별로 오류에 대한 집계를 제공합니다. 이 보기의 데이터는 크롤링 데이터베이스의 MSSCrawlURLReport 테이블에서 제공합니다. 콘텐츠 원본 또는 호스트를 기준으로 필터링할 수 있습니다.

참고

필터 드롭다운 상자에는 오류가 포함된 콘텐츠 원본만 표시됩니다. 인덱스에 없는 항목에 오류가 있는 경우 해당 오류는 이 보기에 나타나지 않습니다.

콘텐츠 원본 및 호스트 이름 보기는 다음 열에 데이터를 표시합니다.

  • 성공. 크롤링되어 검색할 수 있는 항목입니다.

  • 경고. 크롤링되지 않았을 수도 있으며 따라서 검색되지 않을 수도 있는 항목입니다.

  • 오류. 크롤링되지 않아 검색되지 않을 수도 있는 항목입니다.

  • 삭제. 인덱스에서 제거되어 더 이상 검색할 수 없는 항목입니다.

  • 최상위 오류. 시작 주소, 가상 서버 및 콘텐츠 데이터베이스 등의 최상위 문서에 있는 오류입니다. 모든 최상위 오류는 오류로 계산되지만 모든 오류가 최상위 오류로 계산되지는 않습니다. 따라서 오류 열에는 최상위 오류 열의 개수가 포함되지만 호스트 이름 보기에서는 최상위 오류의 수를 다시 계산하지 않습니다.

크롤링 기록 보기에서는 다음과 같은 추가 열을 표시합니다.

  • 크롤링이 시작됨. 크롤링이 시작된 날짜 및 시간을 표시합니다.

  • 크롤링이 완료됨. 크롤링을 마친 날짜 및 시간을 표시합니다.

  • 크롤링 기간. 크롤링을 완료하는 데 소요된 시간을 표시합니다.

  • 유형. 전체, 증분 또는 삭제 같은 완료된 크롤링 유형을 표시합니다.

  • 수정되지 않음. 크롤링 간에 수정되지 않은 항목입니다.

  • 보안 업데이트. 수정되었기 때문에 보안 설정이 크롤링된 항목입니다.

크롤링 로그 타이머 작업

기본적으로 크롤링 로그에서 각 보기의 데이터는 검색 응용 프로그램 *<FAST Search Content Search Service 응용 프로그램 이름>*의 크롤링 로그 보고서입니다.라는 타이머 작업에 의해 5분마다 새로 고쳐집니다. 이 타이머 작업의 새로 고침 빈도를 변경할 수는 있지만 일반적으로 기본 설정을 변경하지 않는 것이 좋습니다.

크롤링 로그에서 최신 데이터를 제공하지 않는다고 생각되면 타이머 작업이 일시 중지되어 최근에 실행되지 않았는지 확인하십시오.

크롤링 로그 타이머 작업의 상태를 확인하려면

  1. 이 절차를 수행하는 사용자 계정이 Farm Administrators SharePoint 그룹의 구성원인지 확인합니다.

  2. 중앙 관리의 모니터링 섹션에서 작업 상태 확인을 클릭합니다.

  3. 타이머 작업 상태 페이지에서 작업 기록을 클릭합니다.

  4. 작업 기록 페이지에서 원하는 Search Service 응용 프로그램에 대한 검색 응용 프로그램 *<FAST Search Content Search Service 응용 프로그램 이름>*의 크롤링 로그 보고서입니다.를 찾아 상태를 검토합니다.

크롤링 로그 타이머 작업의 새로 고침 빈도를 변경하려면

  1. 이 절차를 수행하는 사용자 계정이 Farm Administrators SharePoint 그룹의 구성원인지 확인합니다.

  2. 중앙 관리의 모니터링 섹션에서 작업 상태 확인을 클릭합니다.

  3. 타이머 작업 상태 페이지에서 작업 기록을 클릭합니다.

  4. 작업 기록 페이지에서 원하는 FAST Search Content Search Service 응용 프로그램에 대한 **검색 응용 프로그램 <FAST Search Content Search Service 응용 프로그램 이름>의 크롤링 로그 보고서입니다.**를 클릭합니다.

  5. 타이머 작업 편집 페이지의 되풀이되는 일정 섹션에서 타이머 작업 일정을 원하는 간격으로 변경합니다.

  6. 확인을 클릭합니다.

일반적인 문제 해결

이 섹션에서는 일반적인 크롤링 로그 오류, 크롤러 동작 및 정상적인 크롤링 환경을 유지 관리하기 위해 수행해야 할 작업에 대한 정보를 제공합니다.

인덱스에서 항목이 삭제된 경우

URL이 오래되었거나 네트워크 중단으로 인해 URL에 액세스할 수 없어서 크롤러가 인덱스에 있는 항목을 찾을 수 없는 경우 SharePoint Server 2010 크롤러는 해당 크롤링에서 이러한 항목에 대해 오류를 보고합니다. 이후 세 번의 크롤링에서 이 상태가 지속되면 인덱스에서 항목이 삭제됩니다. 파일 공유 콘텐츠 원본의 경우 파일 공유에서 항목이 삭제되면 인덱스에서도 곧바로 항목이 삭제됩니다.

파일 공유에 대한 "개체를 찾을 수 없습니다." 오류

이 오류는 호스트 이름은 올바르지만 잘못된 파일 이름을 포함하는 크롤링된 파일 공유 콘텐츠 원본으로 인해 발생할 수 있습니다. 예를 들어 호스트 이름과 파일 이름이 \\ValidHost\files\file1인데 \\ValidHost는 있지만 file1 파일은 없는 경우 크롤러는 "개체를 찾을 수 없습니다."라는 오류를 보고하고 인덱스에서 항목을 삭제합니다. 크롤링 기록 보기에는 다음과 같이 표시됩니다.

  • 오류: 1

  • 삭제: 1

  • 최상위 오류: 1(\\ValidHost\files\file1이 시작 주소이므로 최상위 오류로 표시됨)

콘텐츠 원본 보기에는 다음과 같이 표시됩니다.

  • 오류: 0

  • 삭제: 0

  • 최상위 오류: 0

콘텐츠 원본 보기에서는 모두 0으로 표시됩니다. 콘텐츠 원본 보기에서는 인덱스에 있는 항목의 상태만 보여 주는데 이 시작 주소가 인덱스에 입력되지 않았기 때문입니다. 그러나 크롤링 기록 보기에서는 인덱스에 입력되었는지 여부에 관계없이 모든 크롤링 트랜잭션이 표시됩니다.

파일 공유에 대한 “항목의 네트워크 경로를 확인할 수 없습니다.” 오류

이 오류는 잘못된 호스트 이름 및 파일 이름을 포함하는 크롤링된 파일 공유 콘텐츠 원본으로 인해 발생할 수 있습니다. 예를 들어 호스트 이름과 파일 이름이 \\InvalidHost\files\file1인데 \\InvalidHost와 file1 파일이 모두 없는 경우 크롤러는 "항목의 네트워크 경로를 확인할 수 없습니다."와 같은 오류를 보고하고 인덱스에서 항목을 삭제하지 않습니다. 크롤링 기록 보기에는 다음과 같이 표시됩니다.

  • 오류: 1

  • 삭제: 0

  • 최상위 오류: 1(\\ValidHost\files\file1이 시작 주소이므로 최상위 오류로 표시됨)

콘텐츠 원본 보기에는 다음과 같이 표시됩니다.

  • 오류: 0

  • 삭제: 0

  • 최상위 오류: 0

항목이 실제로 없는 것인지 아니면 네트워크 중단으로 인해 항목에 액세스할 수 없는지를 크롤러가 확인할 수 없으므로 인덱스에서 항목이 삭제되지 않습니다.

오래된 시작 주소

크롤링 로그는 최상위 문서 또는 시작 주소에 대해 최상위 오류를 보고합니다. 콘텐츠 원본의 상태를 정상적으로 유지하려면 다음 작업을 수행해야 합니다.

  • 0이 아닌 최상위 오류가 있는지 항상 조사합니다.

  • 크롤링 로그에 지속적으로 나타나는 최상위 오류가 있는지 항상 검토합니다.

  • 그렇지 않은 경우 사이트 소유자에게 문의한 후 2주마다 오래된 시작 주소를 제거하는 것이 좋습니다.

오래된 시작 주소 문제를 해결하고 주소를 삭제하려면

  1. 이 절차를 수행할 사용자 계정이 FAST Search Content Search Service 응용 프로그램의 관리자인지 확인합니다.

  2. 시작 주소가 오래되었다는 것을 확인했으면 먼저 사이트에 대해 ping을 수행하여 사이트가 있는지 여부를 확인합니다. 응답을 받으면 다음 중 어떤 원인으로 인해 문제가 발생했는지 확인합니다.

    • 브라우저에서 URL에 액세스할 수 있는 경우 네트워크 연결에 문제가 있었기 때문에 크롤러가 시작 주소를 크롤링하지 못했을 수 있습니다.

    • URL이 브라우저에서 리디렉션된 경우 새 주소와 동일하게 시작 주소를 변경해야 합니다.

    • URL이 브라우저에서 오류를 받으면 나중에 다시 시도해 보십시오. 여러 번 시도한 후에도 오류를 받으면 사이트 소유자에게 문의하여 사이트가 사용 가능한 상태인지 확인하십시오.

  3. 사이트에 대해 ping을 수행한 후 응답을 받지 못한 경우 사이트가 없으므로 삭제해야 합니다. 먼저 사이트 소유자에게 확인한 후 사이트를 삭제하십시오.

액세스 거부

크롤링 로그에서 시작 주소에 대해 계속해서 "액세스 거부" 오류를 보고하면 콘텐츠 액세스 계정에 사이트를 크롤링하는 데 필요한 읽기 권한이 없을 수도 있습니다. 관리자 계정으로 URL을 볼 수 있으면 사용 권한이 업데이트된 방식에 문제가 있을 수도 있습니다. 이 경우 사이트 소유자에게 문의하여 사용 권한을 요청해야 합니다. 크롤러에 대한 사용 권한을 설정하는 방법에 대한 자세한 내용은 크롤링 규칙 관리(FAST Search Server 2010 for SharePoint)를 참조하십시오.

호스트 배포 중 콘텐츠 원본 보기에서 숫자가 0으로 설정됨

호스트 배포 중 콘텐츠 원본 보기에서 모든 열의 숫자가 0으로 설정됩니다. 이 문제는 콘텐츠 원본 보기의 숫자를 크롤링 데이터베이스 테이블에서 직접 가져오기 때문에 발생합니다. 이러한 테이블의 데이터는 호스트 배포 중에 이동되므로 호스트 배포가 진행되는 동안에는 값이 0으로 유지됩니다.

원래 숫자로 되돌리려면 호스트 배포가 완료된 후 콘텐츠 원본에 대해 증분 크롤링을 실행하십시오.

콘텐츠 원본 보기에서 파일 공유 삭제 표시

크롤링된 파일 공유 콘텐츠 원본에서 문서가 삭제되면 다음 전체 크롤링 또는 증분 크롤링 동안 인덱스에서 문서가 곧바로 삭제됩니다. 이러한 항목은 크롤링 로그의 콘텐츠 원본 보기에서는 오류로 표시되지만 다른 보기에서는 삭제로 표시됩니다.

SharePoint Server Search Service를 중지하거나 다시 시작하면 크롤링 로그 트랜잭션 불일치가 발생함

관리 작업이나 서버 기능으로 인해 SharePoint Server Search Service(OSearch14)를 다시 설정하거나 다시 시작하는 경우가 있습니다. 이때 크롤링 로그의 크롤링 기록 보기에서 불일치가 발생할 수 있습니다. 이 보기에서 크롤링당 보고된 트랜잭션의 수와 크롤링당 수행된 실제 트랜잭션의 수가 다르게 나타납니다. 이 문제는 OSearch14 서비스가 활성 트랜잭션을 메모리에 저장했다가 트랜잭션이 완료된 후에 기록하기 때문에 발생할 수 있습니다. 메모리 내 트랜잭션이 크롤링 로그 데이터베이스에 기록되기 전에 OSearch14 서비스가 중지되거나 다시 설정되거나 다시 시작되면 크롤링당 트랜잭션의 수가 잘못 표시됩니다.