콜 센터 모델 탐색(중급 데이터 마이닝 자습서)

아티클
11/17/2016

적용 대상: SQL Server 2016 Preview

지금까지 탐구 모델을 작성했으므로 이제 이 모델을 사용하여 SQL Server Data Tools(SSDT)에서 제공되는 다음과 같은 도구로 데이터에 대해 보다 자세한 정보를 알 수 있습니다.

Microsoft 신경망 뷰어**:** 이 뷰어는에서 사용할 수는 마이닝 모델 뷰어 데이터 마이닝 디자이너의 탭의 데이터 상호 작용을 검사할 수 있도록 디자인 되었습니다.
Microsoft 일반 콘텐츠 트리 뷰어**:** 통계 알고리즘을 통해 발견을 생성할 때 모델 및이 표준 뷰어에서 패턴에 대 한 자세한 정보를 제공 합니다.

Microsoft 신경망 뷰어

뷰어에 세 개의 창- 입력, 출력, 및 변수합니다.

사용 하 여는 출력 창에서 예측 가능한 특성 또는 종속 변수에 대해 다른 값을 선택할 수 있습니다. 모델에 예측 가능한 특성이 여러 개 있으면에서 특성을 선택할 수는 출력 특성 목록입니다.

변수 창에서는 영향을 주는 특성 또는 변수 측면에서 선택한 두 결과 비교 합니다. 색이 지정된 막대는 변수가 대상 결과에 얼마나 많은 영향을 주는지를 시각적으로 나타냅니다. 변수에 대한 리프트 점수를 볼 수도 있습니다. 리프트 점수는 사용하고 있는 마이닝 모델 유형에 따라 다르게 계산되지만 일반적으로 예측을 위해 이 특성을 사용할 때 모델의 향상률을 보여 줍니다.

입력 창 다양 한 가상 시나리오를 실행 해 모델에 영향을 추가할 수 있습니다.

출력 창 사용

이 초기 모델에서는 얼마나 다양한 요인이 서비스 등급에 영향을 주는지 살펴보려고 합니다. 이 위해 서비스 등급 출력 특성 목록에서 선택한 범위에 대 한 드롭다운 목록에서 선택 하 여 서로 다른 수준의 서비스를 비교 합니다 값 1 및 값 2합니다.

가장 낮은 서비스 등급과 가장 높은 서비스 등급을 비교하려면

에 대 한 값 1, 가장 낮은 값의 범위를 선택 합니다. 예를 들어 0-0-0.7 범위는 가장 낮은 중단율을 나타내므로 결국 가장 높은 서비스 수준을 보여 줍니다.

참고

이 범위의 정확한 값은 모델 구성 방법에 따라 매우 다를 수 있습니다.
에 대 한 값 2, 가장 높은 값의 범위를 선택 합니다. 예를 들어 >=0.12 값의 범위는 가장 높은 중단율을 나타내므로 결국 가장 낮은 서비스 수준을 보여 줍니다. 즉 이 교대조 근무 시간 동안 전화를 건 고객 중 12%가 상담원과 연결하기 전에 전화를 끊었습니다.

콘텐츠는 변수 창 결과 값에 영향을 주는 특성을 비교 하 여 업데이트 되었습니다. 따라서 왼쪽 열에서는 가장 높은 서비스 등급과 연결된 특성을 보여 주고 오른쪽 열에서는 가장 낮은 서비스 등급과 연결된 특성을 보여 줍니다.

변수 창 사용

이 모델에는 것 처럼 보이지만 Average Time Per Issue 는 중요 한 요소입니다. 이 변수는 호출 유형에 상관없이 평균 호출 응답 시간을 나타냅니다.

특성에 대한 확률 및 리프트 점수를 보고 복사하려면

에 변수 창에서 첫 번째 행에 있는 색이 지정 된 막대 위에 마우스를 놓습니다.

이 색이 지정 된 막대를 보면 주는지를 Average Time Per Issue 서비스 등급으로 기여 합니다. 도구 설명은 변수와 대상 결과의 각 조합에 대한 총 점수, 확률 및 리프트 점수를 보여 줍니다.
에 변수 창에서 마우스 오른쪽 단추로 클릭 막대 색이 지정 된 모든 선택한 복사합니다.
Excel 워크시트에서 셀을 마우스 오른쪽 단추로 클릭 하 고 선택 붙여넣기합니다.

보고서가 HTML 테이블로 붙여 넣어지고 각 막대에 대한 점수만 표시합니다.
다른 Excel 워크시트에서 셀을 마우스 오른쪽 단추로 클릭 하 고 선택 붙여넣기합니다.

보고서가 텍스트 형식으로 붙여 넣어지고 다음 섹션에서 설명하는 관련 통계를 포함합니다.

입력 창 사용

교대조 또는 전화 상담원 수와 같은 특정 요인의 영향을 살펴보려고 합니다. 사용 하 여 특정 변수를 선택할 수는 입력 창 및 변수 창 비교할 두 개의 이전에 선택 된 그룹에 지정 된 변수에 자동으로 업데이트 됩니다.

입력 특성을 변경하여 서비스 등급에 대한 효과를 검토하려면

에 입력 창에 대 한 특성, Shift를 선택 합니다.
에 대 한 값, 선택, 오전합니다.

변수 창은 교대조가 때 모델에 영향을 표시 하도록 업데이트 오전합니다. 다른 모든 선택은 동일하게 남아 있습니다. 계속 가장 낮은 서비스 등급과 가장 높은 서비스 등급을 비교합니다.
에 대 한 값, 선택, PM1합니다.

변수 창은 교대조가 변경 될 때 모델에 영향을 표시 하도록 업데이트 됩니다.
에 입력 창에서 다음 빈 행을 클릭 특성, 고 Calls를 선택 합니다. 에 대 한 값, 가장 큰 호출 수를 나타내는 범위를 선택 합니다.

새 입력 조건이 목록에 추가됩니다. 변수 창은 호출량이 든 최대치 때 특정 교대조에 대 한 모델에 영향을 표시 하도록 업데이트 됩니다.
계속 Shift 및 Calls에 대한 값을 변경하여 교대조, 호출량 및 서비스 등급 간의 흥미로운 상관 관계를 발견합니다.

참고

선택을 취소 하 고 입력 창의 다른 특성을 사용할 수 있도록 클릭 뷰어 내용 새로 고침합니다.

뷰어에서 제공하는 통계 해석

오래 걸리는 대기 시간은 높은 중단율을 예측하는 강력한 요인으로, 낮은 서비스 등급을 의미합니다. 확실하게 이러한 결론을 내릴 수 있지만 마이닝 모델에서는 이러한 추세를 해석하는 데 유용한 몇 가지 추가 통계 데이터를 제공합니다.

점수 매기기: 결과 판별 하기 위한이 변수의 전체 중요도 나타내는 값입니다. 점수가 높을수록 변수가 결과에 끼치는 영향도 큽니다.
값 1의 확률:이 결과 대 한이 값의 확률을 나타내는 백분율입니다.
값 2의 확률:이 결과 대 한이 값의 확률을 나타내는 백분율입니다.
값 1에 대 한 리프트 및 값 2에 대 한 리프트: 값 1 및 값 2 결과 예측 하기 위해이 특정 변수를 사용 하는 영향을 나타내는 점수입니다. 점수가 높을수록 변수가 결과를 보다 잘 예측할 수 있습니다.

다음 표에는 가장 많은 영향을 주는 요인에 대한 일부 값 예가 포함되어 있습니다. 예를 들어는 값 1의 확률 은 60.6% 및 값 2의 확률 8.30%, 즉 Average Time Per Issue 44-70 분 범위의 있었는데, 사례의 60.6%는 가장 높은 서비스 등급 (값 1)에 된 사례의 8.30% 더 심각한 서비스 등급 (값 2)에 있던 경우입니다.

이 정보를 사용하여 몇 가지 결론을 내릴 수 있습니다. 보다 짧은 호출 응답 시간(44-70 범위)이 보다 높은 서비스 등급(0.00-0.07 범위)에 더 많은 영향을 끼칩니다. 점수(92.35)는 이 변수가 매우 중요함을 나타냅니다.

그러나 영향을 주는 요인 목록을 살펴보면 보다 미묘하고 해석하기 더 어려운 영향을 가진 몇 가지 다른 요인을 확인할 수 있습니다. 예를 들어 교대조가 서비스에 영향을 주는 것 같지만 리프트 점수 및 상대 확률은 교대조가 주요 요인이 아님을 나타냅니다.

Attribute	값	유사성 < 0.07	유사성 >= 0.12
Average Time Per Issue	89.087 - 120.000		점수: 100 값 1의 확률: 4.45% 값 2의 확률: 51.94% 값 1에 대 한 리프트: 0.19 값 2의 리프트: 1.94
Average Time Per Issue	44.000 - 70.597	점수: 92.35 값 1의 확률: 60.06% 값 2의 확률: 8.30% 값 1의 리프트: 2.61 값 2의 리프트: 0.31

맨 위로 이동

Microsoft 일반 콘텐츠 트리 뷰어

이 뷰어를 사용하면 모델을 처리할 때 알고리즘에서 만든 보다 자세한 정보를 볼 수 있습니다. MicrosoftGeneric 콘텐츠 트리 뷰어 일련의 노드, 여기서 각 노드는 학습 데이터에 얻은 지식을 나타냅니다으로 마이닝 모델을 나타냅니다. 이 뷰어는 모든 모델에서 사용할 수 있지만 노드 내용은 모델 유형에 따라 다릅니다.

신경망 모델 또는 로지스틱 회귀 모델에 대 한 알게 될 것은 한계 통계 노드 특히 유용 합니다. 이 노드에는 데이터의 값 분포에 대한 파생 통계가 들어 있습니다. 많은 T-SQL 쿼리를 작성하지 않고 데이터 요약을 얻으려는 경우 이 정보가 유용할 수 있습니다. 이전 항목의 값 범주화에 대한 차트가 marginal statistics node에서 파생되었습니다.

마이닝 모델에서 데이터 값 요약을 얻으려면

데이터 마이닝 디자이너에서에 마이닝 모델 뷰어 탭을 선택 합니다.
뷰어 목록에서 Microsoft 일반 콘텐츠 트리 뷰어합니다.

마이닝 모델 뷰가 새로 고쳐져 왼쪽 창에 노드 계층이 표시되고 오른쪽 창에 HTML 테이블이 표시됩니다.
에 노드 캡션 창에서 이름이 10000000000000000 인 노드를 클릭 합니다.

모델의 최상위 노드는 항상 모델 루트 노드입니다. 신경망 또는 로지스틱 회귀 모델에서 이 노드 바로 아래에 있는 노드가 marginal statistics node입니다.
에 노드 정보 창에서 NODE_DISTRIBUTION 행을 찾을 때까지 아래로 스크롤합니다.
NODE_DISTRIBUTION 테이블 아래로 스크롤하여 신경망 알고리즘에서 계산한 값 분포를 봅니다.

보고서에 이 값을 사용하려면 특정 행에 대한 정보를 선택한 다음 복사하거나 다음 DMX(Data Mining Extensions) 쿼리를 사용하여 노드의 전체 내용을 추출합니다.

SELECT *   
FROM [Call Center EQ4].CONTENT  
WHERE NODE_NAME = '10000000000000000'

또한 NODE_DISTRIBUTION 테이블의 노드 계층 및 정보를 사용하여 신경망의 개별 경로를 이동하고 숨겨진 계층의 통계를 볼 수 있습니다. 자세한 내용은 참조 신경망 네트워크 모델 쿼리 예제합니다.