Microsoft 시계열 알고리즘

아티클
12/15/2008

업데이트: 2007년 9월 15일

Microsoft 시계열 알고리즘은 예측 시나리오에서 제품 판매량과 같은 연속 열을 예측하기 위해 데이터 마이닝 모델을 만드는 데 사용하는 Microsoft SQL Server 2005 Analysis Services(SSAS) 제공 회귀 알고리즘입니다. 다른 Microsoft 알고리즘은 지정된 입력 열을 사용하여 예측 가능한 열을 예측하는 의사결정 트리 모델과 같은 모델을 만들지만 시계열 모델 예측은 알고리즘이 모델을 만드는 동안 원래 데이터 집합에서 파생되는 경향만을 기반으로 합니다. 다음 다이어그램에서는 시간에 따른 제품 판매량을 예측하기 위한 일반적인 모델을 보여 줍니다.

시계열 예

다이어그램에서 볼 수 있는 모델은 그래프 왼쪽의 기록 정보와 그래프 오른쪽의 예측 정보, 두 부분으로 구성되어 있습니다. 기록 데이터는 알고리즘이 모델을 만드는 데 사용하는 정보를 나타내며 예측 데이터는 모델이 구하는 예측을 나타냅니다. 기록 데이터와 예측 데이터의 조합으로 형성된 선을 계열이라고 합니다. 각 예측 모델은 계열의 요소를 구분하는 열인 사례 계열을 포함해야 합니다. 예를 들어 위 다이어그램의 데이터는 수개월 동안의 자전거 판매량 기록 및 예측 자전거 판매량에 대한 계열을 보여 주므로 날짜 열이 사례 계열입니다.

Microsoft 시계열 알고리즘의 중요한 기능은 교차 예측 수행 기능입니다. 이는 관련된 두 개의 별도 계열이 있는 알고리즘을 성향 습득하는 경우 결과 모델을 사용하여 한 계열의 동작을 기반으로 다른 계열의 결과를 예측할 수 있다는 것을 의미합니다. 예를 들어 관찰된 특정 제품의 판매량이 다른 제품의 예측 판매량에 영향을 줄 수 있습니다.

예

Adventure Works Cycles 회사의 관리 팀은 내년도 월별 자전거 판매량을 예측하려고 합니다. 이 회사에서는 서로 다른 자전거 모델의 판매량이 서로 관련되어 있는지, 즉 한 자전거 모델의 판매량을 사용하여 다른 모델의 판매량을 예측할 수 있는지 여부에 특히 관심이 많습니다. 지난 3년 동안의 기록 데이터에 대해 Microsoft 시계열 알고리즘을 사용하여 이 회사에서는 향후 자전거 판매량을 예측하는 데이터 마이닝 모델을 생성할 수 있으며 교차 예측을 수행하여 개별 자전거 모델의 판매 경향이 서로 관련되어 있는지 여부를 확인할 수 있습니다.

알고리즘 작동 방법

Microsoft 의사결정 트리 알고리즘은 자동 회귀 의사결정 트리를 사용하여 모델의 성향을 습득합니다. 각 모델에는 모델에서 정의할 시간 조각을 정의하는 Key Time 열이 있습니다. 이 알고리즘은 다양한 수의 과거 항목을 예측 중인 각 현재 항목과 연결합니다.

Microsoft 시계열 알고리즘 작동 방법에 대한 자세한 내용은 Autoregressive Tree Models for Time-Series Analysis을 참조하십시오.

두 가지 방법으로 Microsoft 시계열 모델에 대한 입력 데이터를 정의할 수 있습니다. 첫 번째 방법을 이해하려면 다음 입력 사례 테이블을 살펴보십시오.

TimeID	Product	Sales	Volume
1/2001	A	1000	600
2/2001	A	1100	500
1/2001	B	500	900
2/2001	B	300	890

이 테이블의 TimeID 열은 시간 식별자를 포함하며 각 날짜에 대해 두 개의 항목을 포함합니다. Product 열은 데이터베이스에 제품을 정의합니다. Sales 열은 지정한 제품의 하루 매출총이익을 나타내고 Volume 열은 창고에 남아 있는 지정한 제품의 수량을 나타냅니다. 이 경우 모델에는 두 개의 예측 가능한 열인 Sales와 Volume이 포함됩니다.

시계열 모델에 대한 입력 데이터를 다음 테이블에서와 같이 정의할 수도 있습니다.

TimeID	A_Sales	A_Volume	B_Sales	B_Volume
1/2001	1000	600	500	900
2/2001	1100	500	300	890

이 테이블에서 Sales 열 및 Volume 열은 각각 두 개의 열로 분할되고 각 열의 앞에는 제품 이름이 붙습니다. 그 결과 각 날짜에 대해 TimeID 열에 하나의 항목만 존재합니다. 이 모델에는 4개의 예측 가능한 열인 A_Sales, A_Volume, B_Sales 및 B_Volume이 포함됩니다.

두 가지 입력 데이터 정의 방법으로 인해 모두 동일한 정보가 모델에 표시되지만 입력 사례의 형식은 마이닝 모델 정의 방법에 따라 달라집니다.

알고리즘 사용

시계열 알고리즘에서는 예측할 열이 연속 열이어야 합니다. 각 모델에 대해 하나의 사례 계열만 허용됩니다.

Microsoft 시계열 알고리즘은 다음 표에 나열된 특정 입력 열 내용 유형, 예측 가능한 열 내용 유형 및 모델링 플래그를 지원합니다.

입력 열 내용 유형	Continuous, Key, Key Time 및 Table
예측 가능한 열 내용 유형	Continuous 및 Table
모델링 플래그	NOT NULL 및 REGRESSOR

모든 Microsoft 알고리즘은 공통 함수 집합을 지원합니다. 그러나 Microsoft 시계열 알고리즘은 다음 표에 나열된 함수를 추가로 지원합니다.

Lag	PredictTimeSeries
PredictNodeId	PredictVariance
PredictStdev

모든 Microsoft 알고리즘에 공통된 함수 목록은 데이터 마이닝 알고리즘을 참조하십시오. 이러한 함수 사용 방법은 DMX(데이터 마이닝 확장) 함수 참조를 참조하십시오.

Microsoft 시계열 알고리즘에서는 PMML(Predictive Model Markup Language)을 사용하여 마이닝 모델을 만들 수 없습니다.

Microsoft 시계열 알고리즘은 결과 마이닝 모델의 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다. 다음 표에서는 각 매개 변수를 설명합니다.

매개 변수	설명
MINIMUM_SUPPORT	각 시계열 트리에서 분할을 생성하는 데 필요한 최소 시간 조각 수를 지정합니다. 기본값은 10입니다.
COMPLEXITY_PENALTY	의사결정 트리의 증가를 제어합니다. 이 값을 줄이면 분할 가능성이 높아지고 값을 늘리면 가능성이 낮아집니다. 기본값은 0.1입니다.
PERIODICITY_HINT	데이터의 주기성과 관련된 알고리즘에 대한 힌트를 제공합니다. 예를 들어 판매량이 매년 다르고 계열의 측정 단위가 월인 경우 주기성은 12입니다. 이 매개 변수는 {n [, n]} 형식을 사용하며 n은 임의의 양수입니다. 대괄호([]) 안의 n은 선택 사항이며 필요한 만큼 반복할 수 있습니다. 기본값은 {1}입니다.
MISSING_VALUE_SUBSTITUTION	기록 데이터의 간격을 채우는 데 사용되는 메서드를 지정합니다. 기본적으로 데이터의 간격이나 가장자리 값은 불규칙하면 안 됩니다. 불규칙한 간격이나 가장자리 값을 채우는 데는 Previous 값, Mean 값 또는 특정 숫자 상수 메서드를 사용할 수 있습니다.
AUTO_DETECT_PERIODICITY	주기를 찾는 데 사용되는 0과 1 사이의 숫자 값을 지정합니다. 이 값을 1에 가깝게 설정하면 거의 주기적인 패턴을 다양하게 검색하고 주기 힌트를 자동으로 생성할 수 있습니다. 많은 주기 힌트를 처리할수록 모델 성향 습득 시간은 현저하게 길어지지만 보다 정확한 모델을 만들 수 있습니다. 이 값을 0에 가깝게 설정하면 주기성이 강한 데이터만 검색합니다. 기본값은 0.6입니다.
HISTORIC_MODEL_COUNT	작성할 기록 모델 수를 지정합니다. 기본값은 1입니다.
HISTORICAL_MODEL_GAP	두 연속 기록 모델 사이의 지연 시간을 지정합니다. 예를 들어 이 값을 g로 설정하면 간격이 g, 2g, 3g 등으로 떨어진 시간 조각으로 데이터가 잘려 기록 모델이 작성됩니다. 기본값은 10입니다.

[!참고] 주기 힌트는 모델의 품질에 매우 민감합니다. 제공한 힌트가 실제 주기성과 다르면 결과에 부정적인 영향을 줄 수 있습니다.

변경 내역

릴리스	내역
2007년 9월 15일	변경된 내용 시계열 차트에 대한 설명을 업데이트했습니다.

참고 항목

개념

데이터 마이닝 알고리즘
데이터 마이닝 마법사
데이터 마이닝 도구 사용
Microsoft 시계열 뷰어를 사용하여 마이닝 모델 보기

도움말 및 정보

SQL Server 2005 지원 받기