Microsoft 선형 회귀 알고리즘

Microsoft 선형 회귀 알고리즘은 Microsoft 의사결정 트리 알고리즘이 변형된 것으로 MINIMUM_LEAF_CASES 매개 변수가 알고리즘에서 마이닝 모델 성향 습득에 사용하는 데이터 집합의 총 사례 수보다 크거나 같게 설정됩니다. 이 매개 변수를 이런 방식으로 설정하면 알고리즘에서 분할을 만들지 않으므로 선형 회귀가 수행됩니다.

선형 회귀를 사용하여 두 연속 열 간의 관계를 확인할 수 있습니다. 이 관계는 데이터 계열을 가장 잘 나타내는 선에 대한 수식 형식을 사용합니다. 예를 들어 다음 다이어그램의 선은 데이터를 가장 잘 나타내는 선형 표시입니다.

데이터 집합을 모델링하는 선

다이어그램의 선을 나타내는 수식은 일반적으로 y = ax + b 형식을 사용하며 회귀 수식이라고도 합니다. 변수 Y는 출력 변수를 나타내고 X는 입력 변수를 나타내며 ab는 조정 가능한 계수입니다. 다이어그램의 각 데이터 요소에는 회귀선으로부터의 거리와 관련된 오류가 있습니다. 회귀 수식에서 계수 ab는 회귀선의 각도와 위치를 조정합니다. 요소와 관련된 오류 수의 합계가 가장 적은 수가 될 때까지 ab를 조정하여 회귀 수식을 얻을 수 있습니다.

알고리즘 사용

Microsoft 트리 뷰어를 사용하여 선형 회귀 마이닝 모델을 탐색할 수 있습니다.

선형 회귀 모델은 하나의 키 열, 입력 열, 하나 이상의 예측 가능한 열을 포함해야 합니다.

Microsoft 선형 회귀 알고리즘은 다음 표에 나열된 특정 입력 열 내용 유형, 예측 가능한 열 내용 유형 및 모델링 플래그를 지원합니다.

입력 열 내용 유형

Continuous ,Cyclical, Key, Table 및 Ordered

예측 가능한 열 내용 유형

Continuous, Cyclical 및 Ordered

모델링 플래그

NOT NULL 및 REGRESSOR

모든 Microsoft 알고리즘은 공통 함수 집합을 지원합니다. 그러나 Microsoft 선형 회귀 알고리즘은 다음 표에 나열된 추가 함수를 지원합니다.

IsDescendant

PredictStdev

IsInNode

PredictSupport

PredictHistogram

PredictVariance

PredictNodeId

   

모든 Microsoft 알고리즘에 공통된 함수 목록은 데이터 마이닝 알고리즘을 참조하십시오. 이러한 함수 사용 방법은 DMX(데이터 마이닝 확장) 함수 참조를 참조하십시오.

Microsoft 선형 회귀 알고리즘은 마이닝 모델 결과 도출 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다. 다음 표에서는 각 매개 변수를 설명합니다.

매개 변수 설명

MAXIMUM_INPUT_ATTRIBUTES

기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 입력 특성 수를 정의합니다. 이 값을 0으로 설정하면 기능 선택이 해제됩니다.

기본값은 255입니다.

MAXIMUM_OUTPUT_ATTRIBUTES

기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 출력 특성 수를 정의합니다. 이 값을 0으로 설정하면 기능 선택이 해제됩니다.

기본값은 255입니다.

FORCED_REGRESSOR

알고리즘에서 계산한 열의 중요도에 관계없이 알고리즘에서 표시된 열을 회귀자로 사용하도록 합니다.

참고 항목

개념

데이터 마이닝 알고리즘
데이터 마이닝 마법사
데이터 마이닝에서 기능 선택
Microsoft 트리 뷰어를 사용하여 마이닝 모델 보기

관련 자료

CREATE MINING MODEL(DMX)

도움말 및 정보

SQL Server 2005 지원 받기