[アーティクル]
04/01/2012

デシジョンツリーモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

このトピックでは、Microsoft デシジョンツリーアルゴリズムを使用するモデルに固有のマイニングモデルコンテンツについて説明します。すべてのモデルの種類のマイニングモデルコンテンツに関する一般情報については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。 Microsoft デシジョンツリーアルゴリズムは、まったく機能の異なる多様なモデルを作成できる複合アルゴリズムであることに注意してください。デシジョンツリーでは、アソシエーションやルールのほか、線形回帰も表すことができます。ツリーの構造は本質的には同じですが、モデルを作成した目的によって情報を解釈する方法が異なります。

デシジョンツリーモデルの構造について

デシジョンツリーモデルには、モデルとそのメタデータを表す 1 つの親ノードがあります。その親ノードの下には、選択した予測可能な属性を表す独立したツリーがあります。たとえば、顧客が購入を行うかどうかを予測するためのデシジョンツリーモデルを設定し、性別と収入の入力を指定した場合、モデルでは購入の属性に対して 1 つのツリーが作成され、その中に性別と収入に関連する条件で分割される多数の分岐が含まれます。

一方、その後で顧客報酬プログラムへの参加についての別の予測可能な属性を追加した場合、アルゴリズムによって、親ノードの下に 2 つの個別のツリーが作成されます。 1 つは購入についての分析を含むツリーで、もう 1 つは顧客報酬プログラムについての分析を含むツリーです。デシジョンツリーアルゴリズムを使用してアソシエーションモデルを作成する場合、アルゴリズムでは、予測される製品ごとの個別のツリーと、対象の属性の選択に役立つその他のすべての製品の組み合わせを含むツリーが作成されます。

注
モデルに複数のツリーが含まれる場合、Microsoft ツリービューアーで同時に表示できるツリーは 1 つだけです。ただし、汎用コンテンツツリービューアーでは、同じモデル内のすべてのツリーを同時に表示することができます。

デシジョンツリーのモデルコンテンツの構造

予測可能な属性ごとに作成されるツリーには、選択した入力列が特定の予測可能な属性の結果にどのように影響するかを示す情報が含まれます。各ツリーの先頭に予測可能な属性を格納するノード (NODE_TYPE = 9) があり、その下に入力属性を表す一連のノード (NODE_TYPE = 10) があります。属性は、ケースレベルの列か、入れ子になったテーブル列の値 (通常は入れ子になったテーブルの Key 列の値) のいずれかに対応します。

内部ノードおよびリーフノードは分割条件を表します。ツリーは、同じ属性で複数回分割できます。たとえば、TM_DecisionTree モデルを [Yearly Income] および [Number of Children] で分割し、さらにツリーの下位にある [Yearly Income] で再度分割することができます。

Microsoft デシジョンツリーアルゴリズムでは、ツリー全体またはツリーの一部に線形回帰を含めることができます。モデル化する属性が連続する数値データ型であり、属性間のリレーションシップを線形でモデル化できる場合は、モデルで回帰ツリーノード (NODE_TYPE = 25) を作成できます。この場合、ノードには回帰式が含まれます。

ただし、予測可能な属性に不連続の値が含まれている場合や、数値がバケット化 (分離) されている場合は、モデルでは常に分類ツリー (NODE_TYPE =2) が作成されます。分類ツリーには、属性の値ごとに複数の分岐または内部ツリーノード (NODE_TYPE =3) を含めることができます。ただし、必ずしも属性の値ごとに分割されるとは限りません。

Microsoft デシジョンツリーアルゴリズムでは、連続するデータ型が入力として許可されないため、連続する数値データ型の列があると値が分離されます。アルゴリズムによって、すべての連続属性の分割のポイントで独自の分離が実行されます。

注
連続属性のバケット方法は Analysis Services で自動的に選択されますが、入力に含まれる連続値の分離方法は制御することができます。これを行うには、マイニング構造列のコンテンツの種類を Discretized に設定し、DiscretizationBucketCount プロパティまたは DiscretizationMethod プロパティを設定します。

デシジョンツリーモデルのモデルコンテンツ

ここでは、マイニングモデルコンテンツの列のうち、デシジョンツリーモデルに関連する列についてのみ詳細と例を紹介します。スキーマ行セットの汎用の列の詳細や、マイニングモデルの用語の説明については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

MODEL_CATALOG
モデルが格納されているデータベースの名前。
MODEL_NAME
モデルの名前。
ATTRIBUTE_NAME
このノードに対応する属性の名前。
NODE_NAME
常に NODE_UNIQUE_NAME と同じです。
NODE_UNIQUE_NAME
モデル内のノードの一意の識別子。この値は変更できません。

デシジョンツリーモデルでは、次の規則に従って一意の名前が付けられます。この規則は、すべてのアルゴリズムに適用されるわけではありません。

特定のノードの子ノードでは、共通の 16 進数のプレフィックスの後に、親ノード内における子のシーケンスを表す別の 16 進数が付加されます。プレフィックスからパスを推測することができます。

NODE_TYPE
デシジョンツリーモデルでは、次の種類のノードが作成されます。

ノードの種類	説明
1 (モデル)	モデルのルートノードです。
2 (ツリー)	モデル内の分類ツリーの親ノードです。 "すべて" というラベルが付けられます。
3 (内部)	内部分岐の先頭です。分類ツリーまたは回帰ツリー内に存在します。
4 (分布)	リーフノードです。分類ツリーまたは回帰ツリー内に存在します。
25 (回帰ツリー)	モデル内の回帰ツリーの親ノードです。 "すべて" というラベルが付けられます。

NODE_CAPTION
表示名。

モデルを作成すると、NODE_UNIQUE_NAME の値が自動的にキャプションとして使用されます。ただし、NODE_CAPTION の値を変更してクラスターの表示名を更新することもできます。この値は、プログラムで変更することも、ビューアーを使用して変更することもできます。キャプションはモデルによって自動的に生成されます。キャプションの内容は、モデルの種類およびノードの種類によって異なります。

デシジョンツリーモデルの NODE_CAPTION と NODE_DESCRIPTION の情報は、ツリー内のレベルによって異なります。詳細と例については、「ノードのキャプションとノードの記述」を参照してください。
CHILDREN_CARDINALITY
ノードの子の推定数。

親ノード モデル化された予測可能な属性の数を示します。予測可能な属性ごとにツリーが作成されます。

ツリーノード 各ツリーの [すべて] ノードから、対象の属性に使用された値の数がわかります。
- 対象の属性が不連続属性の場合、値は個別の値に 1 (Missing 状態の分) を加算した数になります。
- 予測可能な属性が連続属性の場合、値は連続属性をモデル化するために使用されたバケットの数を示します。
リーフノード 常に 0 です。
PARENT_UNIQUE_NAME
ノードの親の一意な名前。ルートレベルのノードに対しては NULL を返します。
NODE_DESCRIPTION
ノードの説明。

デシジョンツリーモデルの NODE_CAPTION と NODE_DESCRIPTION の情報は、ツリー内のレベルによって異なります。

詳細と例については、「ノードのキャプションとノードの記述」を参照してください。
NODE_RULE
直接の親ノードから現在のノードへのパスを示すルールの XML 記述。

詳細と例については、「ノードルールとマージナルルール」を参照してください。
MARGINAL_RULE
モデルの親ノードから現在のノードへのパスを示すルールの XML 記述。

詳細については、「ノードルールとマージナルルール」を参照してください。
NODE_PROBABILITY
このノードに関連付けられている確率。

詳細については、「確率」を参照してください。
MARGINAL_PROBABILITY
親ノードからノードに到達する確率。

詳細については、「確率」を参照してください。
NODE_DISTRIBUTION
ノードの確率ヒストグラムが含まれているテーブル。このテーブルの情報は、予測可能な属性が連続変数か不連続変数かによって異なります。

モデルルートノード   このテーブルは空です。

[(すべて)] ノード   モデル全体の概要が含まれます。

内部ノード   そのリーフノードについて集計された統計が含まれます。

リーフノード   現在のリーフノードまでのパスに含まれるすべての条件から予測される結果のサポートおよび確率が含まれます。

回帰ノード   入力と予測可能な属性のリレーションシップを表す回帰式が含まれます。

詳細については、「不連続属性のノード分布」および「連続属性のノード分布」を参照してください。
NODE_SUPPORT
このノードをサポートするケースの数。
MSOLAP_MODEL_COLUMN
予測可能な属性を格納する列を示します。
MSOLAP_NODE_SCORE
ノードに関連付けられたスコアが表示されます。詳細については、「ノードスコア」を参照してください。
MSOLAP_NODE_SHORT_CAPTION
表示目的で使用されるラベル。

説明

デシジョンツリーモデルには、Naive Bayes またはニュートラルネットワークモデルに含まれるマージナル統計ノードのような、モデル全体の統計を格納する独立したノードはありません。代わりに、予測可能な属性ごとに、最上位ノードを [(すべて)] ノードとする個別のツリーが作成されます。各ツリーは互いに独立しています。モデルに含まれる予測可能な属性が 1 つしかない場合、ツリーは 1 つだけ、つまり [(すべて)] ノードだけになります。

出力属性を表す各ツリーは、分割を表す内部分岐 (NODE_TYPE = 3) にさらに分割されます。それらのツリーのそれぞれに、対象の属性の分布に関する統計が含まれます。さらに、各リーフノード (NODE_TYPE = 4) に、属性と値の各ペアをサポートするケース数と共に、入力属性とその値を表す統計が含まれます。したがって、デシジョンツリーの分岐では、ソースデータに対してクエリを実行しなくても、確率やデータの分布を簡単に確認できます。ツリーの各レベルは、必ずその直接の子ノードの合計を表します。

これらの統計を取得する方法の例については、「デシジョンツリーモデルのクエリ (Analysis Services - データマイニング)」を参照してください。

デシジョンツリー構造の例

デシジョンツリーの動作を理解するために、AdventureWorks の自転車購入者のシナリオの例を考えてみます。予測可能な属性が顧客の購入である場合、デシジョンツリーアルゴリズムでは、指定されたすべての入力の中から、自転車を購入する可能性が高い顧客と自転車を購入する可能性が低い顧客を最も効果的に検出できる 1 列のデータを見つけようとします。たとえば、モデルから、購入行動の最善の指標が Age であるとわかったとします。具体的には、31 歳以上の顧客が自転車を購入する可能性が非常に高く、それ以外のすべての顧客は購入する可能性が低いなどです。この場合、モデルでは Age 属性について分割が作成されます。つまり、ツリーが 2 つの分岐に分割され、1 つには 30 歳以上の顧客が含まれ、もう 1 つには 30 歳未満の顧客が含まれます。新しい分岐は、モデル構造で 2 つの新しい内部ツリー (NODE_TYPE = 3) として表されます。

各分岐について、モデルでは引き続き顧客の区別に使用するその他の属性を探します。顧客のサブグループの作成を継続するための十分な根拠となるデータがなくなると、モデルでツリーの作成が中止されます。また、分割が適切であってもノード内のケース数が少なすぎて継続できない場合や、NULL 値または不足値があった場合にも、ツリーの作成が中止されます。ツリーの拡大を早い段階で中止することによって、モデルで 1 つの特定のデータセットに対して過度のトレーニングが行われることを防止します。

各内部ツリーノードには、現在の分類結果から得られる結果の内訳を示すリーフノードが含まれます。たとえば、Age >= 30 かつ Gender = Male を表す内部ノードがあるとします。このグループのノードには、このカテゴリに含まれる購入した顧客または購入しなかった顧客の数が示されます。たとえば、分類には次のようなツリーの分割が含まれます。

内部ツリー	分割
Age >= 30	Age >= 30 かつ Gender = Male
	Age >= 30 かつ Gender = Female
Age < 30	Age < 30 かつ Gender = Male
	Age < 30 かつ Gender = Female

デシジョンツリーモデルを使用して予測を行う場合、モデルでは、引数として指定された属性を受け取り、ツリーの下位方向にその属性のパスをたどります。一般に、すべての予測はリーフまで進み、内部ノードは分類のためだけに使用されます。

リーフノードの NODE_TYPE は常に 4 (分布) であり、このノードには、指定した属性から得られるそれぞれの結果 (購入するかしないか) の確率を示すヒストグラムが含まれます。たとえば、61 歳以上の男性の新しい顧客についての予測を要求すると、モデルによって対応するノード (Age >= 30 かつ Gender = Male) が参照され、指定した結果になる確率が返されます。これらの確率は、ノードの NODE_DISTRIBUTION テーブルに格納されます。

予測可能な属性が連続する数値である場合、アルゴリズムでは、予測可能な属性と入力のリレーションシップをモデル化する回帰式の作成が試行されます。

ノードのキャプションとノードの記述

デシジョンツリーモデルでは、ノードのキャプションとノードの記述に同様の情報が含まれます。ただし、ノードの記述の方が含まれる情報が多く、その情報はリーフノードに近いほど詳細になります。ノードのキャプションとノードの記述の文字列は、どちらもローカライズされます。

NODE_CAPTION	親ノードを基準に特定のノードを区別する属性が表示されます。ノードのキャプションでは、分割条件の基になる設定のサブセグメントが定義されます。たとえば、[Age] に基づいて 3 つに分割した場合、3 つの子ノードのキャプションは "[Age] < 40"、"40 <= [Age] < 50"、"[Age] >= 50" のようになります。
NODE_DESCRIPTION	ノードを他のノードと区別するすべての属性を示す、モデルの親ノードから始まる一覧が含まれます。たとえば、Product name = Apple かつ Color = Red のようになります。

ノードルールとマージナルルール

NODE_RULE 列と MARGINAL_RULE 列には、NODE_CAPTION 列および NODE_DESCRIPTION 列と同じ情報が格納されますが、これらの列では情報が XML フラグメントとして表現されます。ノードルールは XML バージョンの完全なパスであるのに対し、マージナルルールは最新の分割を示します。

XML フラグメントで表現される属性は、単純な属性または複雑な属性のいずれかになります。単純な属性には、モデル列の名前、および属性の値が含まれます。モデル列に入れ子になったテーブルが含まれる場合は、入れ子になったテーブルの属性は、テーブル名、キー値、および属性を連結して表現されます。

注
SQL Server Analysis Services では、バージョン 2.0 の PMML 標準規格と、入れ子になったテーブルの使用をサポートする拡張機能がサポートされています。入れ子になったテーブルがデータに含まれている場合に PMML バージョンのモデルを生成すると、述語を含むモデル内のすべての要素に拡張機能であることを示すマークが付けられます。

SQL Server Analysis Services では、バージョン 2.0 の PMML 標準規格と、入れ子になったテーブルの使用をサポートする拡張機能がサポートされています。入れ子になったテーブルがデータに含まれている場合に PMML バージョンのモデルを生成すると、述語を含むモデル内のすべての要素に拡張機能であることを示すマークが付けられます。

不連続属性のノード分布

デシジョンツリーモデルの NODE_DISTRIBUTION テーブルには、役立つ統計が含まれています。ただし、統計の種類は、ツリーで連続属性と不連続属性のどちらを予測するかによって異なります。ここでは、不連続属性のノード分布統計の意味について説明します。

属性名と属性値

分類ツリーでは、属性名には必ず予測可能列の名前が含まれます。この値から、ツリーで予測する対象がわかります。 1 つのツリーは必ず 1 つの予測可能な属性を表すため、この値はツリー全体で繰り返し使用されます。

不連続のデータ型の場合、属性値のフィールドに、予測可能列が取り得る値の一覧と Missing 値が表示されます。

サポート

各ノードのサポート値は、そのノードに含まれるケースの数を示します。 "(すべて)" レベルでは、モデルのトレーニングに使用されたすべてのケースの数が示されます。ツリー内の各分割では、サポート値は、ツリーのそのノードにグループ化されたケースの数になります。リーフノードのケースの合計は、必ずツリーの親ノードのケース数と等しくなります。

連続属性を表すノードの場合、データに NULL が存在すると、やや直観に反する結果になることがあります。たとえば、ケース数を m とすると、平均値の計算式は sum(すべてのケース)/n (n は m より小さい数値) になり、m-n は不足値を含むケースの数を示します。また、サポートは n で表されます。

確率

各ノードに関連付けられた確率は、データセット全体のすべてのケースがこの特定のノードで終了する確率を示します。確率スコアは、ツリー全体および直接の分割の両方について計算されます。

たとえば次の表は、ケース数が 100 の非常に単純なモデルを示しています。

内部ツリー	ケース	リーフノード	ケース	親ノードに対する確率	最上位ノードに対する確率
Age >= 30	60	Age >= 30 かつ Gender = Male	50	50/60 = .83	50/100 = .5
		Age >= 30 かつ Gender = Female	10	10/60 = .16	10/100 = .10
Age < 30	40	Age < 30 かつ Gender = Male	30	30/40 = .75	30/100 = .30
		Age < 30 かつ Gender = Female	10	10/40 = .25	10/100 = .10

すべてのモデルで、考えられる不足値を計算に含めるためにわずかな調整が行われます。連続属性の場合、それぞれの値または値の範囲が状態 (たとえば、Age <30、Age = 30、Age >30 など) として表され、確率は、状態が存在する (値 = 1)、他の状態が存在する (値 = 0)、状態が Missing として計算されます。不足値を反映するように確率を調整する方法の詳細については、「不足値 (Analysis Services - データマイニング)」を参照してください。

各ノードの確率は、次のように分布からほぼ直接的に計算されます。

確率 = (状態のサポート + 前の状態のサポート) / (ノードサポートと前のノードサポートの合計)

Analysis Services では、各ノードの確率を使用して、格納された確率と前の確率を比較することで、親ノードから子ノードへのパスが強い推定を示すかどうかが判断されます。

予測を行うときは、分布の確率とノードの確率のバランスをとって、確率を滑らかに調整する必要があります。たとえば、ツリー内の分割で 9000/1000 の比率でケースが分割されている場合、ツリーは非常に不均衡な状態です。そのため、小さい分岐から得られる予測を、ケースが多い分岐から得られる予測と同じ重みで考えることはできません。

分散

分散は、予想される分布でサンプル内の値がどのぐらい分散しているかを示す尺度です。不連続値の場合は、定義上、分散は 0 になります。

連続値の分散を計算する方法の詳細については、「線形回帰モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

値の型

値の型の列には、NODE_DISTRIBUTION テーブル内の他の列で指定された数値の意味に関する情報が示されます。クエリで値の型を使用すると、入れ子になったテーブルから特定の行を取得できます。例については、「デシジョンツリーモデルのクエリ (Analysis Services - データマイニング)」を参照してください。

MiningValueType 列挙に含まれる型のうち、分類ツリーでは以下の型が使用されます。

値の型	説明
1 (Missing: 不足)	不足値に関連する数、確率、またはその他の統計を示します。
4 (Discrete: 不連続)	不連続値または分離された値に関連する数、確率、またはその他の統計を示します。

モデルに連続する予測可能な属性が含まれる場合は、ツリーに回帰式特有の値の型も含まれることがあります。回帰式で使用される値の型の一覧については、「線形回帰モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

ノードスコア

ノードスコアは、ツリーのレベルごとに少しずつ異なる情報を表します。一般に、スコアは、条件での分割によって行われた分割がどの程度適切かを示す数値です。値は倍精度浮動小数点数で表され、値が大きいほど適切であることを示します。

定義上、モデルノードおよびすべてのリーフノードのノードスコアは 0 です。

各ツリーの最上位を表す [(すべて)] ノードの場合、MSOLAP_NODE_SCORE 列には、ツリー全体で最も高い分割スコアが含まれます。

ツリーのその他のすべてのノード (リーフノードを除く) では、各ノードのスコアは、現在のノードの最も高い分割スコアから親ノードの分割スコアを引いた値になります。通常、親ノードの分割スコアは、必ずどの子ノードの分割スコアよりも高くなります。これは、デシジョンツリーモデルを重要な属性から分割するのが理想的であるためです。

分割のスコアは、選択したアルゴリズムパラメーターに応じてさまざまな方法で計算されます。それぞれのスコアリング方法でのスコアの計算方法については、このトピックでは説明しません。詳細については、Microsoft Research Web サイトの「ベイジアンネットワークの学習 : 知識と統計データの組み合わせ」を参照してください。

注
予測可能な属性として連続属性と不連続属性の両方を含むデシジョンツリーモデルを作成する場合、それぞれのツリーの種類を表す [(すべて)] ノードでまったく異なるスコアが表示されます。各モデルは独立していると見なされ、回帰のスコアリングと分類のスコアリングでそれぞれまったく異なる方法が使用されます。ノードスコアの値を比較することはできません。

予測可能な属性として連続属性と不連続属性の両方を含むデシジョンツリーモデルを作成する場合、それぞれのツリーの種類を表す [(すべて)] ノードでまったく異なるスコアが表示されます。各モデルは独立していると見なされ、回帰のスコアリングと分類のスコアリングでそれぞれまったく異なる方法が使用されます。ノードスコアの値を比較することはできません。

デシジョンツリーモデル内の回帰ノード

デシジョンツリーモデルに連続する数値データを持つ予測可能な属性が含まれる場合、Microsoft デシジョンツリーアルゴリズムでは、予測された状態と入力変数のリレーションシップが線形になるデータ内の領域を特定するためにシークが行われます。アルゴリズムで線形のリレーションシップを特定できると、線形回帰を表す特殊なツリー (NODE_TYPE = 25) が作成されます。これらの回帰ツリーのノードは、不連続値を表すノードよりも複雑になります。

一般に、回帰では、連続する従属側 (予測可能な変数) の変化が入力の変化の関数としてマップされます。従属変数に連続する入力があり、入力と予測値のリレーションシップが十分に安定していて線グラフで処理できる場合、回帰のノードに式が含まれます。

一方、入力と予測値のリレーションシップが非線形の場合は、代わりに、標準のデシジョンツリーと同様に分割が作成されます。たとえば、A という予測可能な属性と B および C という入力があり、C の値の型が連続値であるとします。 A と C のリレーションシップがデータの一部では非常に安定し、別の部分では安定していない場合、アルゴリズムでは、それらのデータの領域を別々に表すために分割が作成されます。

分割条件	ノードの結果
n < 5 の場合	リレーションシップを式 1 で表現可能
n が 5 ～ 10 の場合	式なし
n > 10 の場合	リレーションシップを式 2 で表現可能

回帰ノードの詳細については、「線形回帰モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

Share via

デシジョンツリーモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

デシジョンツリーモデルの構造について

デシジョンツリーモデルのモデルコンテンツ

説明

デシジョンツリー構造の例

ノードのキャプションとノードの記述

ノードルールとマージナルルール

不連続属性のノード分布

属性名と属性値

サポート

確率

分散

値の型

ノードスコア

デシジョンツリーモデル内の回帰ノード

関連項目

概念

その他の技術情報

その他のリソース

Share via

デシジョン ツリー モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)

デシジョン ツリー モデルの構造について

デシジョン ツリー モデルのモデル コンテンツ

説明

デシジョン ツリー構造の例

ノードのキャプションとノードの記述

ノード ルールとマージナル ルール

不連続属性のノード分布

属性名と属性値

サポート

確率

分散

値の型

ノード スコア

デシジョン ツリー モデル内の回帰ノード

関連項目

概念

その他の技術情報

その他のリソース

デシジョンツリーモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

デシジョンツリーモデルの構造について

デシジョンツリーモデルのモデルコンテンツ

デシジョンツリー構造の例

ノードルールとマージナルルール

ノードスコア

デシジョンツリーモデル内の回帰ノード