[アーティクル]
04/01/2012

クラスタモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

このトピックでは、Microsoft クラスタリングアルゴリズムを使用するモデルに固有のマイニングモデルコンテンツについて説明します。すべてのモデルの種類のマイニングモデルコンテンツに関する一般情報については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

クラスターモデルの構造について

クラスターモデルの構造は単純です。モデルとそのメタデータを表す 1 つの親ノードが各モデルにあり、各親ノードにはクラスターのフラットリストがあります (NODE_TYPE = 5)。この構成を次の図に示します。

クラスターのモデルコンテンツの構造

各子ノードは 1 つのクラスターを表し、そのクラスター内のケースの属性に関する詳細な統計を格納しています (クラスター内のケースの数や、クラスターを他のクラスターから区別する値の分布など)。

注
クラスターのカウントや説明を取得するためにノードを反復処理する必要はありません。クラスターのカウントと一覧はモデルの親ノードにも含まれています。

親ノードには、すべてのトレーニングケースの実際の分布を表す便利な統計も含まれています。これらの統計は、入れ子になったテーブル列である NODE_DISTRIBUTION に含まれています。たとえば次の表は、「基本的なデータマイニングチュートリアル」で作成したクラスターモデル (TM_Clustering) の顧客の人口統計の分布を表す NODE_DISTRIBUTION テーブルのいくつかの行を示しています。

ATTRIBUTE_NAME	ATRIBUTE_VALUE	SUPPORT	PROBABILITY	VARIANCE	VALUE_TYPE
Age	Missing	0	0	0	1 (Missing: 不足)
Age	44.9016152716593	12939	1	125.663453102554	3 (Continuous)
Gender	Missing	0	0	0	1 (Missing)
Gender	F	6350	0.490764355823479	0	4 (Discrete: 不連続)
Gender	M	6589	0.509235644176521	0	4 (Discrete)

これらの結果から、モデルの作成に 12939 個のケースが使用されたこと、男女の比率がほぼ半々であること、および平均年齢が 44 歳であることがわかります。説明的な統計情報は、レポートされる属性が連続する数値データ型 (年齢など) か不連続値型 (性別など) かによって異なります。統計的尺度の平均および分散は連続するデータ型に対して計算され、確率およびサポートは不連続のデータ型に対して計算されます。

注
分散は、クラスターの全分散を表します。分散の値が小さい場合は、その列のほとんどの値が平均にきわめて近いことになります。標準偏差を得るには、分散の平方根を計算します。

各属性の Missing という値の型は、その属性のデータがなかったケースの数を示します。 Missing のデータが重要になる場合もあります。このデータが計算に与える影響は、データ型によって異なります。詳細については、「不足値 (Analysis Services - データマイニング)」を参照してください。

クラスターモデルのモデルコンテンツ

ここでは、マイニングモデルコンテンツの列のうち、クラスターモデルに関連する列についてのみ詳細と例を紹介します。

スキーマ行セットの汎用の列 (MODEL_CATALOG や MODEL_NAME など) の詳細については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

MODEL_CATALOG
モデルが格納されているデータベースの名前。
MODEL_NAME
モデルの名前。
ATTRIBUTE_NAME
クラスターモデルでは、予測可能な属性がないため常に空白になります。
NODE_NAME
常に NODE_UNIQUE_NAME と同じです。
NODE_UNIQUE_NAME
モデル内のノードの一意の識別子。この値は変更できません。

NODE_TYPE
クラスターモデルでは次のノード型が出力されます。

ノード ID とノード名	説明
1 (モデル)	モデルのルートノードです。
5 (クラスター)	クラスター内のケースの数および特性と、クラスター内の値を説明する統計が含まれます。

NODE_CAPTION
表示名。モデルを作成すると、NODE_UNIQUE_NAME の値が自動的にキャプションとして使用されます。ただし、NODE_CAPTION の値を変更してクラスターの表示名を更新することもできます。この値は、プログラムで変更することも、ビューアーを使用して変更することもできます。

注
モデルを再処理すると、すべての名前変更が新しい値で上書きされます。モデル内の名前を固定したり、クラスターメンバーシップの変更をモデルの異なるバージョンの間で追跡したりすることはできません。

CHILDREN_CARDINALITY
ノードの子の推定数。

親ノード モデル内のクラスターの数を示します。

クラスターノード 常に 0 です。
PARENT_UNIQUE_NAME
ノードの親の一意な名前。

親ノード 常に NULL です。

クラスターノード 通常は 000 です。
NODE_DESCRIPTION
ノードの説明。

親ノード 常に (すべて) です。

クラスターノード クラスターを他のクラスターから区別する主な属性のコンマ区切りのリストです。
NODE_RULE
クラスターモデルでは使用されません。
MARGINAL_RULE
クラスターモデルでは使用されません。
NODE_PROBABILITY
このノードに関連付けられている確率。 親ノード 常に 1 です。

クラスターノード 属性の合成確率を表します。クラスターモデルの作成に使用されたアルゴリズムに応じて何らかの調整が加えられます。
MARGINAL_PROBABILITY
親ノードからノードに到達する確率です。クラスターモデルでは常に NODE_PROBABILITY と同じです。
NODE_DISTRIBUTION
ノードの確率ヒストグラムが含まれているテーブル。

親ノード このトピックの最初のセクションを参照してください。

クラスターノード そのクラスターに含まれているケースの属性と値の分布を表します。
NODE_SUPPORT
このノードをサポートするケースの数。 親ノード   モデル全体のトレーニングケースの数を示します。

クラスターノード   クラスターのサイズをケースの数として示します。

注   モデルで K-Means クラスタリングが使用されている場合は、各ケースが所属できるクラスターは 1 つだけですが、モデルで EM クラスタリングが使用されている場合は、各ケースが異なるクラスターに所属することができ、所属するクラスターごとに重み付きの距離が割り当てられます。したがって、EM モデルの場合は、個々のクラスターのサポートの合計がモデル全体のサポートより大きくなります。
MSOLAP_MODEL_COLUMN
クラスターモデルでは使用されません。
MSOLAP_NODE_SCORE
ノードに関連付けられたスコアが表示されます。

親ノード クラスターモデルの Bayesian Information Criterion (BIC) スコアです。

クラスターノード 常に 0 です。
MSOLAP_NODE_SHORT_CAPTION
表示目的で使用されるラベル。変更することはできません。

親ノード モデルの種類 (クラスターモデル)。

クラスターノード クラスターの名前 (Cluster 1 など)。

説明

Analysis Services には、クラスターモデルを作成するための方法が複数用意されています。使用しているモデルがどの方法で作成されたかわからない場合は、モデルのメタデータを取得します。モデルのメタデータは、ADOMD クライアントや AMO を使用してプログラムで取得することも、データマイニングスキーマ行セットに対してクエリを実行して取得することもできます。詳細については、「マイニングモデルの作成に使用されたパラメーターをクエリする方法」を参照してください。

注
使用するクラスタリング手法やパラメーターが違っても、モデルの構造とコンテンツは変わりません。

Share via

クラスタモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

クラスターモデルの構造について

クラスターモデルのモデルコンテンツ

説明

関連項目

概念

その他の技術情報

その他のリソース

Share via

クラスタ モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)

クラスター モデルの構造について

クラスター モデルのモデル コンテンツ

説明

関連項目

概念

その他の技術情報

その他のリソース

クラスタモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)

クラスターモデルの構造について

クラスターモデルのモデルコンテンツ