[アーティクル]
04/01/2012

Microsoft シーケンスクラスタアルゴリズムテクニカルリファレンス (Analysis Services - データマイニング)

Microsoft シーケンスクラスタアルゴリズムは、複合的なアルゴリズムです。このアルゴリズムでは、Markov 連鎖分析を使用して順序付けられたシーケンスを特定し、この分析結果とクラスタリング技法を組み合わせて、シーケンスおよびモデル内のその他の属性に基づいてクラスタを生成します。このトピックでは、アルゴリズムの実装、アルゴリズムをカスタマイズする方法、およびシーケンスクラスタモデルの特別な要件について説明します。

シーケンスクラスタモデルの参照および照会を行う方法を含む、アルゴリズムに関する一般的な情報については、「Microsoft シーケンスクラスターアルゴリズム」を参照してください。

Microsoft シーケンスクラスタアルゴリズムの実装

Microsoft シーケンスクラスタモデルでは、Markov モデルを使用して、シーケンスの特定やシーケンスの確率の決定を行います。Markov モデルは、さまざまな状態の間の遷移を格納する有向グラフです。Microsoft シーケンスクラスタアルゴリズムでは n 次 Markov 連鎖を使用します。隠れ Markov モデルは使用しません。

Markov 連鎖の次数は、現在の状態の確率を決定するために使用される状態の数を示しています。1 次 Markov モデルでは、現在の状態の確率は直前の状態のみに依存します。2 次 Markov 連鎖では、状態の確率は前の 2 つの状態に依存し、以下同様に増えていきます。Markov 連鎖ごとに、状態の各組み合わせの遷移が遷移マトリックスに格納されます。Markov 連鎖が長くなるにつれ、マトリックスのサイズも指数関数的に大きくなり、マトリックスが非常に疎になります。処理時間も比例して長くなります。

特定のサイトの Web ページへのアクセスを分析するクリックストリーム分析の例を使用して、連鎖がどうなるかを思い浮かべてみるとわかりやすくなります。各ユーザーによって、セッションごとにクリックの長いシーケンスが作成されます。Web サイトでのユーザーの行動を分析するモデルを作成する場合、トレーニングに使用するデータセットは、同じクリックパスのインスタンスの総数を含むグラフに変換される URL のシーケンスです。たとえば、このグラフには、ユーザーがページ 1 からページ 2 に移動する確率 (10%)、ユーザーがページ 1 からページ 3 に移動する確率 (20%) などが含まれます。すべての有効なパスおよび部分的なパスを合わせると、いずれか 1 つのパスを監視する場合よりもずっと長く複雑なグラフになります。

既定では、Microsoft シーケンスクラスタアルゴリズムではクラスタリングの Expectation Maximization (EM) 手法を使用します。詳細については、「Microsoft クラスタリングアルゴリズムテクニカルリファレンス」を参照してください。

クラスタリングの対象の属性は、シーケンシャルかどうかに依存しません。各クラスタは、確率分布を使用してランダムに選択されます。各クラスタには、パスの完全なセットを表す Markov 連鎖、およびシーケンスの状態遷移と確率を含むマトリックスがあります。初期分布に基づいて、特定のクラスタで、シーケンスなど任意の属性の確率が Bayes ルールを使用して計算されます。

Microsoft シーケンスクラスタアルゴリズムでは、モデルへの非シーケンシャル属性の追加がサポートされています。つまり、一般的なクラスタモデルの場合と同様に、追加属性をシーケンス属性と組み合わせて、類似する属性を含むケースのクラスタを作成できます。

傾向として、シーケンスクラスタモデルでは、一般的なクラスタモデルより多くのクラスタを作成します。そのため、Microsoft シーケンスクラスタアルゴリズムでは、クラスタ分解を実行して、シーケンスやその他の属性に基づいてクラスタを分割します。

シーケンスクラスタモデルでの機能の選択

シーケンスの作成時には機能の選択は実行されません。ただし、クラスタリングの段階で機能の選択が適用されます。

モデルの種類	機能の選択の方法	備考
シーケンスクラスタ	使用しない	機能の選択は実行されません。ただし、パラメータ MINIMUM_SUPPORT および MINIMUM_PROBABILIITY の値を設定することによってアルゴリズムの動作を制御できます。
クラスタリング	興味深さのスコア	クラスタリングアルゴリズムでは不連続のアルゴリズムや分離されたアルゴリズムを使用できますが、各属性のスコアは距離として計算されるため連続値です。したがって、興味深さのスコアが使用されます。

詳細については、「機能の選択」を参照してください。

パフォーマンスの最適化

Microsoft シーケンスクラスタアルゴリズムでは、処理を最適化するさまざまな方法がサポートされています。

CLUSTER_COUNT パラメータの値を設定すると、生成されるクラスタの数を制御できます。
MINIMUM_SUPPORT パラメータの値を増やすと、属性として含まれるシーケンスの数を減らすことができます。その結果、頻度の低いシーケンスが除外されます。
関連属性をグループ化すると、モデルを処理する前に複雑さを軽減できます。

通常、いくつかの方法で、n 次 Markov 連鎖モードのパフォーマンスを最適化できます。

可能なシーケンスの長さを制御します。
n の値をプログラムによって小さくします。
指定したしきい値を超える確率のみを格納します。

これらの方法の詳細については、このトピックでは説明しません。

シーケンスクラスタアルゴリズムのカスタマイズ

Microsoft シーケンスクラスタアルゴリズムでは、結果として得られるマイニングモデルの動作、パフォーマンス、および精度に影響を与えるパラメータがサポートされています。また、アルゴリズムによるトレーニングデータの処理方法を制御するモデリングフラグを設定して、完成したモデルの動作を変更することもできます。

アルゴリズムパラメータの設定

次の表は、Microsoft シーケンスクラスタアルゴリズムで使用できるパラメータを示しています。

CLUSTER_COUNT
アルゴリズムによって作成されるクラスタの概数を指定します。その数のクラスタをデータから作成できない場合、アルゴリズムでは可能な限り多数のクラスタが作成されます。CLUSTER_COUNT パラメータを 0 に設定すると、アルゴリズムではヒューリスティックを使用して、作成するクラスタの数が最適に決定されます。

既定値は 10 です。

注
0 以外の数値を指定すると、アルゴリズムへのヒントとして機能します。アルゴリズムでは指定の数を取得することを目標に処理が進められますが、指定の数以外になる場合もあります。

MINIMUM_SUPPORT
クラスタの作成に必要とされる、属性をサポートするケースの最小数を指定します。

既定値は 10 です。
MAXIMUM_SEQUENCE_STATES
シーケンスが保持できる状態数の最大値を指定します。

この値を 100 より大きい数値に設定すると、アルゴリズムは意味のある情報を提供するモデルを作成できなくなります。

既定値は 64 です。
MAXIMUM_STATES
アルゴリズムによってサポートされる非シーケンス属性用の状態の最大数を指定します。非シーケンス属性の状態の数が状態の最大数よりも大きい場合、アルゴリズムでは属性の最も一般的な状態が使用され、残りの状態は Missing として処理されます。

既定値は 100 です。

モデリングフラグ

Microsoft シーケンスクラスタアルゴリズムでは、次のモデリングフラグを使用できます。

NOT NULL
列に NULL を含めることはできないことを示します。モデルのトレーニング中に NULL が検出された場合はエラーが発生します。

マイニング構造列に適用されます。
MODEL_EXISTENCE_ONLY
列が、Missing および Existing の 2 つの可能な状態を持つ列として扱われることを示します。NULL は Missing 値として扱われます。

マイニングモデル列に適用されます。

マイニングモデルでの Missing 値の使用、および確率スコアへの Missing 値の影響の詳細については、「不足値 (Analysis Services - データマイニング)」を参照してください。

要件

ケーステーブルにはケース ID 列が必要です。オプションで、ケースに関する属性を格納する他の列をケーステーブルに含めることができます。

Microsoft シーケンスクラスタアルゴリズムには、入れ子になったテーブルとして格納されるシーケンス情報が必要です。入れ子になったテーブルには、1 つの Key Sequence 列が必要です。Key Sequence 列には、文字列データ型など、並べ替え可能な任意の型のデータを含めることができますが、ケースごとに一意の値を含める必要があります。さらに、モデルを処理する前に、ケーステーブルと入れ子になったテーブルの両方が、テーブルを関連付けるキーに基づいて昇順に並べ替えられていることを確認する必要があります。

注
Microsoft シーケンスアルゴリズムを使用するがシーケンス列は使用しないモデルを作成する場合、結果として得られるモデルでは、シーケンスが含まれるのではなく、モデルに含まれている他の属性に基づいてケースがクラスタ化されるだけです。

入力列と予測可能列

Microsoft シーケンスクラスタアルゴリズムでは、次の表に示す特定の入力列と予測可能列がサポートされています。マイニングモデルにおけるコンテンツの種類の意味については、「コンテンツの種類 (データマイニング)」を参照してください。

列	コンテンツの種類
入力属性	Continuous、Cyclical、Discrete、Discretized、Key、Key Sequence、Table、Ordered
予測可能な属性	Continuous、Cyclical、Discrete、Discretized、Table、Ordered

説明

シーケンスの予測 (PredictSequence (DMX) 関数の使用) は、SQL Server Enterprise でのみ使用できます。
Microsoft シーケンスクラスタアルゴリズムでは、Predictive Model Markup Language (PMML) を使用したマイニングモデルの作成はサポートされていません。
Microsoft シーケンスクラスタアルゴリズムでは、ドリルスルー、OLAP マイニングモデルの使用、およびデータマイニングディメンションの使用がサポートされています。

Microsoft シーケンスクラスタアルゴリズムテクニカルリファレンス (Analysis Services - データマイニング)

Microsoft シーケンスクラスタアルゴリズムの実装

シーケンスクラスタモデルでの機能の選択

パフォーマンスの最適化

シーケンスクラスタアルゴリズムのカスタマイズ

アルゴリズムパラメータの設定

モデリングフラグ

要件

入力列と予測可能列

説明

関連項目

参照

概念

その他のリソース

Microsoft シーケンス クラスタ アルゴリズム テクニカル リファレンス (Analysis Services - データ マイニング)

Microsoft シーケンス クラスタ アルゴリズムの実装

シーケンス クラスタ モデルでの機能の選択

パフォーマンスの最適化

シーケンス クラスタ アルゴリズムのカスタマイズ

アルゴリズム パラメータの設定

モデリング フラグ

要件

入力列と予測可能列

説明

関連項目

参照

概念

その他のリソース

Microsoft シーケンスクラスタアルゴリズムテクニカルリファレンス (Analysis Services - データマイニング)

Microsoft シーケンスクラスタアルゴリズムの実装

シーケンスクラスタモデルでの機能の選択

シーケンスクラスタアルゴリズムのカスタマイズ

アルゴリズムパラメータの設定

モデリングフラグ