データ マイニング アルゴリズム

データ マイニング アルゴリズムは、マイニング モデルを作成するメカニズムです。モデルを作成するために、データ マイニング アルゴリズムは、まず一連のデータを分析し、特定のパターンおよび傾向を探します。その後、この分析の結果を使用して、マイニング モデルのパラメータを定義します。

アルゴリズムによって作成されるマイニング モデルは、次のようにさまざまな形式を取ります。

  • トランザクションで製品をグループ化する方法を説明するルールのセット
  • 特定の顧客が製品を購入するかどうかを予測するデシジョン ツリー
  • 売上を予想する数学的モデル
  • データセット内のケースの関係を説明するクラスタのセット

Microsoft SQL Server 2005 Analysis Services (SSAS) には、データ マイニング ソリューションで使用できるいくつかのアルゴリズムが用意されています。これらのアルゴリズムは、データ マイニングに使用できるすべてのアルゴリズムのサブセットです。また、OLE DB for Data Mining 仕様に準拠したサード パーティのアルゴリズムを使用することもできます。サード パーティのアルゴリズムの詳細については、「プラグイン アルゴリズム」を参照してください。

アルゴリズムの確認

Analysis Services には、次の種類のアルゴリズムが含まれます。

  • 分類アルゴリズムは、データセット内の他の属性に基づいて、1 つまたは複数の離散変数を予測します。分類アルゴリズムの例としては、Microsoft デシジョン ツリー アルゴリズムがあります。
  • 回帰アルゴリズム は、データセット内の他の属性に基づいて、利益や損失などの 1 つまたは複数の連続変数を予測します。回帰アルゴリズムの例としては、Microsoft タイム シリーズ アルゴリズムがあります。
  • 分割アルゴリズムは、データを類似したプロパティを持つアイテムのグループまたはクラスタに分割します。分割アルゴリズムの例としては、Microsoft クラスタリング アルゴリズムがあります。
  • アソシエーション アルゴリズムは、データセット内の異なる属性間の相関関係を検出します。この種類のアルゴリズムの最も一般的な使用例は、マーケット バスケット分析で使用するアソシエーション ルールの作成です。アソシエーション アルゴリズムの例としては、Microsoft アソシエーション アルゴリズムがあります。
  • シーケンス分析アルゴリズムは、Web パス フローなど、データ内の頻度の高いシーケンスまたはエピソードを要約します。シーケンス分析アルゴリズムの例としては、Microsoft シーケンス クラスタ アルゴリズムがあります。

アルゴリズムの適用

特定のビジネス タスクに使用する適切なアルゴリズムを選択するのが困難な場合があります。異なるアルゴリズムを使用して同じビジネス タスクを実行できる一方、各アルゴリズムによって異なる結果が生成されたり、一部のアルゴリズムでは複数の種類の結果が生成されたりする場合があります。たとえば、Microsoft デシジョン ツリー アルゴリズムは、予測だけでなく、データセット内の列の数を減らす方法としても使用できます。これは、デシジョン ツリーが、最終的なマイニング モデルに影響を与えない列を識別できるためです。

また、アルゴリズムを別々に使用する必要はありません。つまり、単一のデータ マイニング ソリューションで、いくつかのアルゴリズムを使用してデータを調べ、その後に別のアルゴリズムでそのデータに基づいて特定の結果を予測することができます。たとえば、パターンを認識するクラスタリング アルゴリズムを使用して、データをある程度均一性のあるグループに分割し、その結果を使用してより精度の高いデシジョン ツリー モデルを作成できます。1 つのソリューション内で複数のアルゴリズムを使用して、個別のタスクを実行することもできます。たとえば、回帰ツリー アルゴリズムを使用して財務予測情報を取得し、ルール ベース アルゴリズムを使用してマーケット バスケット分析を実行する場合などです。

マイニング モデルでは、値の予測、データの要約の生成、隠れた相関関係の検出を行うことができます。データ マイニング ソリューションで使用するアルゴリズムの選択の参考として、特定のタスクに推奨されるアルゴリズムを次の表に示します。

タスク 使用する Microsoft アルゴリズム

不連続属性の予測。たとえば、ターゲット メーリング キャンペーンの受け取り人が製品を購入するかどうかを予測します。

Microsoft デシジョン ツリー アルゴリズム

Microsoft Naive Bayes アルゴリズム

Microsoft クラスタリング アルゴリズム

Microsoft ニューラル ネットワーク アルゴリズム (SSAS)

連続属性の予測。たとえば、来年の売上を予測します。

Microsoft デシジョン ツリー アルゴリズム

Microsoft タイム シリーズ アルゴリズム

シーケンスの予測。たとえば、企業の Web サイトのクリックストリーム分析を実行します。

Microsoft シーケンス クラスタ アルゴリズム

トランザクション内の共通アイテムのグループの検出。たとえば、属性間のリレーションシップをより理解するために人口統計情報データをグループに分割します。

Microsoft アソシエーション アルゴリズム

Microsoft デシジョン ツリー アルゴリズム

類似アイテムのグループの検出。たとえば、属性間のリレーションシップをよりわかりやすくするために人口統計情報データをグループに分割します。

Microsoft クラスタリング アルゴリズム

Microsoft シーケンス クラスタ アルゴリズム

各モデルによって異なる種類の結果が返されるため、Analysis Services ではアルゴリズムごとに個別のビューアが用意されています。Analysis Services でマイニング モデルを参照すると、モデルに適したビューアを使用して、データ マイニング デザイナの [マイニング モデル ビューア] タブにモデルが表示されます。詳細については、「データ マイニング モデルの表示」を参照してください。

アルゴリズムの詳細

関数を使用して、マイニング モデルによって返される結果を拡張できます。次の表は、Analysis Services のすべてのアルゴリズムでサポートされている関数の一覧です。

BottomCount

RangeMin

BottomPercent

TopCount

Predict

TopPercent

RangeMax

TopSum

RangeMid

個々のアルゴリズムでは、これ以外の関数がサポートされている場合もあります。Micrisoft が提供するアルゴリズムでは、重複するキーは使用できません。

参照

概念

データ マイニングの概念
マイニング構造 (Analysis Services)
Microsoft アソシエーション アルゴリズム
Microsoft クラスタリング アルゴリズム
Microsoft デシジョン ツリー アルゴリズム
Microsoft Naive Bayes アルゴリズム
Microsoft ニューラル ネットワーク アルゴリズム (SSAS)
Microsoft シーケンス クラスタ アルゴリズム
Microsoft タイム シリーズ アルゴリズム
Microsoft 線形回帰アルゴリズム
Microsoft ロジスティック回帰アルゴリズム
プラグイン アルゴリズム
データ マイニング ツールの使用

その他の技術情報

データ マイニング拡張機能 (DMX) リファレンス

ヘルプおよび情報

SQL Server 2005 の参考資料の入手