データ マイニング プロジェクト (Analysis Services - データ マイニング)

Analysis Services でデータ マイニング ソリューションを開発するときは、まず Analysis Services プロジェクトを作成します。このプロジェクト内で、分析に使用するデータのソースを定義し、データを処理するアルゴリズムとカスタムの命令を含むモデルを設定します。プロジェクト内でこのモデルを引き続きテストおよび調整することもできます。ソリューションが完成したら、そのソリューションを別のサーバーに配置したり、予測や分析を行うアプリケーションで使用したりできます。

次のセクションでは、データ マイニング ソリューションを作成するツールやプロセスについて説明し、各ステップで使用するリソースへのリンクを示します。

Analysis Services プロジェクトの作成

データ マイニング ソリューションを開発するときは、まず、Business Intelligence Development Studio を使用して新しい Analysis Services プロジェクトを作成する必要があります。各データ マイニング プロジェクトには、データ ソース、データ ソースに基づくデータ ソース ビュー、モデルでのデータの使用方法を定義するマイニング構造、パターンを作成および格納するマイニング モデルという 4 種類のオブジェクトがあります。

詳細情報 :Analysis Services プロジェクトの定義」、「データ ソース ウィザードを使用したデータ ソースの定義 (Analysis Services)

データ ソースの定義

データ ソースでは、データ ソースへの接続に Analysis Services サーバーで使用する接続文字列および認証情報を定義します。データ ソースには、複数のテーブルまたはビューを含めることができます。Analysis Services では、リレーショナル データベースとオンライン分析処理 (OLAP) データベースの両方から、または外部プロバイダーからデータセットを使用できます。

データ ソースへの接続を定義した後、モデルに関連する特定のデータを確認するビューを作成します。データ ソース ビューでは、データ ソース内のデータをマイニング モデルに入力する方法をカスタマイズすることもできます。プロジェクトとの関連性をより高めるためにデータの構造を変更したり、特定の種類のデータのみを選択したりできます。データをフィルター選択する場合は、データ ソース ビューで行うか、モデルのレベルで適用されるフィルターで行うことができます。

必要なデータ量や、データのクリーンアップおよびフォーマット方法に関する要件は、データの調査に使用するアルゴリズムによって異なります。

詳細情報 :データ ソース ビューの定義 (Analysis Services)

Analysis Services プロジェクトへのマイニング構造の追加

分析を開始するのに十分なデータがあれば、ビジネス上の問題に最も関連するデータの列を選択し、マイニング構造をプロジェクトに追加します。マイニング構造では、プロジェクトのデータ ソース ビューまたは OLAP キューブから取得される、データの列や入れ子になったテーブルを使用する列を定義します。

新しいマイニング構造を追加するには、データ マイニング ウィザードを起動します。このウィザードの手順に従って、データを定義したり、オプションで初期データ マイニング モデルを作成したりできます。構造を作成するとき、モデルの作成に使用するトレーニング データセットと、作成する構造に基づくすべてのマイニング モデルのテストまたは検証に使用できるテスト データセットを含めるために、データをパーティション分割することもできます。データ マイニング デザイナーの [マイニング構造] タブを使用して、列や入れ子になったテーブルの追加など、既存のマイニング構造を変更できます。

詳細情報 :新しいマイニング構造の作成」、「データ マイニング デザイナ」、「データ マイニング ウィザード (Analysis Services - データ マイニング)

データ マイニング モデルの操作

それぞれのマイニング構造に、1 つ以上のマイニング モデルを追加します。マイニング モデルでは、アルゴリズム、つまりデータに対して使用する分析の方法を定義します。データの数学的モデルを生成するアルゴリズムを使用して、データ ソース ビューのデータを実行することで各モデルを処理します。このプロセスは、モデルのトレーニングとも呼ばれます。

モデルを処理した後、マイニング モデルの視覚的な調査およびマイニング モデルに対する予測クエリの作成を行うことができます。

Analysis Services には、処理するオブジェクトやオブジェクトの処理方法を制御する機能など、マイニング モデル オブジェクトを処理するためのオプションがいくつか用意されています。たとえば、構造を処理し、データをキャッシュしてから、その構造に新しいモデルを引き続き追加できます。データをキャッシュすると、ドリルスルー クエリによって、モデルで使用されたケースに関する詳細情報を返すことができます。

詳細情報 :データ マイニング アルゴリズム (Analysis Services - データ マイニング)」、「Analysis Services オブジェクトの処理」、「マイニング モデルとマイニング構造におけるドリルスルーの使用 (Analysis Services - データ マイニング)

データ マイニング モデルの検証

モデルを作成した後、結果を調査して、最もパフォーマンスの良いモデルを決定できます。データ マイニング デザイナーの [マイニング モデル ビューアー] タブでは、Analysis Services に用意されているマイニング モデルの種類ごとのビューアーを使用して、マイニング モデルを調べることができます。

デザイナーの [マイニング精度チャート] タブでは、Analysis Services に用意されているツールを使用して、マイニング モデルを直接比較したり、最も正確または有用なマイニング モデルを選択したりできます。これらのツールには、リフト チャート、利益チャート、および分類マトリックスが含まれます。 

SQL Server 2008 で新しく追加されたクロス検証レポートを使用して、データの反復サブサンプリングを実行することで、モデルが特定のデータに偏っていないかどうかを判断することもできます。このレポートで提供される統計情報を使用すると、モデルを客観的に比較したり、トレーニング データの質を評価したりできます。

詳細情報 :データ マイニング モデルの表示」、「データ マイニング モデルの検証 (Analysis Services - データ マイニング)

予測の作成

ほとんどのデータ マイニング プロジェクトの主な目的は、マイニング モデルを使用して予測を作成することです。マイニング モデルを調査して比較した後、いずれかのツールを使用して予測を作成できます。Analysis Services では、予測作成の基になり、簡単にスクリプトを作成できるデータ マイニング拡張機能 (DMX) というクエリ言語が提供されています。DMX の予測クエリを作成しやすくするために、SQL Server では、SQL Server Management Studio および Business Intelligence Development Studio で使用できるクエリ ビルダーと、Management Studio のクエリ エディター用の DMX テンプレートが提供されています。BI Development Studio 内では、データ マイニング デザイナーの [マイニング モデル予測] タブからクエリ ビルダーにアクセスします。

詳細情報 :DMX 予測クエリの作成」、「データ マイニング拡張機能 (DMX) ステートメント リファレンス

SQL Server Management Studio

BI Development Studio を使用してデータ マイニング プロジェクト用のマイニング モデルを作成した後、Management Studio でモデルを管理および操作したり、予測を作成したりできます。SQL Server Management Studio のクエリ ツールを使用すると、モデルのデータを調べたり、複雑なコンテンツ クエリを作成したり、SQL Server のインスタンスに格納されているデータ マイニング オブジェクトを管理したりできます。

詳細情報 :SQL Server Management Studio でのデータ マイニング」、「SQL Server Management Studio でのデータ マイニング

SQL Server Reporting Services

マイニング モデルを作成した後、結果を多数の対象者に配布する場合があります。データ マイニング結果は、データベース クエリによって簡単にアクセスできる一貫性のあるスキーマに格納されるので、さまざまなクライアント ツールを使用して、分析の結果を示したり、モデルのパターンを調べたり、予測を行ったりできます。

Microsoft SQL Server Reporting Services のレポート デザイナーを使用して、マイニング モデルに含まれている情報を表示するためのレポートを作成します。DMX クエリの結果をレポートのベースとして使用し、Reporting Services で提供されているパラメーター化およびフォーマット化の機能を利用できます。

詳細情報 :DMX の Analysis Services 接続 (SSRS)」、「アプリケーションへの Reporting Services の統合

プログラムによるデータ マイニングの操作

Analysis Services では、データ マイニングをプログラムで操作するためのいくつかのツールが提供されています。DMX 言語には、データ マイニング モデルを作成、トレーニング、および使用するためのステートメントがあります。また、これらの作業は、XML for Analysis (XMLA) と Analysis Services スクリプト言語 (ASSL) の組み合わせ、または分析管理オブジェクト (AMO) を使用して実行することもできます。

データ マイニングのスキーマ行セットを使用して、データ マイニングに関連付けられているすべてのメタデータにアクセスできます。たとえば、スキーマ行セットを使用して、アルゴリズムでサポートされているデータ型やデータベース内に存在するモデル名を調べることができます。

詳細情報 :データ マイニング拡張機能 (DMX) リファレンス」、「データ マイニング スキーマ行セット」、「Analysis Services での XML for Analysis の使用 (XMLA)