論理アーキテクチャ (Analysis Services - データ マイニング)

データ マイニングは、複数のコンポーネントの相互作用を伴うプロセスです。SQL Server データベース内のデータのソースまたはその他のデータ ソースにアクセスし、トレーニング、テスト、または予測に使用します。データ マイニング構造とデータ マイニング モデルは、Business Intelligence Development Studio または Visual Studio 2005 を使用して定義します。SQL Server Management Studio では、データ マイニング オブジェクトを管理したり、予測やクエリを作成したりできます。ソリューションが完成したら、Analysis Services のインスタンスにそのソリューションを配置します。

データ マイニング ソリューションおよびプロジェクト

データ マイニング プロジェクトを作成するには、データ ソース、データ マイニング構造、およびデータ マイニング モデルを定義する必要があります。作成するデータ マイニング プロジェクトに、モデルの検証に使用するテスト セットを含めることもできます。プロジェクトをサーバーに配置した後に、元のソリューションで新しいモデルの開発とテストを継続できます。

データ マイニング ソース データ

データ マイニングを実行するためにキューブまたはその他の特殊なデータ ソースを使用する必要ありません。データ マイニングはリレーショナル データ テーブルや、Analysis Services のデータ ソース ビューとして定義されているその他のデータ ソースに対して、すばやく簡単に実行できます。データ マイニングで使用するデータは、データ マイニング ソリューションに格納されません。バインドのみが格納されます。データは前のバージョンの SQL Server、CRM システム、またはフラット ファイルで作成されたデータベースにも存在する場合があります。Analysis Services データ ソース ビューでは、複数のテーブル間の結合を指定してさまざまなデータ ソースを組み合わせることができます。また、多対一のリレーションシップを持つテーブルを追加して、入れ子になったテーブル列を作成することもできます。

データ マイニング ソリューションでデータを使用する必要がある場合、Analysis Services ではソースからデータを読み込み、使用される集計およびその他の情報のキャッシュを生成します。キャッシュされた情報を維持し、その情報を使用して新しいデータ マイニング モデルを作成できます。または、それらの情報を削除してストレージ領域を節約することもできます。

データ マイニング ソリューションは、新しいデータで継続的に更新できます。また、正しく機能するモデルが見つかった場合は、そのモデルをそのまま配置して、新しいデータをそのモデルに追加しないようにすることもできます。

SQL Server 2008 Analysis Services には、データをトレーニングおよびテスト データ セットに分割する機能もあります。この機能を使用して、代表的な、ランダムに選択したデータのセットでマイニング モデルをテストできます。

Analysis Services データ ソースおよびデータ ソース ビューの作成と使用の詳細については、「データ ソースの定義 (Analysis Services)」を参照してください。

データ マイニング構造

データ マイニング構造は、マイニング モデルの作成元のデータ ドメインを定義する論理データ構造です。1 つのマイニング構造には、同じドメインを共有する複数のマイニング モデルを含めることができます。データの割合または量を HOLDOUT として指定して、データ マイニング構造をトレーニング セットとテスト セットにパーティション分割することもできます。このパーティション分割は、データ マイニング構造を定義するときに自動的に実行できます。

詳細については、「マイニング構造 (Analysis Services - データ マイニング)」を参照してください。

データ マイニング構造には、入れ子になったテーブルを含めることができます。入れ子になったテーブルは、プライマリ データ テーブルでモデル化されているケースに関する追加の詳細情報を提供します。詳細については、「入れ子になったテーブル (Analysis Services - データ マイニング)」を参照してください。

データ マイニング モデル

データ マイニング モデルは、データ、データ マイニング アルゴリズム、および使用されるデータに影響するパラメータとフィルタ設定のコレクション、およびデータの処理方法の組み合わせを表したものです。詳細については、「マイニング モデル (Analysis Services - データ マイニング)」を参照してください。

データ マイニング モデルを定義するには、データ マイニング拡張機能 (DMX) 言語または BI Development Studio のデータ マイニング ウィザードを使用します。データ マイニング ウィザードの使用方法については、「データ マイニング ウィザード (Analysis Services - データ マイニング)」を参照してください。DMX の使用方法の詳細については、「データ マイニング拡張機能 (DMX) リファレンス」を参照してください。

マイニング モデルの構造を定義したら、それを処理して、そのモデルを表現するパターンを空の構造に入れます。これは、モデルのトレーニングと呼ばれます。パターンは、数学的アルゴリズムを使用して元のデータを渡すことによって見つかります。パラメータを使用して各アルゴリズムを調整できます。データ マイニング アルゴリズムを選択する方法の詳細については、「データ マイニング アルゴリズム (Analysis Services - データ マイニング)」を参照してください。個々のデータ マイニング アルゴリズムにパラメータを設定してモデルの結果を微調整する方法の詳細については、「データ マイニング モデルのカスタマイズ (Analysis Services - データ マイニング)」を参照してください。

新しいデータ マイニング モデルを作成したら、予測を作成してそれらを繰り返しテストし、変更を加えて結果を向上させます。モデルを追加したり、データに合うようにモデルのパラメータを変更したりなどの変更を行います。予測の精度のテストの詳細については、「データ マイニング モデルの検証 (Analysis Services - データ マイニング)」を参照してください。

配置

データ マイニング開発の最終的な目標は、エンド ユーザーやアナリストが予測の作成および詳細な分析に使用できるモデルを作成することです。したがって、モデルによって生成された結果に満足できる場合は、モデルを運用環境に配置します。運用環境では、マイニング モデルを必要に応じてさまざまな用途で使用できます。次のリストに、データ マイニング モデルを使用して実行できるタスクの例をいくつか示します。

  • モデルを使用して予測を作成します。これは、業務上の意志決定に使用できます。SQL Server では、予測クエリを作成するための DMX 言語と、クエリを作成するための予測クエリ ビルダが提供されています。

  • データ マイニング機能をアプリケーションに直接埋め込みます。マイニング構造とマイニング モデルを作成、変更、処理、および削除するためにアプリケーションで使用できる一連のオブジェクトを含んでいる分析管理オブジェクト (AMO) またはアセンブリを含めることができます。または、XML for Analysis (XMLA) メッセージを Analysis Services のインスタンスに直接送信できます。

  • Integration Services を使用してパッケージを作成します。ここで、マイニング モデルは、入力されたデータを複数のテーブルに適切に分割するために使用されます。たとえば、潜在的な顧客に関してデータベースが継続的に更新される場合は、Integration Services と共にマイニング モデルを使用して、入力されるデータを製品を購入する可能性のある顧客と製品を購入する可能性のない顧客に分割できます。

  • ユーザーが既存のマイニング モデルに対して直接クエリを実行できるレポートを作成します。さまざまな予測を作成する必要があるユーザーや、マイニング モデル コンテンツに直接アクセスする必要があるアナリストは、データ内の興味深いパターンを探索できます。

モデルの更新は、配置方法の一部です。組織に入ってくるデータが多くなればなるほど、モデルを再処理して効果を向上させる必要があります。詳細については、「配置 (Analysis Services - データ マイニング)」および「DMX 予測クエリの作成」を参照してください。