[アーティクル]
04/01/2012

トレーニングセットとテストセットへのデータのパーティション分割 (Analysis Services - データマイニング)

トレーニングセットとテストセットにデータを分割することは、データマイニングモデルの評価における重要な部分です。通常、データセットをトレーニングセットとテストセットにパーティション分割すると、ほとんどのデータはトレーニングに使用され、テストに使用されるデータは少量になります。Analysis Services ではデータのサンプルがランダムに抽出されるため、テストパーティションとトレーニングパーティションが互いに類似するように分割されます。トレーニングとテストに類似データを使用すると、データの差異による影響を最小限に抑えることができ、モデルの特性をよりよく理解できます。

トレーニングセットを使用してモデルが処理された後、テストセットに対する予測を実行してモデルをテストします。テストセット内のデータには予測対象の属性の既知の値が既に含まれているため、モデルの推測が正しいかどうかを簡単に判断できます。

通常、マイニングモデルの予測精度は、リフトまたは分類の精度によって測定します。リフトチャートおよびその他の精度チャートの詳細については、「モデルの精度をグラフ化するためのツール (Analysis Services - データマイニング)」を参照してください。

データマイニング構造のパーティションの作成

SQL Server 2008 では、マイニング構造のレベルでデータをパーティション分割します。パーティションサイズに関する情報と各パーティション内のデータは構造に格納され、その構造に基づくすべてのモデルで、これらのパーティションを使用してトレーニングとテストを行うことができます。

マイニング構造のパーティションは、次の方法で定義できます。

マイニング構造の作成時に、データマイニングウィザードを使用してマイニング構造をパーティション分割します。
データマイニングデザイナの [マイニング構造] タブで、構造のプロパティを変更します。
分析管理オブジェクト (AMO) または XML データ定義言語 (DDL) を使用し、プログラムによって構造を作成および変更します。

データマイニングウィザードによるマイニング構造のパーティション分割

既定では、マイニング構造のデータソースを定義した後、データマイニングウィザードによってデータの 70% がトレーニング用パーティション、30% がテスト用パーティションに分割されます。これはデータマイニングでよく使用される比率ですが、Analysis Services では、独自の要件に合わせてこの比率を変更することもできます。

また、トレーニングケースの最大数を設定するようにウィザードを構成したり、指定したケースの最大数まで最大割合を許可するように制限を組み合わせたりすることもできます。ケースの最大割合と最大数の両方を指定した場合、Analysis Services によって、2 つの制限のうちの小さい方がテストセットのサイズとして使用されます。たとえば、テストケースに 30% の提示データを指定し、テストケースの最大数を 1000 に指定した場合、テストセットのサイズが 1000 ケースを超えることはありません。これを利用すると、モデルにトレーニングデータが追加されてもテストセットのサイズが一定に保たれるようにすることができます。

複数のマイニング構造に同じデータソースビューを使用する場合、すべてのマイニング構造とそのモデルでほぼ同じようにデータが分割されるようにするには、ランダムサンプリングの初期化に使用するシードを指定します。HoldoutSeed の値を指定すると、Analysis Services によるサンプリングの開始時にその値が使用されます。指定しないと、サンプリング時に、マイニング構造の名前に対してハッシュアルゴリズムを使用してシード値が作成されます。

注
EXPORT ステートメントおよび IMPORT ステートメントを使用してマイニング構造のコピーを作成すると、新しいマイニング構造でも同じパーティション定義が使用されます。エクスポートプロセスでは新しい ID が作成されますが、同じ名前が使用されるからです。一方、2 つのマイニング構造の基になるデータソースが同じでも、名前が異なる場合は、それぞれのマイニング構造に作成されるパーティションも異なります。

EXPORT ステートメントおよび IMPORT ステートメントを使用してマイニング構造のコピーを作成すると、新しいマイニング構造でも同じパーティション定義が使用されます。エクスポートプロセスでは新しい ID が作成されますが、同じ名前が使用されるからです。一方、2 つのマイニング構造の基になるデータソースが同じでも、名前が異なる場合は、それぞれのマイニング構造に作成されるパーティションも異なります。

構造のプロパティの変更

マイニング構造を作成および処理した後にテストパーティションを追加する場合は、マイニング構造のプロパティを変更できます。データのパーティション分割方法を変更するには、次のプロパティを編集します。

プロパティ	説明
HoldoutMaxCases	テストセットに含めるケースの最大数を指定します。
HoldoutMaxPercent	テストセットに含めるケースの数を、データセット全体に対する割合で指定します。データセットを含めないようにするには、0 を指定します。
HoldoutSeed	パーティションのデータをランダムに選択するときにシードとして使用する整数値を指定します。この値は、トレーニングセット内のケース数には影響を与えずに、パーティションを反復可能にします。

パーティションを既存の構造に追加したり変更したりした場合、構造および関連するすべてのモデルを再処理する必要があります。また、パーティションを追加すると、異なるデータサブセットでモデルがトレーニングされるようになるため、モデルの結果が変化する場合があります。

プログラムによる HOLDOUT の指定

DMX ステートメント、AMO、または XML DDL を使用して、パーティション分割されたデータマイニング構造を作成できます。

DMX データマイニング拡張機能 (DMX) 言語では CREATE MINING STRUCTURE ステートメントが拡張されており、WITH HOLDOUT 句を使用できます。CREATE STRUCTURE ステートメントの構文と例については、「CREATE MINING STRUCTURE (DMX)」を参照してください。

注

ALTER MINING STRUCTURE ステートメントは、提示パラメータの使用をサポートしていません。
ASSL Analysis Services スクリプト言語 (ASSL) を使用すると、パーティション分割されたマイニング構造を新しく作成することも、既存のデータマイニング構造にパーティションを追加することもできます。詳細については、「MiningStructure 要素 (ASSL)」を参照してください。
AMO また、AMO を使用してパーティションを表示および変更することもできます。詳細については、「AMO の概念とオブジェクトモデル」を参照してください。

注
ALTER MINING STRUCTURE ステートメントは、提示パラメータの使用をサポートしていません。

データマイニングスキーマ行セットに対してクエリを実行すると、既存のマイニング構造のパーティションに関する情報を表示できます。これを行うには、DISCOVER ROWSET を呼び出すか、DMX クエリを使用できます。詳細については、「データマイニングスキーマ行セット」または「データマイニングスキーマ行セットのクエリ (Analysis Services - データマイニング)」を参照してください。

パーティション情報の使用

既定では、トレーニングパーティションとテストパーティションに関する情報はすべてキャッシュされるので、既存のパーティションを使用して新しいモデルをトレーニングし、テストできます。データのサブセットに対してモデルを評価できるように、キャッシュ済みの提示パーティションに適用するフィルタをユーザーが定義することもできます。詳細については、「マイニングモデルのフィルターの作成 (Analysis Services - データマイニング)」を参照してください。

ケースがどのようにパーティション分割されるかは、提示データの構成方法、および指定したデータによって異なります。各パーティション内のケース数を確認したり、トレーニングセットとテストセットに含まれているケースの詳細を調べたりするには、DMX クエリを作成してモデル構造にクエリを実行します。たとえば、次のクエリでは、モデルのトレーニングセットで使用されたケースが返されます。

SELECT * from <structure>.CASES WHERE IsTrainingCase()

テストケースのみを取得し、さらにマイニング構造内のいずれかの列でテストケースをフィルタ処理するには、次の構文を使用します。

SELECT * from <structure>.CASES WHERE IsTestCase() AND <structure column name> = '<value>'

提示データの使用に関する制限事項

提示データを使用するには、マイニング構造の MiningStructureCacheMode プロパティが既定値の KeepTrainingCases に設定されている必要があります。CacheMode プロパティを ClearAfterProcessing に変更してマイニング構造を再処理すると、パーティションが失われます。
タイムシリーズモデルでパーティションを使用することはできません。したがって、パーティションを作成し、Microsoft タイムシリーズアルゴリズムを使用してモデルを作成するように指定した場合、パーティション分割が無効になります。また、ケーステーブルレベルまたは入れ子になったテーブルレベルで、マイニング構造に KEY TIME 列が含まれている場合も、パーティション分割が無効になります。
データセット全体をテストに使用し、トレーニングにはまったく使用しないように、パーティションを誤って構成してしまうことがあります。ただし、この問題を修正できるように、Analysis Services によりエラーが生成されます。また、50% を超えるデータがテスト用に提示されていると、構造の処理時に Analysis Services により警告が表示されます。
多くの場合、提示データの既定値である 30 を使用すると、トレーニングデータとテストデータのバランスがとれます。十分なトレーニングのためにデータセットをどの程度大きくするか、また、オーバーフィットを回避するためにトレーニングセットをどの程度小さくするかを、単純に算出する方法はありません。ただし、モデルを作成した後、クロス検証を使用して、特定のモデルについてデータセットを評価できます。詳細については、「クロス検証 (Analysis Services - データマイニング)」を参照してください。
AMO と XML DDL には、前の表に示したプロパティに加えて、読み取り専用プロパティ HoldoutActualSize が用意されています。ただし、構造が処理されるまではパーティションの実際のサイズを正確に知ることができないため、HoldoutActualSize プロパティの値を取得する前に、モデルが処理済みであるかどうかを確認する必要があります。

トレーニングセットとテストセットへのデータのパーティション分割 (Analysis Services - データマイニング)

データマイニング構造のパーティションの作成

データマイニングウィザードによるマイニング構造のパーティション分割

構造のプロパティの変更

プログラムによる HOLDOUT の指定

パーティション情報の使用

提示データの使用に関する制限事項

関連項目

概念

その他のリソース

トレーニング セットとテスト セットへのデータのパーティション分割 (Analysis Services - データ マイニング)

データ マイニング構造のパーティションの作成

データ マイニング ウィザードによるマイニング構造のパーティション分割

構造のプロパティの変更

プログラムによる HOLDOUT の指定

パーティション情報の使用

提示データの使用に関する制限事項

関連項目

概念

その他のリソース

トレーニングセットとテストセットへのデータのパーティション分割 (Analysis Services - データマイニング)

データマイニング構造のパーティションの作成

データマイニングウィザードによるマイニング構造のパーティション分割