Share via


[相互検証] タブ ([マイニング精度チャート] ビュー)

相互検証では、マイニング構造をセクションにパーティション分割し、それぞれのセクションに対してモデルのトレーニングとテストを反復的に実行できます。データを分割するいくつかのフォールドを指定します。それぞれのフォールドは、順にテスト データとして使用されます。一方、残りのデータは、新しいモデルのトレーニングに使用されます。その後、Analysis Services により、それぞれのモデルに対して標準的な精度の基準のセットが生成されます。それぞれのセクションに対して生成されるモデルの基準を比較することで、データセット全体に対するマイニング モデルの信頼性を確認できます。

詳細については、「クロス検証 (Analysis Services - データ マイニング)」を参照してください。

注意

相互検証は、Microsoft タイム シリーズ アルゴリズムや Microsoft シーケンス クラスタ アルゴリズムを使用して作成されたモデルには使用できません。これらの種類のモデルを含むマイニング構造に対してレポートを実行した場合、これらのモデルはレポートに含められません。

  • フォールドの数を指定します。

  • 相互検証に使用するケースの最大数を指定します。

  • 予測可能列を指定します。

  • 必要に応じて、予測可能な状態を指定します。

  • 必要に応じて、予測の精度の評価方法を制御するパラメータを設定します。

  • [結果の取得] をクリックして相互検証の結果を表示します。

  • [フォールド カウント]
    作成するフォールド (パーティション) の数を指定します。最小値は 2 です。この値は、データセットの半分をテスト用に、もう半分をトレーニング用に使用することを表します。

    セッション マイニング構造の最大値は 10 です。

    マイニング構造が Analysis Services のインスタンスに格納されている場合の最大値は 256 です。

    注意

    フォールドの数を増やすほど、相互検証の実行に必要な時間もその分だけ長くなります。ケースの数が多く、[フォールド カウント] の値も大きい場合は、パフォーマンス上の問題が発生する可能性があります。

  • [ケースの最大数]
    相互検証に使用するケースの最大数を指定します。特定のフォールド内のケースの数は、[ケースの最大数] の値を [フォールド カウント] の値で除算した結果と等しくなります。

    0 を指定した場合、ソース データ内のすべてのケースが相互検証に使用されます。

    既定値はありません。

    注意

    ケースの数を増やすほど、処理時間も長くなります。

  • [対象の属性]
    すべてのモデル内で検出された予測可能列の一覧から列を選択します。相互検証を実行するごとに選択できる予測可能列は 1 つのみです。

    クラスタ モデルのみをテストするには、[クラスタ] を選択します。

  • [対象の状態]
    値を入力するか、または値のドロップダウン リストから対象の値を選択します。

    既定値は NULL で、すべての状態をテストすることを示します。

    クラスタ モデルの場合は無効になります。

  • [対象のしきい値]
    予測確率を表す 0 ~ 1 の範囲の値を指定します。確率がこの値を超える場合、予測された状態は正しいと見なされます。値は 0.1 単位で設定できます。

    既定値は NULL です。この場合、最も確率の高い予測が正しいと見なされます。

    注意

    この値を 0.0 に設定することはできますが、その場合、処理時間が長くなるだけでなく、有意な結果も生成されません。

  • [結果の取得]
    クリックすると、指定したパラメータを使用して、モデルの相互検証が開始されます。

    モデルは指定した数のフォールドにパーティション分割され、フォールドごとに別個のモデルがテストされます。したがって、相互検証の結果が返されるまでに時間がかかることがあります。

相互検証レポートに表示された結果の解釈方法の詳細については、「クロス検証レポート (Analysis Services - データ マイニング)」を参照してください。

精度のしきい値の設定

[対象のしきい値] の値を設定することで、予測精度を測定する場合の基準を制御できます。しきい値は、精度バーの種類を表します。それぞれの予測に対して、予測される値が正しいと見なされる確率が割り当てられます。したがって、[対象のしきい値] に 1 に近い値を設定した場合、確率が非常に高い特定の予測を良い予測として数えるように指定していることになります。逆に、[対象のしきい値] に 0 に近い値を設定した場合、確率が低い予測であっても "良い" 予測として数えられます。

予測の確率はデータの量や予測の種類に依存するので、推奨されるしきい値はありません。異なる確率レベルの予測を調査したうえで、データに適した精度バーを決定する必要があります。この作業は重要です。なぜなら、[対象のしきい値] に設定する値は、測定されるモデルの精度に影響を与えるからです。

たとえば、特定の対象の状態に対して 3 つの予測を作成し、それぞれの予測の確率が 0.05、0.15、および 0.8 であるとします。ここで、しきい値を 0.5 に設定した場合、1 つの予測だけが正しい予測であると見なされます。また、[対象のしきい値] を 0.10 に設定した場合は、2 つの予測が正しい予測であると見なされます。

[対象のしきい値] を既定値の NULL に設定した場合、それぞれのケースで最も確率の高い予測が正しい予測であると見なされます。前の例では、0.05、0.15、および 0.8 が、3 つの異なるケースの予測の確率です。これらの値は大きく異なりますが、それぞれの予測はすべて正しいものと見なされます。なぜなら、それぞれのケースで生成された予測はそれぞれ 1 つであり、これらの予測はそのケースで最善の予測であるからです。