比率サンプリング変換

[アーティクル]
12/15/2008

更新 : 2005 年 12 月 5 日

比率サンプリング変換は、変換入力行の比率を選択することにより、サンプルデータセットを作成します。サンプルデータセットとは、変換入力からランダムに行を選択し、その結果、入力のサンプルとなるデータセットのことです。

比率サンプリング変換は、特にデータマイニングに役立ちます。この変換を使用すると、データセットをランダムに 2 つのデータセットに分割できます。たとえば、1 つをデータマイニングモデルの学習用に、もう 1 つはそのモデルのテスト用に分割します。

また、比率サンプリング変換は、パッケージ開発用のサンプルデータセットを作成するうえで役立ちます。比率サンプリング変換をデータフローに適用すると、データの特性を保持したまま、データセットのサイズを一様に縮小できます。したがって、テストパッケージは、サイズは小さいが代表的なデータセットを使用するため、実行速度は速くなります。

サンプリングシードを指定して、変換が行の選択に使用する乱数ジェネレータの動作を変更できます。同じサンプリングシードが使用される場合、この変換は、常に同じサンプル出力を作成します。シードを指定しない場合、この変換はオペレーティングシステムのタイマを使用して乱数を作成します。したがって、パッケージの開発やテスト中に変換結果を確認する際は標準シードを使用するように選択し、パッケージの稼働時にはランダムシードを使用するように変更します。

この変換は、行サンプリング変換と同様です。ただし、行サンプリング変換は、指定する入力行数を選択してサンプルデータセットを作成します。詳細については、「行サンプリング変換」を参照してください。

比率サンプリング変換には、SamplingValue カスタムプロパティがあります。このプロパティは、パッケージの読み込み時にプロパティ式で更新できます。詳細については、「Integration Services の式のリファレンス」、「パッケージでのプロパティ式の使用」、および「変換のカスタムプロパティ」を参照してください。

この変換は、1 つの入力と 2 つの出力をとります。エラー出力はサポートされていません。

メモ :
比率サンプリング変換は、指定した比率に加え、サンプル出力に行を含めるかどうかを決定するアルゴリズムを使用します。したがって、サンプル出力の行数は、指定した比率を正確に反映しない場合があります。たとえば、25,000 行の入力データセットに対して 10% を指定した場合、2,500 行のサンプルが生成されず、サンプルの行がこの数を多少前後することがあります。

比率サンプリング変換は、指定した比率に加え、サンプル出力に行を含めるかどうかを決定するアルゴリズムを使用します。したがって、サンプル出力の行数は、指定した比率を正確に反映しない場合があります。たとえば、25,000 行の入力データセットに対して 10% を指定した場合、2,500 行のサンプルが生成されず、サンプルの行がこの数を多少前後することがあります。

比率サンプリング変換の構成

プロパティを設定するには SSIS デザイナから行うか、またはプログラムによって設定します。

[比率サンプリング変換エディタ] ダイアログボックスで設定できるプロパティの詳細については、「[比率サンプリング変換エディタ]」を参照してください。

[詳細エディタ] ダイアログボックスには、プログラムによって設定できるプロパティが反映されます。[詳細エディタ] ダイアログボックスまたはプログラムで設定できるプロパティの詳細については、次のトピックのいずれかを参照してください。

プロパティの設定方法の詳細については、次のトピックのいずれかを参照してください。

参照

概念

パッケージのデータフローの作成
 Integration Services の変換

ヘルプおよび情報

SQL Server 2005 の参考資料の入手

変更履歴

リリース	履歴
2005 年 12 月 5 日	新しい内容 : SamplingValue カスタムプロパティについて、プロパティ式の使用に関する情報を追加しました。

Share via

比率サンプリング変換

比率サンプリング変換の構成

参照

概念

ヘルプおよび情報

変更履歴

その他のリソース