分布 (DMX)

在 MicrosoftSQL ServerAnalysis Services 中,可以在挖掘结构中定义各列的内容,从而在创建挖掘模型时影响算法对这些列中数据的处理方式。对于某些算法,如果已知列中包含常用的值分布,则在处理模型之前定义任意连续列的分布将非常有用。 如果不定义分布,则由于算法据以解释数据的信息较少,生成的挖掘模型产生的预测可能不如定义了分布时产生的预测精确。

Microsoft 数据挖掘算法支持下列分布类型:

  • NORMAL
    连续列的值构成一个正态高斯分布直方图。

  • Log Normal
    连续列的值构成一个直方图,其中值的对数呈正态分布。

  • UNIFORM
    连续列的值构成平坦曲线,曲线上的所有值都具有相同概率。

有关 Microsoft 数据挖掘算法的详细信息,请参阅数据挖掘算法(Analysis Services – 数据挖掘)。 第三方算法提供程序可能支持其他分布类型。 若要确定算法支持的分布类型,请使用 SUPPORTED_DISTRIBUTION_FLAGS 架构行集。

有关分布类型的详细信息,请参阅列分布(数据挖掘)