Distributions de colonnes (exploration de données)

Dans Microsoft SQL Server Analysis Services, vous pouvez définir des distributions de colonnes dans une structure d'exploration de données pour affecter la manière dont les algorithmes traitent les données dans ces colonnes lorsque vous créez des modèles d'exploration de données. Pour certains algorithmes, il est utile de définir la distribution de toutes les colonnes continues avant de traiter le modèle, si vous savez que les colonnes contiennent des distributions communes de valeurs. Si vous ne définissez pas les distributions, les modèles d'exploration de données résultants peuvent produire des prédictions moins précises que si les distributions sont définies, car les algorithmes disposent de moins d'informations à partir desquelles interpréter les données.

Les algorithmes disponibles dans Analysis Services prennent en charge les types de distribution suivants :

  • Normal
    Les valeurs pour la colonne continue forment un histogramme à distribution normale.

    Histogramme avec distribution normale

  • Log Normal
    Les valeurs pour la colonne continue forment un histogramme, dans lequel la courbe est allongée à son extrémité supérieure et est rétrécie vers son extrémité inférieure.

    Histogramme avec distribution normale logarithmique

  • Uniform
    Les valeurs pour la colonne continue forment une courbe plate, dont toutes les valeurs sont sensiblement les mêmes.

    Histogramme avec distribution uniforme

Pour plus d'informations sur les algorithmes fournis par Analysis Services, consultez Algorithmes d'exploration de données (Analysis Services – exploration de données).