Aracılığıyla paylaş


Discretization yöntemleri (veri madenciliği)

Some algorithms that are used to create data mining models in SQL Server Analysis Services require specific content types in order to function correctly.Örneğin, Microsoft önbelleğin Bayes algoritması sürekli sütunları giriş olarak kullanamaz ve tahmin edilemez sürekli değerleri.Ayrıca, bazı sütunları algoritma ilginç örüntüler bir model oluşturmak verileri kolayca belirleyemez çok fazla değer içerebilir.

Bu gibi durumlarda, bir araştırma modeli üretmek için kullanılan algoritmaları kullanımını etkinleştirmek için sütunlardaki veriler ayırmak.Discretization olası durumlar sınırlı sayıda böylece değerleri demetleri koyulması işlemidir.Demetleri sipariş edilen ve ayrık değerler olarak kabul edilir.Hem sayısal hem de dize sütunları ayırmak.

Veri ayırmak için kullanabileceğiniz çeşitli yöntemler vardır.İlişkisel veri, veri madenciliği çözümü kullanılıyorsa, kullanılacak demetleri sayısını kontrol edebilirsiniz gruplandırma değerini ayarlayarak veri DiscretizationBucketCount özellik.Demetleri varsayılan sayısı 5'tir.

Veri madenciliği çözümünüzün bir çevrimiçi analitik işleme (olap) küp verileri kullanıyorsa, veri madenciliği algoritması aşağıdaki denklemi kullanarak üretmek için demetleri sayısını otomatik olarak hesaplar nereye n DISTINCT değerler veri sayısı sütun:

Number of Buckets = sqrt(n)

İsterseniz, Analysis Services demetleri sayısını hesaplamak için kullanabileceğiniz DiscretizationBucketCount özellik için el ile sayısı demetleri.

Aşağıdaki tablo veri ayırmak için kullanabileceğiniz yöntemleri açıklar Analysis Services.

Discretization yöntem

Açıklama

AUTOMATIC

Analysis Services hangi discretization belirler yöntem kullanmak için.

CLUSTERS

Algoritma verilerin eğitim verileri örnekleme noktaları rasgele bir sayıya başlatılıyor ve sonra Microsoft Kümeleme algoritması kümeleme yöntem beklentisiyle Maximization (em) kullanarak birkaç kez çalıştıran böler.The CLUSTERS method is useful because it works on any distribution curve.Ancak, diğer discretization yöntemlerine göre daha fazla işlem saat gerektirir.

Bu yöntem yalnızca sayısal sütunlar ile kullanılabilir.

EQUAL_AREAS

Algoritma veri değerleri eşit sayıda içeren böler.Bu yöntem için normal dağılım eğrileri en iyi şekilde kullanılır, ancak iyi dağıtım dar sürekli veri grubunda çok sayıda oluşan değerler içeriyorsa, çalışmıyor.Öğeleri yarısı maliyet 0 varsa, örneğin, çizgisinden verileri tek bir eğri noktası altında ortaya çıkar.Bu tür bir dağıtım içinde bu yöntem verileri birden çok alana eşit discretization kurmak için çaba içinde keser.Bu verileri tutarsız bir gösterimini üretir.

Açıklamalar