Microsoft karar ağaçlar algoritması

The Microsoft Decision Trees algorithm is a classification and regression algorithm provided by Microsoft SQL Server Analysis Services for use in predictive modeling of both discrete and continuous attributes.

Kesikli öznitelikleri için Öngörüler DataSet giriş sütunlar arasındaki ilişkileri temel algoritma kılar.Bu durumları, tasarladığınız olarak öngörülebilir bir sütun durumları tahmin etmek o sütun olarak bilinen değerlerini kullanır.Özellikle, algoritma ile ilişkili giriş sütun tanımlayan tahmin edilebilir sütun.Örneğin, bir senaryoda, tahmin etmek müşteriler dışında dokuz on daha genç müşteriler bir bisiklet satın almak, ancak yaş bir bisiklet satın iyi predictor olduğunu algoritma yorumlar yalnızca on dışında iki eski müşteriler bunun bir bisiklet satın almak olasıdır.Karar ağacı belirli bir sonuca doğru bu eğilimi dayanarak Öngörüler yapar.

Sürekli öznitelikler için karar ağacı nerede böler belirlemek için doğrusal regresyon algoritması kullanır.

Birden fazla sütun için öngörülebilir küme veya giriş verilerinin çok öngörülebilir küme iç içe geçmiş bir tablo içeriyorsa, ayrı bir algoritma oluşturur, karar ağacı her tahmin edilebilir sütun için

Örnek

Pazarlama departmanı Adventure Works Cycles Şirket istediği önceki müşteriler belirtmek Bu müşterilerin büyük bir olasılıkla gelecek bir ürün satın almak mi özelliklerini tanımlamakThe AdventureWorks2008R2 database stores demographic information that describes previous customers.Kullanarak Microsoft karar ağaçlar algoritma pazarlama departmanı bu bilgileri analiz etmek için bir model olup belirli bir müşteri satın ürünleri, bilinen sütunlar hakkında o müşterinin satın alma geçmiş veya nüfus gibi durumları esas öngörür yaparsınız?desenler.

Algoritma nasıl çalışır?

The Microsoft Decision Trees algorithm builds a data mining model by creating a series of splits in the tree.Bu bölmelerini temsil edilen düğümler.Düğüm algoritması önemli ölçüde ile ilişkili olabilir için bir giriş sütununda bulunan her saat modeline ekler tahmin edilebilir sütun.Algoritma bir bölünme belirler, sürekli bir sütun veya ayrı bir sütun tahmin etmektir türüne bağlı olarak farklı yoludur.

The Microsoft Decision Trees algorithm uses feature selection to guide the selection of the most useful attributes.Özellik seçimi kullanılan tüm tarafından Analysis Services performansı ve kalitesi artırmak için veri madenciliği algoritmalarıanalizi. Özellik seçimi önemli nitelikleri işlemci kullanmasını engellemek önemli olduğunu saat.Bir veri tasarımı yaparken çok fazla giriş veya öngörülebilir öznitelik kullanırsanız, araştırma modeli, modeli, işlem veya bellek yetersiz bile çalıştırmak için çok uzun saat alabilir.Ağaç bölmek karar vermek için kullanılan yöntemleri dahil endüstri standardı Ölçüler için entropi ve Bayesian ağlar. Anlamlı özniteliklerini seçin ve sonra puan ve özniteliklerini derecelendirmek için kullanılan yöntemleri hakkında daha fazla bilgi için bkz: Özellik seçimi'veri madenciliği.

Veri madenciliği modelleri için ortak bir sorun modeli eğitim veri küçük farklılıklar çok duyarlı olur, içinde olduğu söylenir durum over-fitted veya over-trained.Overfitted bir model için diğer veri kümelerini Genelleştirilmiş olamaz.Herhangi belirli bir veri küme üzerinde fazla uygunluk önlemek için Microsoft karar ağaçlar algoritması kullanır ağaç. büyüme denetlemek için kullanılan tekniklerBir daha kapsamlı açıklama için nasıl Microsoft Bkz: karar ağaçlar algoritma works, Microsoft karar ağaçlar algoritması Teknik Başvurusu.

Kesikli sütun tahmin etmek

Bu yolla Microsoft karar ağaçlar algoritma oluşturur bir ağaç için ayrı bir tahmin edilebilir sütun gösterildiği kullanarak bir çubuk grafik.Aşağıdaki diyagram çizim bir çubuk grafik gösterir bir tahmin edilebilir sütun, bisiklet alıcıların bir giriş sütun karşı geçerlilik süresi.Çubuk grafik bir kişinin yaşı o kişinin bir bisiklet satın alacağınız olup olmadığını ayırt yardımcı gösterir.

Microsoft Karar Ağaçları algoritması çubuk grafiği

Şemada gösterilen korelasyon neden Microsoft karar ağaçlar algoritma oluşturmak yeni bir düğüm modeli.

Karar ağacı düğümü

Yeni düğümler için bir modeli algoritması ekler gibi bir ağaç yapısı oluşturuldu.Üst düğüm ağacının çözümlemesini açıklar tahmin edilebilir sütun müşterilerin genel popülasyon için.Model büyümesine devam ettikçe, tüm sütunları algoritma dikkate alır.

Sürekli sütunları tahmin etmek

Zaman Microsoft karar ağaçlar algoritma oluşturur sürekli üzerinde temel bir ağaç tahmin edilebilir sütun, her düğüm bir regresyon formül var.Bir noktada, olmayan-doğrusallık regresyon formüldeki bir bölünme oluşur.Örneğin, aşağıdaki şema göz önünde bulundurun.

Doğrusal olmama durumunu gösteren birden fazla regresyon satırı

Diyagramı, tek bir satır kullanarak veya iki bağlı çizgileri kullanarak modellenebilir verileri içerir.Ancak, tek bir satır verileri temsil eden, zayıf iş yapmak.Bunun yerine, iki satır kullanırsanız, model verileri yakın, çok daha iyi iş yapmak.Burada iki satır birlikte gelen noktası doğrusallık noktasıdır ve burada bir karar ağacı modeli düğümünde ayırırsınız noktasıdır.Örneğin, olmayan-doğrusallık önceki grafikte noktasına karşılık gelen düğümü tarafından Aşağıdaki diyagramda temsil.İki denklemler, regresyon denklemi iki satırın temsil eder.

Bir doğrusal olmama durumu noktasını eden temsil denklem

Karar ağacı modeller için gerekli veri

Karar ağaçları modeli kullanmak için veri hazırladığınızda ne kadar veri gerekli ve verileri nasıl kullanıldığı gibi belirli algoritması gereksinimleri anlamanız gerekir.

Karar ağaçları modeli gereksinimleri aşağıdaki gibidir:

  • Tek bir key sütunher model, her kaydı benzersiz olarak tanımlayan bir sayı veya metin sütun içermelidir.Bileşik anahtarları izin verilmez.

  • Öngörülebilir sütunen az bir tahmin edilebilir sütun gerektirir.Birden çok öngörülebilir özniteliği bir modele dahil ve öngörülebilir öznitelikleri farklı türde sayısal ya da ayrı olabilir.Ancak, öngörülebilir öznitelikleri artırıldığında işleme artırabilir saat.

  • Giriş sütunlarıayrık ve sürekli giriş sütun gerektirir.Giriş öznitelikleri artırıldığında etkiler işleme saat.

İçerik türleri ve karar ağacı modeller için desteklenen veri türleri hakkında daha ayrıntılı bilgi için gereksinimleri bölümüne bakın Microsoft karar ağaçlar algoritması Teknik Başvurusu.

Karar ağaçları modeli görüntüleme

Model keşfetmek için kullanabileceğiniz Microsoft ağacı Görüntüleyici.Birden fazla ağaçları model oluşturması durumunda, Görüntüleyici öngörülebilir her öznitelik için servis taleplerini nasıl sınıflandırılır bir dökümünü gösterir ve bir ağaç seçebilirsiniz.Etkileşim ağaçlarının bağımlılık ağ Görüntüleyicisi'ni kullanarak da görüntüleyebilirsiniz.Daha fazla bilgi için bkz: Microsoft ağacı Görüntüleyici ile bir araştırma modeli görüntüleme.

Herhangi bir şube veya düğüm ağacında hakkında daha fazla ayrıntı öğrenmek isterseniz, de modeli kullanarak göz atabilirsiniz Microsoft Genel içerik ağacı Görüntüleyici.Tüm değerleri her düğümde bulunan, her bir olasılıklar için dağıtım modeli içerir saklanan içerik düzey ağaç ve sürekli öznitelikler için regresyon formül.Daha fazla bilgi için bkz: Karar ağacı modeller için içerik modeli mining (Analysis Services - veri madenciliği).

Öngörüler oluşturma

Model işlendikten sonra sonuçlar olarak saklanan bir küme desenleri ve ilişkileri keşfetmek ve Öngörüler yapmak için kullanabileceğiniz istatistikleri.

Karar ağaçları modeli ile kullanmak için sorgu örnekleri için bkz: Karar ağaçlar modeli sorgulama (- Analysis Services veri madenciliği).

Veri madenciliği modelleri sorgular oluşturma hakkında genel bilgi için bkz: Veri madenciliği modelleri sorgulama (- Analysis Services veri madenciliği).

Açıklamalar

  • In öngörü modeli İşaretleme Dili (veri madenciliği modelleri oluşturmak için pmml) destekler.

  • detaylandırma destekler.

  • olap veri madenciliği modelleri kullanımını ve veri madenciliği boyutları oluşturulmasını destekler.