Microsoft karar ağaçlar algoritması Teknik Başvurusu

The Microsoft Decision Trees algorithm is a hybrid algorithm that incorporates different methods for creating a tree, and supports multiple analytic tasks, including regression, classification, and association.Microsoft karar ağaçlar algoritması modelleme ayrık ve sürekli öznitelikleri destekler.

Bu konuda algoritma uygulaması açıklar, farklı görevler için algoritma davranışını özelleştirmek nasıl açıklar ve karar ağacı modeller sorgulama hakkında ek bilgilere bağlantılar sağlar.

Karar ağaçlar algoritma uygulaması

Microsoft karar ağaçlar algoritması Bayesian ağlar'bileşiminden önceden bilgi ve istatistik verilerinin öğrenir.Bilgi değeri Değerlendirme için metodoloji algoritması önemli bir parçası olan priors öğrenme için gerekli.Yaklaşım varsayımına dayanır olasılığını eşdeğerlik, aksi takdirde aynı onaylamaları, koşullu bağımsızlığı temsil eden ağ yapıları ayırt etmek için bu verileri diyor yardımcı olmalıdır.

Her durum bir tek Bayesian önceki ağ ve güvenirlik o ağ için tek bir ölçü olduğu varsayılır.Bu önceki ağlar kullanarak, algoritma sonra göreli hesaplar posterior olasılıklar , ağ geçerli eğitim veri yapıları ve posterior en yüksek olasılık değerleriyle sahip ağ yapıları tanımlar.

Microsoft karar ağaçlar algoritması iyi ağaç hesaplamak için farklı yöntemler kullanır.Kullanılan yöntem doğrusal regresyon, sınıflandırma ya da ilişkiyi analiz olabilecek göreve bağlıdır.Tek bir model için farklı öngörülebilir öznitelikleri birden çok ağacı içerebilir.Üstelik, her ağaç kaç öznitelikleri ve değerleri veri vardır bağlı birden fazla dalı içerebilir.Şekil ve belirli bir modelinde yerleşik ağaç derinliği puanlama yöntem ve kullanılmış olan diğer parametreler bağlıdır.Parametrelerindeki değişiklikler burada düğümleri bölmek de etkileyebilir.

Aðacý oluþturmak

Microsoft karar ağaçlar algoritması oluşturduğunda küme olası giriş değerleri, gerçekleştirdiği feature selection öznitelikleri ve değerleri en iyi bilgi ve değerlendirilmesini kaldırır çok nadir değerleri sağlayan tanımlamak için.Algoritma değerlere de gruplar gözlerigruplandırmalar performansını en iyi duruma getirmek için bir birim olarak işlenen değerleri oluşturmak için.

Bir ağaç bir giriş ve hedeflenen sonucu arasındaki bağıntıları belirlenerek yerleşik olarak bulunur.Tüm öznitelikler ilişkili sonra sonuçlar en temiz bir şekilde ayıran tek öznitelik algoritmasını tanımlar.Bu en iyi renk ayrımı noktası bilgi kazancı hesaplayan denklemi kullanılarak ölçülür.Bilgi kazancı için en iyi puanı öznitelik, servis taleplerini daha fazla ağaç olamaz kadar aynı işlem tarafından çözümlenen yinelemeli olarak bölme sonra olan alt bölmek için kullanılır.

Kazanç parametrelere bağlıdır bilgileri değerlendirmek için kullanılan tam Denklem küme algoritması, öngörülebilir sütun veri türü ve veri türü giriş oluşturduğunuzda.

Kesikli ve sürekli girişleri

Öngörülebilir öznitelik ayrı ayrı sinyalidir, sayım sonuçlarını giriş başına bir matris oluşturma ve puanlar her hücre için matrisin içinde üretme bir konudur.

Ancak, öngörülebilir öznitelik kesikli ve sürekli sinyalidir, giriş verileri sürekli sütunları otomatik olarak discretized.Varsayılan değer kabul edebilir ve Analysis Services kullandığınızı en iyi birkaç depo veya içinde sürekli girişleri discretized ayarlayarak bir şekilde kontrol edebilirsiniz DiscretizationMethod ve DiscretizationBucketCount özellikleri.Daha fazla bilgi için bkz: Nasıl yapılır: Araştırma modelinde bir sütun Discretization Değiştir.

Sürekli öznitelikler için karar ağacı nerede böler belirlemek için doğrusal regresyon algoritması kullanır.

Öngörülebilir öznitelik, sürekli sayısal veri türü olduğunda, özellik seçimi çýktýlar gibi olası sonuçlarını azaltmak ve daha hızlı modelini oluşturmak uygulanır.Özellik seçimi için Eşiği değiştirmek ve böylece artırmak veya MAXIMUM_OUTPUT_ATTRIBUTES parametreyi ayarlayarak olası değerleri sayısını azaltın.

Nasıl hakkında bir daha detained açıklama için Microsoft karar ağaçlar algoritma çalışır kesikli öngörülebilir sütunlar ile Bkz: öğrenme Bayesian ağlar: Bilgi ve istatistiksel veri birleşimi.Nasıl hakkında daha fazla bilgi için Microsoft karar ağaçlar algoritması sürekli tahmin edilebilir sütun çalıştığını görmek, ekin Zaman serisi analizi için Autoregressive ağaç modelleri.

Skor yöntemleri ve özellik seçimi

Microsoft karar ağaçlar algoritma bilgileri kazanç Skor için üç formülleri sunar: Shannon'ın entropi k2 önceki ile Bayesian ağı ve priors, tek tip bir Dirichlet dağılımı ile Bayesian ağı.Üçünü de veri madenciliği de kurulan alan.Farklı parametreler ve en iyi sağlayan belirlemek için Skor yöntemleri ile denemeler yapmanızı öneririz sonuçlar.Bu Skor yöntemleri hakkında daha fazla bilgi için bkz: Özellik seçimi.

Tüm Analysis Services veri madenciliği algoritmaları çözümleme geliştirmek ve azaltmak özellik seçimi otomatik olarak kullanişleme yükü. Özellik seçimi için kullanılan yöntem modeli oluşturmak için kullanılan algoritma bağlıdır.Karar ağaçları modeli için özellik seçimi denetlemek algoritması MAXIMUM_INPUT_ATTRIBUTES ve MAXIMUM_OUTPUT parametreleridir.

Algoritma

Analiz yöntemi

Açıklamalar

Karar ağaçları

İnterestingness puanı

Shannon'ın entropi

k2 önceki ile Bayesian

(Varsayılan) Tekdüzen önceki ile Bayesian Dirichlet

Tüm sütunları ikili olmayan sürekli değer içermiyorsa, interestingness puanı tutarlılığı sağlamak için tüm sütunlar için kullanılır.Aksi halde varsayılan veya belirtilen yöntem kullanılır.

Doğrusal regresyon

İnterestingness puanı

Sadece sürekli sütunları desteklediğinden doğrusal regresyon interestingness, yalnızca kullanır.

Ölçeklenebilirlik ve performans

Sınıflandırma önemli veri madenciliği stratejisidir.Genellikle, servis taleplerini sınıflandırmak için gerekli bir bilgi miktarını giriş kayıt sayısı için orantılı büyür.Bu sınıflandırılabilir verinin boyutunu sınırlar.Microsoft karar ağaçlar algoritması kullanır kullanarak bu sorunları gidermek için aşağıdaki yöntemlerden performansını artırmak ve bellek sınırlamaları ortadan kaldırmak:

  • Özellik öznitelikleri seçimi en iyi duruma getirmek için seçim.

  • Ağaç büyüme denetlemek için Skor Bayesian.

  • Sürekli öznitelikler için binning en iyileştirme.

  • Dinamik gruplandırma en önemli değerleri belirlemek için giriş değerleri.

Microsoft karar ağaçlar algoritması, hızlı ve ölçeklenebilir ve kolayca parallelized için tüm işlemciler tek tutarlı bir modelini oluşturmak için birlikte çalışır, yani tasarlanmıştır.Bu özelliklerle birlikte karar ağacı Sınıflandırıcısı veri madenciliği için ideal bir araç yapar.

Performans kısıtlamalarını ciddi ise, işleme artırmak mümkün olabilir saat aşağıdaki yöntemleri kullanarak karar ağacı model eğitim sırasında.Bunu yaparsanız, ancak işleme performansını artırmak için öznitelikleri ortadan modelinin sonuçlar değiştirmek ve büyük olasılıkla daha az temsilcisi toplam sağlamak olduğunu unutmayın popülasyon.

  • Ağaç büyüme sınırlamak için COMPLEXITY_PENALTY parametrenin değerini artırın.

  • İlişki modellerinde yerleşiktir ağaçları sınırlamak için öğe sayısını sınırla.

  • fazla uygunluk önlemek için MINIMUM_SUPPORT parametrenin değerini artırın.

  • 10 Veya daha az herhangi bir öznitelik için ayrı değerleri sayısını kısıtlayın.Farklı modelleri farklı şekillerde gruplandırma değerleri deneyebilirsiniz.

    Not

    You can use the data exploration tools available in SQL Server 2008 Integration Services to visualize the distribution of values in your data and group your values appropriately before beginning data mining.Daha fazla bilgi için bkz: Görev ve Görüntüleyicisi profil oluşturma verileri verilerle profil oluşturma.Ayrıca Excel 2007 için veri Mining eklentiler, keşfetmek, Grup ve Microsoft Excel'deki verileri relabel.

Karar ağaçlar algoritma özelleştirme

The Microsoft Decision Trees algorithm supports parameters that affect the performance and accuracy of the resulting mining model.Ayrıca küme araştırma modeli sütunlar üzerinde bayrakları modelleme veya mining yapısı sütun verilerin işlenme biçimini denetlemek için.

Algoritma parametreleri ayarlama

Aşağıdaki tablo ile kullanabileceğiniz parametreleri açıklar Microsoft karar ağaçlar algoritması.

  • COMPLEXITY_PENALTY
    Büyüme oranını kontrol karar ağacı.Düşük bir değer bölmelerini sayısını artırır ve yüksek bir değer bölmelerini sayısını azaltır.Varsayılan değer belirli bir model için öznitelik sayısı aşağıdaki listede açıklandığı gibi temel alır:

    • İçin 1'den 9 öznitelikleri, 0,5 varsayılandır.

    • İçin 10'den 99 öznitelikleri, 0,9 varsayılandır.

    • 100 Veya daha fazla öznitelik için 0.99 varsayılandır.

  • FORCE_REGRESSOR
    Belirtilen sütun algoritması tarafından hesaplanan sütunları önemini bakılmaksızın regressors olarak kullanılacak algoritma zorlar.Bu parametre yalnızca sürekli öznitelik tahmin etmek karar ağaçları için kullanılır.

    Not

    Bu parametreyi ayarlayarak algoritma öznitelik regresör kullanmayı denemek için zorlayın.Ancak, öznitelik gerçekte son modelinde bir regresör olarak kullanılıp kullanılmadığını bağlıdır sonuçlar incelemenin.Hangi sütunların regressors modeli içeriği sorgulayarak kullanılmış bulabilirsiniz.

    [SQL Server Enterprise]

  • MAXIMUM_INPUT_ATTRIBUTES
    Algoritma işleyebilir giriş özniteliklerini tanımlar önce özellik seçimi çağırır.

    Varsayılan değer 255'dir.

    Bu değer özellik seçimi devre dışı bırakmak için 0 olarak ayarlayın.

    [SQL Server Enterprise]

  • MAXIMUM_OUTPUT_ATTRIBUTES
    Algoritma işleyebilir çıkış özniteliklerini tanımlar önce özellik seçimi çağırır.

    Varsayılan değer 255'dir.

    Bu değer özellik seçimi devre dışı bırakmak için 0 olarak ayarlayın.

    [SQL Server Enterprise]

  • MINIMUM_SUPPORT
    İçinde bir bölünme oluşturmak için gereken en az yaprak servis taleplerinin sayısını belirler karar ağacı.

    Varsayılan değer 10'dir.

    Dataset overtraining önlemek için çok büyükse, bu değeri arttırmanız gerekebilir.

  • SCORE_METHOD
    Bölünmüş puanı hesaplamak için kullanılan yöntem belirler.Aşağıdaki seçenekler kullanılabilir:

    No

    Ad

    1

    Entropi

    2

    k2 önceki ile Bayesian

    3

    Bayesian Dirichlet eşdeğer (bde) önceki

    (varsayılan)

    Varsayılan değer 3'dir.

    Açıklama Bu Skor yöntemleri için bkz: Özellik seçimi.

  • SPLIT_METHOD
    Düğüm bölmek için kullanılan yöntem belirler.Aşağıdaki seçenekler kullanılabilir:

    No

    Ad

    1

    Binary: Öznitelik değerleri gerçek sayısı ne olursa olsun, iki dalı ağaç ayrýlmalýdýr gösterir.

    2

    Complete: Ağaç öznitelik değerleri gibi çok bölmelerini oluşturabilirsiniz gösterir.

    3

    Both: Analysis Services bir ikili veya tam bölünme en iyi sonuçlar için kullanılıp kullanılmayacağını olduğunu belirler.

    Varsayılan değer 3'dir.

Bayrakları modelleme

The Microsoft Decision Trees algorithm supports the following modeling flags.Araştırma yapısı veya araştırma modeli oluşturduğunuzda belirtmek için modelleme bayrakları tanımlamak nasıl değerleri her sütun çözümleme sırasında işlenir.Daha fazla bilgi için bkz: Modelleme bayrakları (veri madenciliği).

Bayrak modelleme

Açıklama

MODEL_EXISTENCE_ONLY

Sütun iki olası durumlar sahip olarak kabul edilir gelir: Missingand Existing.Null değeri eksik bir değerdir.

Araştırma modeli sütunlar için geçerlidir.

BOŞ DEĞİL

Sütun null değeri içeremez gösterir.Analysis Services null değer modeli eğitim sırasında karşılaşırsa bir hata neden olur.

Araştırma yapısı sütunlar için geçerlidir.

Karar ağacı model içinde regressors

Kullansanız bile Microsoft doğrusal regresyon algoritması, hiçbir karar ağacı modeli sürekli sayısal girişleri ve çıkışları olan potansiyel içerebilir düğümleri temsil bir gerileme sürekli öznitelik.

Belirtmek gereken bir sütun bir regresör sürekli sayısal veri temsil eder.The Microsoft Decision Trees algorithm will automatically use the column as a potential regressor and partition the dataset into regions with meaningful patterns even if you do not set the REGRESSOR flag on the column.

Bununla birlikte, belirli bir regresör algoritma kullanacağı güvence altına almak için forced_regressor parametresini kullanabilirsiniz.Bu parametre yalnızca kullanılabilir Microsoft karar ağaçları ve Microsoft doğrusal regresyon algoritmaları.Zaman, küme modelleme bayrak, algoritma formun regresyon denklemi bulmaya çalışır bir * C1 + b * C2 +... desenleri düğümler ağacı sığdırmak için.Kalanlar toplamı hesaplanır ve sapma çok fazlaysa, bölünmüş ağaç zorlanır.

Örneğin müşteri satın alma davranışı kullanarak tahmin etmek, gelir bir öznitelik ve sütun regressor modelleme bayrak küme, algoritması ilk kez dener uyma gelir standart regresyon formül kullanarak değerleri.Sapma çok güzel, regresyon formül terk ve ağaç üzerindeki başka öznitelik bölecek.Karar ağacı algoritma sonra dener uyma bir regresör gelir her bölme sonra dalları için.

Gereksinimler

Karar ağacı modeli anahtar sütunu, giriş sütunlar ve en az birini içermelidir tahmin edilebilir sütun.

Giriş ve öngörülebilir sütunları

The Microsoft Decision Trees algorithm supports the specific input columns and predictable columns that are listed in the following table.İçerik türleri kullanıldığında anlamları hakkında daha fazla bilgi için bir araştırma modeli, bkz: İçerik türleri (veri madenciliği).

Column

İçerik türleri

Giriş öznitelik

Sürekli, döngüsel, kesikli, Discretized, anahtar, sipariş, tablosundaki

Öngörülebilir öznitelik

Sürekli, döngüsel, kesikli, Discretized, sipariş, tablosundaki

Not

Cyclical ve Sipariş edilmiş içerik türleri desteklenir, ancak bunları olarak ayrık değerler değerlendirir ve özel işlem gerçekleştirmek.