Microsoft Logistic regresyon algoritması Teknik Başvurusu

The Microsoft Logistic Regression algorithm is a variation of the Microsoft Neural Network algorithm, where the HIDDEN_NODE_RATIO parameter is set to 0.Bu ayar, gizli bir katmanda içermez ve bu nedenle logistic regresyon için eşdeğer olan bir neural ağ modeli oluşturacak.

Logistic regresyon algoritması Microsoft uygulaması

Sadece iki durumu tahmin edilebilir sütun içerir, ancak hala bir regresyon çözümlemesi yapma giriş sütun öngörülebilir sütun belirli bir durumdaki içerecektir olasılığı ile ilgili istediğiniz varsayalım.Aşağıdaki diyagramda, elde durumları için 1 ve 0 atarsanız, sonuçlar gösterilmektedir tahmin edilebilir sütun, sütun belirli bir durum olması ve bir doğrusal regresyon bir giriş değişkeni karşı gerçekleştirmek olduğunu olasılığını hesaplamak.

Doğrusal regresyon kullanılarak yetersiz bir şekilde modellenmiş veri

x ekseni Bir giriş sütun değerleri içerir.Y ekseni bir olasılıklar içerir, tahmin edilebilir sütun bir durum veya başka olacaktır.Bu olanlar, maksimum ve minimum değerler sütununun olmasına rağmen doğrusal regresyon sütun 0 ve 1 arasında olacak şekilde sınırlamak değil olduğunu sorundur.Bu sorunu çözmenin bir yolu, logistic regresyon gerçekleştirmektir.Düz bir çizgi oluşturmak yerine, logistic regresyon çözümlemesi "s" oluşturur maksimum ve minimum kısıtlamaları içeren eğrisi şeklinde.Örneğin, önceki örnekte kullanılan aynı verilere karşı bir logistic regresyon gerçekleştirirseniz elde edecek sonuçlar aşağıdaki diyagramda gösterilmiştir.

Mantıksal regresyon kullanılarak modellenmiş veri

Nasıl bir eğri hiçbir zaman 0 altına veya üstüne 1 gider dikkat edin.Logistic regresyon giriş sütunları durumunu belirlemede önemli olduğunu açıklamak için kullanabileceğiniz tahmin edilebilir sütun.

Özellik seçimi

Özellik seçimi otomatik olarak analiz geliştirmek ve işleme yükü azaltmak için tüm Analysis Services veri madenciliği algoritmaları tarafından kullanılır.Logistic regresyon modeli özellik seçimi için kullanılan yöntem veri türüne bağlıdır öznitelik.Logistic regresyon Microsoft Neural ağ algoritması üzerinde esas aldığından, alt küme küme küme kümesini neural ağları için geçerli özellik seçimi yöntemleri kullanır.Daha fazla bilgi için bkz: Özellik seçimi'veri madenciliği.

Skor girişleri

Skor neural ağ bağlamında modeli veya logistic regresyon modeli bir değerler küme verileri yok değerleri dönüştürme işlemini kullanan aynı ölçek ve bu nedenle birbiriyle karşılaştırılabilir demektir.Örneğin, [çocuklarının sayısı] için girişleri 0-5 aralığında iken girdileri gelir aralık 0'dan 100. 000 varsayalım.Bu dönüştürme işlemi yapabilirsiniz puan, ya da karşılaştırmak, her giriş değerleri arasındaki fark ne olursa olsun önemi.

Eğitim küme içinde görünür her durum için model bir giriş oluşturur.Eksik durumu, en az bir kez Eğitim küme içinde görünüyorsa, kesikli veya discretized girdileri eksik durumu temsil etmek için ek bir giriş oluşturulur.Sürekli giriş için en fazla iki giriş düğüm oluşturulur: Eksik değerleri için eğitim veri varsa ve bir varolan veya null olmayan, tüm değerler için giriş.Her girdi z-score normalleştirme yöntem kullanılarak bir sayısal biçim ölçeklenir (x – μ) / STDSAPMA.

Z-score normalleştirme sırasında (μ) ortalama ve standart sapma tam Eğitim küme elde edilir.

Sürekli değerleri

Değer: (x – μ) / σ / / x kodlanan gerçek değeri)

Devamsızlık değerdir:    -   μ/σ / / olumsuz mu sigma tarafından bölünmüş)

Ayrık değerler

Μ = p – (önceki bir duruma olasılık)

STDSAPMA = sqrt(p(1-p))

Bugünkü değerdir:     (1 – μ)/σ// (One minus mu) divided by sigma)

Devamsızlık değerdir:     (– μ)/σ// negative mu divided by sigma)

Logistic regresyon katsayıları anlama

Çeşitli yöntemler vardır logistic regresyon gerçekleştirmek için istatistiksel toplanma Masası, ancak önemli bir bölümünü yöntemlerinin modelinin uyma değerlendiriliyor.Güzelliklerine çeşitli-için-uyma istatistikleri teklif, bunları büyük olasılıkla oranları ve covariate modelleri arasında.Nasıl bir tartışma ölçü uyma bir model olduğu; bu konunun kapsam dışındadır Ancak, değer modelinde katsayıların almak ve bunları uyma kıstası tasarlamak için kullanın.

Not

Logistic regresyon modeli bir parçası olarak oluşturulan katsayıları durumuna düşme riskinizi oranları temsil eder ve bu şekilde yorumlanmalıdır.

Katsayılar model grafikteki her düğüm için söz konusu düğüm için girdileri ağırlıklı bir toplamını temsil eder.Logistic regresyon modelinde, gizli katmanda boştur; Bu nedenle, katsayılar,'çıktı düğümlerin depolanan yalnızca küme vardır.Aşağıdaki sorguyu kullanarak Katsayıların değerleri alabilir:

SELECT FLATTENED [NODE_UNIQUE NAME],
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE
FROM NODE_DISTRIBUTION) AS t
FROM <model name>.CONTENT
WHERE NODE_TYPE = 23

Her değer çıktı için bu sorgu katsayıları ve ilgili giriş düğüme geri işaret eden Kimliği döndürür.Daha çıktı ve kesme noktası değeri içeren bir satır döndürür.Her x kendi katsayısı (CI) olsa da, aşağıdaki formüle göre hesaplanan "ücretsiz" katsayısı (Co), iç içe geçmiş tablo da içeren giriş:

f(x) = x 1 * C1 + x 2 * C2 +... + Xn * Cn + 0 x

Etkinleştirme: Exp(F(X)) / (1 + exp(F(X)))

Daha fazla bilgi için bkz: Logistic regresyon modeli sorgulama (- Analysis Services veri madenciliği).

Logistic regresyon algoritma özelleştirme

The Microsoft logistic regression algorithm supports several parameters that affect the behavior, performance, and accuracy of the resulting mining model.Girdi olarak kullanılan sütunlar üzerinde modelleme bayrakları ayarlayarak da modeli davranışını değiştirebilirsiniz.

Algoritma parametreleri ayarlama

Aşağıdaki tablo Microsoft Logistic regresyon algoritması ile kullanılan parametrelerini açıklar.

  • HOLDOUT_PERCENTAGE
    gizleme hata hesaplamak için kullanılan eğitim veri içinde servis taleplerinin yüzdesini belirtir.holdout_percentage, araştırma modeli eğitimi sırasında durdurma ölçütleri bir parçası olarak kullanılır.

    Varsayılan değer 30'dir.

  • HOLDOUT_SEED
    Sözde oluşturucu rasgele belirlerken temel yapmak için kullanılacak bir numarasını belirtir gizleme verisi.holdout_seed ise küme 0, modeli içeriği aynı reprocessing sırasında kalmasını güvence altına almak için araştırma modeli, adına dayanarak tohum algoritma oluşturur.

    Varsayılan değer 0'dir.

  • MAXIMUM_INPUT_ATTRIBUTES
    Algoritma işleyebilir giriş özniteliklerini tanımlar önce özellik seçimi çağırır.Bu değer özellik seçimi devre dışı bırakmak için 0 olarak ayarlayın.

    Varsayılan değer 255'dir.

  • MAXIMUM_OUTPUT_ATTRIBUTES
    Algoritma işleyebilir çıkış özniteliklerini tanımlar önce özellik seçimi çağırır.Bu değer özellik seçimi devre dışı bırakmak için 0 olarak ayarlayın.

    Varsayılan değer 255'dir.

  • MAXIMUM_STATES
    Algoritmasını destekler öznitelik durumları sayısı üst sınırını belirtir.Bir öznitelik olan durumları sayısı üst sınırını durumları büyükse, algoritma en popüler durumlarını özniteliğini kullanır ve kalan durumları yoksayar.

    Varsayılan değer 100'dir.

  • SAMPLE_SIZE
    Model eğitmek için kullanılan servis taleplerinin sayısını belirtir.Algoritma sağlayıcı bu sayı veya gizleme_percentage parametresi tarafından belirtilen gizleme yüzde içerdiği durumlarda toplam yüzdesini kullanır hangi değer daha küçüktür.

    Başka bir deyişle, holdout_percentage ise küme hangisi daha küçük ise, 30'a, bu parametrenin değeri veya servis taleplerini toplam sayısının yüzde 70 eşit bir değer algoritması kullanır.

    Varsayılan değer 10000'dir.

Bayrakları modelleme

İle kullanmak için aşağıdaki modelleme bayrakları desteklenir Microsoft Logistic regresyon algoritması.

  • BOŞ DEĞİL
    Sütun null değeri içeremez gösterir.Analysis Services null değer modeli eğitim sırasında karşılaşırsa bir hata neden olur.

    Araştırma yapısı sütunlar için geçerlidir.

  • MODEL_EXISTENCE_ONLY
    Sütun iki olası durumlar sahip olarak kabul edilir gelir: Missingand Existing.Null değeri eksik bir değerdir.

    Araştırma modeli sütun uygulanır.

Gereksinimler

Logistic regresyon modeli anahtar sütunu, giriş sütunlar ve en az birini içermelidir tahmin edilebilir sütun.

Giriş ve öngörülebilir sütunları

The Microsoft Logistic Regression algorithm supports the specific input column content types, predictable column content types, and modeling flags that are listed in the following table.İçerik türleri kullanıldığında anlamları hakkında daha fazla bilgi için bir araştırma modeli, bkz: İçerik türleri (veri madenciliği).

Column

İçerik türleri

Giriş öznitelik

Sürekli, kesikli, Discretized, anahtar, tablo

Öngörülebilir öznitelik

Sürekli, kesikli, Discretized