Doğrusal regresyon modeller için içerik modeli mining (Analysis Services - veri madenciliği)

Bu konuda kullanan modelleri belirli araştırma modeli içeriği açıklar Microsoft doğrusal regresyon algoritması.Bir genel açıklama içerik araştırma modeli için tüm model türleri için bkz: İçerik modeli mining (Analysis Services - veri madenciliği).

Doğrusal regresyon modeli yapısını anlama

Doğrusal regresyon modeli son derece basit bir yapısı vardır.Her model, modeli ve meta veriler temsil eden bir tek ana düğüm ve regresyon ağaç düğümü vardır (node_type = 25), her öngörülebilir öznitelik için regresyon formülü içeren.

Doğrusal regresyon için model yapısı

Doğrusal regresyon modeller olarak aynı algoritmayı kullanmak Microsoft karar ağaçları, ancak farklı parametreler ağaç kısıtlamak için kullanılır ve yalnızca sürekli öznitelikler girdi olarak kabul edildiğiAncak, doğrusal regresyon modelleri tabanlı olduğundan karar ağaçlar algoritması, doğrusal regresyon modelleri kullanılarak görüntülenir Microsoft karar ağacı Görüntüleyicisi.Bilgi için bkz: Microsoft ağacı Görüntüleyici ile bir araştırma modeli görüntüleme.

Sonraki bölümde, regresyon formül düğümünde bilgileri yorumlamak açıklar.Bu bilgiler yalnızca doğrusal regresyon modeller için aynı zamanda eksiklikleri ağacı bölümünü içeren karar ağacı modelleri için geçerlidir.

Bir doğrusal regresyon modeli için içerik modeli

Bu bölümde, doğrusal regresyon için belirli yakınlık derecesine sahip yalnızca bu sütunlar araştırma modeli içerik için ayrıntı ve örnekler sağlar.

Şema satır kümesi genel amaçlı sütunlar hakkında daha fazla bilgi için bkz: İçerik modeli mining (Analysis Services - veri madenciliği).

  • MODEL_CATALOG
    Model depolandığı veritabanının adı.

  • MODEL_ADI
    Modelinin adı.

  • ÖZNİTELİK_ADÝ
    **Kök düğüm:**boş

    **Regresyon düğüm:**öngörülebilir öznitelik adı.

  • NODE_NAME
    Her zaman olduğu gibi NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Düğüm modeli içinde benzersiz tanıtıcısı.Bu değer değiştirilemez.

  • NODE_TYPE
    Doğrusal regresyon modeli aşağıdaki düğüm türleri çıktısını verir:

    Düğüm türü No

    Tür

    Açıklama

    25

    Regresyon ağaç kök

    Giriş ve çıkış değişken arasındaki ilişkiyi açıklayan formülünü içerir.

  • NODE_CAPTION
    Etiket veya düğüm ile ilişkili bir resim yazısı.Bu özellik öncelikle görüntüleme amaçlıdır.

    **Kök düğüm:**boş

    **Regresyon düğüm:**tüm.

  • CHILDREN_CARDINALITY
    Düğüm olan çocuklar sayısı tahmini.

    **Kök düğüm:**regresyon düğüm sayısını gösterir.Bir regresyon düğüm her modeli öngörülebilir öznitelik için oluşturulur.

    **Regresyon düğüm:**her zaman 0.

  • PARENT_UNIQUE_NAME
    Düğümün üst benzersiz adı.Kök tüm düğümler için null döner düzey.

  • NODE_DESCRIPTION
    Düğüm açıklaması.

    **Kök düğüm:**boş

    **Regresyon düğüm:**tüm.

  • NODE_RULE
    Doğrusal regresyon modeller için kullanılmaz.

  • MARGINAL_RULE
    Doğrusal regresyon modeller için kullanılmaz.

  • NODE_PROBABILITY
    Bu düğüm ile ilişkili olasılık.

    **Kök düğüm:**0

    **Regresyon düğüm:**1

  • MARGINAL_PROBABILITY
    Üst düğüm düğümden ulaşmasını olasılık.

    **Kök düğüm:**0

    **Regresyon düğüm:**1

  • NODE_DISTRIBUTION
    Bir iç içe tablo düğümünde değerlerle ilgili istatistikleri sağlar.

    **Kök düğüm:**0

    Regresyon düğüm:, regresyon formül oluşturmak için kullanılan öğeler içeren bir tablo.Regresyon düğüm değeri aşağıdaki türleri içerir:

    VALUETYPE

    1 (Eksik)

    3 (Sürekli)

    7 (Katsayısı)

    8 (Puan kazanç)

    9 (İstatistik)

    11 (Kesme)

  • NODE_SUPPORT
    Bu düğüm destek servis taleplerinin sayısı.

    **Kök düğüm:**0

    **Regresyon düğüm:**eğitim durumlarda sayısı.

  • MSOLAP_MODEL_COLUMN
    Öngörülebilir öznitelik adı.

  • MSOLAP_NODE_SCORE
    NODE_PROBABILITY ile aynı

  • MSOLAP_NODE_SHORT_CAPTION
    Etiket görüntüleme amacıyla kullanılır.

Açıklamalar

Oluşturduğunuzda, bir modeli kullanarak Microsoft doğrusal regresyon algoritması, veri madenciliği motoru oluşturur özel bir örnek bir karar ağaçları modeli ve tek bir düğümü eğitim verileri içerecek şekilde ağaç sınırlamak parametrelerini sağlayanTüm sürekli girişleri bayrak ve olası regressors, ancak yalnızca bu regressors değerlendirilen, uyma veri son model içinde regressors olarak kalır.Analiz hiç bir tek regresyon formül her regresör veya hiçbir regresyon formül üretir.

Tam regresyon formülde görebilirsiniz Mining gösterge,'ı tıklatarak (tümü) düğümü Microsoft ağacı Görüntüleyici.

Sürekli öngörülebilir bir öznitelik içeren bir karar ağaçları modeli oluşturduğunuzda da, bazen ağaç regresyon ağaç düğümlerini özellikleri paylaşan regresyon düğümü vardır.

İçin sürekli öznitelikleri düğüm dağıtım

Regresyon düğüm önemli bilgilerin çoğunu NODE_DISTRIBUTION içinde yer alan tablo.NODE_DISTRIBUTION düzeni aşağıdaki örnekte gösterilmektedir tablo.Bu örnekte, hedeflenen posta araştırma yapısı yaş üzerinde temel müşteri gelir öngörür bir doğrusal regresyon modeli oluşturmak için kullanıldı.Çünkü kolayca varolan kullanarak oluşturulmadan yalnızca gösterim amacıyla modelidir AdventureWorks2008R2 örnek verileri ve araştırma yapısı.

ÖZNİTELİK_ADÝ

ATTRIBUTE_VALUE

DESTEK

OLASILIK

VARYANS

VALUETYPE

Yıllık gelir

Eksik

0

0.000457142857142857

0

1

Yıllık gelir

57220.8876687257

17484

0.999542857142857

1041275619.52776

3

Geçerlilik süresi

471.687717702463

0

0

126.969442359327

7

Geçerlilik süresi

234.680904692439

0

0

0

8

Geçerlilik süresi

45.4269617936399

0

0

126.969442359327

9

  

35793.5477381267

0

0

1012968919.28372

11

NODE_DISTRIBUTION tablo birden çok satır varsa, her bir değişkene göre gruplandırılmış.İlk iki satır, her zaman değeri 1 ve 3 türleridir ve hedef açıklamak öznitelik.İzleyen satırları belirli bir formülü hakkında ayrıntılı bilgi sağlayan regresör.Bir regresör doğrusal bir ilişki çıkış değişkeni olan bir giriş değişkendir.Birden fazla regressors olabilir ve her regresör katsayısı için ayrı bir satıra sahip olacaktır (valuetype = 7), puan kazanç (valuetype = 8) ve İstatistikler (valuetype = 9).Son olarak, tablo kesme noktası denklemi, içeren bir satır vardır (valuetype = 11).

Regresyon formülün öğeleri

İç içe geçmiş tablo NODE_DISTRIBUTION, her öğeyi ayrı bir satırda regresyon formül içerir.İlk iki satır veri örnek sonuçlar öngörülebilir bir öznitelik hakkında bilgi içeren Yıllık geliri, bağımlı değişken modeller.Destek sütun bu özniteliğin iki durumu'nın taleplerinin sayısı gösterir: ya da bir Yıllık geliri değeri kullanılabilir, ya da Yıllık geliri değeri eksik.

FARKI sütun öngörülebilir öznitelik hesaplanan farkı söyler.Farkı , beklenen bir dağıtım verilen örnekte nasıl Saçılan değerleri olduğunun ölçü.Ortalama kare sapma ortalamasını alarak buraya farkı hesaplanır.The square root of the variance is also known as standard deviation.Analysis Services does not provide the standard deviation but you can easily calculate it.

Her regresör için üç satır çıktısı alınır.Bunlar katsayısı, puan kazanç ve regresör istatistikleri içerir.

Son olarak, tablo kesme noktası denklemi sağlayan bir satır içerir.

Katsayısı

Her regresör bir katsayısı için (valuetype = 7) hesaplanır.Oysa FARKI sütun için katsayısı farkı söyler katsayısı ATTRIBUTE_VALUE sütununda görüntülenir.Doğrusallık en üst düzeye çıkarmak için katsayıları hesaplanır.

Puan kazanç

Puan kazanç (valuetype = 8) için her regresör interestingness puanı öznitelik temsil eder.Bu değer, birden fazla regressors kullanışlılığını tahmin etmek için kullanabilirsiniz.

İstatistikleri

regresör istatistik (valuetype = 9) ortalama bir değere sahip servis taleplerini öznitelik için.FARKI sütun toplamı ortalaması sapmaları arasındakileri ortalama kendisi, ATTRIBUTE_VALUE sütun içerir.

Kesme noktası

Normal olarak, kesişim noktası (valuetype = 11) veya kalan regresyon Denklem, öngörülebilir özniteliğinin değeri giriş öznitelik 0 olduğu noktada söyler.Çoğu durumda, bu değil meydana gelir ve counterintuitive için neden olabilir sonuçlar.

Örneğin, yaş üzerinde dayalı gelir öngörür bir modelinde, bunu gelir 0 yaş grubundaki öğrenmek gereksizdir.Hayat, gerçek davranışını ortalama değerleri açısından hakkında bilgi edinmek genellikle daha yararlıdır.Therefore, SQL Server Analysis Services modifies the intercept to express each regressor in a relationship with the mean.

Bu ayarlama, görmek zor araştırma modeli içerik, ancak tamamlanmış denklemde görüntülerseniz, açıkça görülmediği durumlarda Mining gösterge , Microsoft ağacı Görüntüleyici.Regresyon formül 0 noktasından uzağa ortalamasını gösteren noktaya kaydırılacağı uzaklık.Bu, geçerli verileri verilen daha sezgisel bir görünümünü sunar.

Bu nedenle, ortalama yaşı yaklaşık 45, kesme noktası olduğu varsayımıyla (valuetype = 11) için regresyon formül, ortalama gelir söyler.