Microsoft Teknik Başvurusu algoritması kümeleme sırası

Sipariş edilen serileri tanımlamak için Markov zinciri çözümlemesini kullanır ve birleştiren bir karma algoritması sırası Microsoft Kümeleme algoritması olan sonuçlar bu çözümleme teknikleri sıraları ve diğer öznitelikleri modelinde temel küme oluşturmak için küme oluşturma ile.Bu konuda algoritma uygulaması açıklar algoritması ve modelleri kümeleme sırası için özel gereksinimleri nasıl özelleştirileceği.

Nasıl göz ve modeller kümeleme sorgu sırası da dahil olmak üzere bu algoritma hakkında daha fazla genel bilgi için bkz: Microsoft sırası kümeleme algoritması.

Microsoft sırası kümeleme algoritması uygulaması

Microsoft sırası kümeleme modelini Markov modelleri serileri tanımlamak ve sıraları olasılığını belirlemek için kullanır.Markov modeli farklı durumları arasında geçişler saklayan yönlendirilmiş bir grafiktir.Microsoft Dizi Kümeleme algoritması N-order Markov zincirleri, gizli Markov modeli kullanır.

Markov zincir emirleri sayısı kaç durum geçerli durumlarını olasılığını belirlemek için kullanılan bildirir.First-order Markov modeli olasılık geçerli durumu yalnızca önceki durumuna bağlıdır.İkinci sırada Markov zinciri, önceki iki durumu ve benzeri bir durumun olasılığını bağlıdır.Her bir Markov zinciri için bir geçiş matrisi geçişleri durumları her birleşimi için saklar.Markov zincir uzunluğu arttıkça, matrix de de katlanarak artar ve matris son derece seyrek olur.İşleme saat de orantılı olarak artar.

Zincir örneği kullanarak görselleştirmek yararlı olabilir tıklatma dizisi çözümlemesi, bir sitedeki Web sayfalarına ziyaretleri inceler.Her kullanıcı her oturum için tıklatma uzun bir sıra oluşturur.Üzerinde kullanıcı davranışı çözümlemek için bir model oluştururken bir Web sitesi, bir dizi sayısı aynı tüm örneklerini içeren bir grafiğe dönüştürülür, eğitim için kullanılan ayarlamak veri yolu tıklatın.Örneğin, grafik kullanıcı sayfa 1 sayfa 2 (% 10), kullanıcı 1 sayfadan sayfaya 3 (% 20) taşır olasılık vb. taşır olasılığını içerir.Tüm olası koymak ne zaman yols ve parçalarını yolbirlikte, elde bir grafik, s gözlenen herhangi bir tek daha karmaşık ve çok daha uzun olabilir yol.

Varsayılan olarak, Microsoft Dizi Kümeleme algoritması , kümeleme beklentisiyle Maximization (em) yöntem kullanır.Daha fazla bilgi için bkz: Microsoft Kümeleme algoritması Teknik Başvurusu.

Kümeleme hedeflerini her iki sıralı ve yapabileceği nitelikleridir.Her küme, bir olasılık dağılımı kullanarak rasgele seçilir.Her küme yolları ve sıra durumu geçişleri ve değerler içeren bir matris eksiksiz kümesini temsil eden bir Markov zinciri vardır.İlk dağıtımına bağlı olarak, belirli bir küme içinde bir sırası da dahil olmak üzere tüm öznitelik olasılığını hesaplamak için Bayes kuralı kullanılır.

Microsoft Dizi Kümeleme algoritması Ek modeline yapabileceği öznitelikleri destekler.Yani, bu ek özniteliklerden tipik bir kümeleme modelinde olduğu gibi benzer özniteliklere sahip taleplerinin kümeleri oluşturmak için sýra öznitelikleri ile birleştirilir.

Modeli kümeleme bir sıra tipik bir küme modeli daha çok daha fazla kümeleri oluşturma eğilimindedir.Bu nedenle, Microsoft Dizi Kümeleme algoritması gerçekleştirdiği Küme decomposition sıraları ve diğer öznitelikleri temel kümeler ayırmak için.

Modeli kümeleme bir sıra özellik seçimi

Özellik seçimi sıralarını oluştururken çağrılır; Ancak, özellik seçimi kümeleme aşamada uygulanır.

Modeli türü

Özellik seçimi yöntemi

Açıklamalar

Kümeleme sırası

Kullanılmıyor

Özellik seçimi çağrılır; Bununla birlikte, MINIMUM_SUPPORT ve MINIMUM_PROBABILIITY parametreleri değeri ayarlayarak algoritma davranışını denetleyebilirsiniz.

Kümeleme

İnterestingness puanı

Kümeleme algoritması kesikli veya discretized algoritmalarını kullanabilir, ancak her öznitelik puanı bir mesafe hesaplanır ve sürekli; Bu nedenle, interestingness puanı kullanılır.

Daha fazla bilgi için bkz: Özellik seçimi.

Performansı en iyi duruma getirme

Microsoft Dizi Kümeleme algoritması İşleme en iyi duruma getirmek için çeşitli şekillerde destekler:

  • cluster_count parametresi için bir değer ayarlayarak oluşturulan küme sayısını denetleme.

  • Sıraları MINIMUM_SUPPORT parametresinin değerini artırarak öznitelikleri dahil sayısını azaltma.Sonuç olarak, nadir sıraları ortadan kalkar.

  • Modeline göre işleme koymadan önce karmaşıklığını azaltarak gruplandırma ilgili öznitelikleri.

Genel olarak, performansını arttırmak bir n-birkaç yolla sipariş Markov zinciri modu:

  • Olası sıraları uzunluğunu denetleme.

  • Programlı olarak değerini azaltma n.

  • Belirli bir eşiği aşan olasılıklar depolama.

Bu yöntemlerin tam bir tartışma bu konunun kapsam dışındadır.

Algoritma kümeleme sırası özelleştirme

The Microsoft Sequence Clustering algorithm supports parameters that affect the behavior, performance, and accuracy of the resulting mining model.Ayrıca, denetimi algoritması şeklini eğitim verileri işleyen bayrakları modelleme ayarı tarafından tamamlanan modeli davranışını değiştirebilirsiniz.

Algoritma parametreleri ayarlama

Aşağıdaki tablo ile kullanılan parametrelerini açıklar Microsoft Dizi Kümeleme algoritması.

  • CLUSTER_COUNT
    Küme algoritması tarafından oluşturulacak yaklaşık sayısını belirtir.Veri kümeleri yaklaşık kaç oluþturulamaz, algoritması mümkün olduğu kadar çok kümeleri oluşturur.cluster_count parametresi 0 olarak ayarlamak en iyi oluşturmak için küme sayısını belirlemek için Buluşsal yöntemler kullanılacak algoritma neden olur.

    Varsayılan değer 10'dir.

    Not

    Algoritma belirtilen bulma amacı ile devam eder, ancak daha fazla veya daha az bulma sonlandırmak için bir ipucu olarak sıfır numara davranır belirtme.

  • MINIMUM_SUPPORT
    Bir öznitelik'ın desteklediği bir küme oluşturmak için gerekli olan en az sayıda servis taleplerini belirtir.

    Varsayılan değer 10'dir.

  • MAXIMUM_SEQUENCE_STATES
    Bir sıra sahip olabileceği durumları sayısı üst sınırını belirtir.

    Bu değer 100 anlamlı bilgiler sağlayan bir model oluşturmak kullanılan algoritma neden olabilir daha büyük bir sayıya ayarlama.

    Varsayılan değer 64'dir.

  • MAXIMUM_STATES
    Algoritmasını destekler bir sıra dışı öznitelik durumları sayısı üst sınırını belirtir.Sıra dışı öznitelik durumları sayısı üst sınırını durumları büyükse, algoritma özniteliğin en popüler durumlarını kullanır ve geri kalan Devletler düşünür Missing.

    Varsayılan değer 100'dir.

Bayrakları modelleme

İle kullanmak için aşağıdaki modelleme bayrakları desteklenir Microsoft sırası kümeleme algoritması.

  • BOŞ DEĞİL
    Sütun null değeri içeremez gösterir.Analysis Services null değer modeli eğitim sırasında karşılaşırsa bir hata neden olur.

    Araştırma yapısı sütun uygulanır.

  • MODEL_EXISTENCE_ONLY
    Sütun iki olası durumlar sahip olarak kabul edilir gelir: Missingand Existing.Bir null değerlendirilir bir Missing değer.

    Araştırma modeli sütun uygulanır.

Nasıl eksik değerleri ve veri madenciliği modelleri eksik değerler kullanımı hakkında daha fazla bilgi için olasılık skorları etkiler Bkz: Değerleri eksik (Analysis Services - veri madenciliği).

Gereksinimler

durum tablo büyük bir kimliği olması gerekir sütun.İsteğe bağlı olarak servis talebi tablo servis talebiyle ilgili öznitelikleri depolayan diğer sütunlar içerebilir.

Microsoft Dizi Kümeleme algoritması İç içe tablo olarak saklanan sıra bilgisini gerektirir.İç içe geçmiş tablo tek bir tuş sırasını sütun olması gerekir.A Key Sequence sütun veri, sıralanacağı, dize veri türleri de dahil olmak üzere her türlü içerebilir ancak sütunun benzersiz değerler için her durum içermesi gerekirÜstelik, model işlemeden önce hem durum tablo ve iç içe geçmiş tablo anahtar tabloyu ilişkilendiren artan düzende sıralanır olduğunu emin olmalısınız.

Not

Microsoft sırası algoritması kullanan bir model oluşturmak, ancak bir sırası kullanan sütun, ortaya çıkan model herhangi sıraları içerir, ancak sadece modele dahil diğer özniteliklerini temel alan servis talebi küme.

Giriş ve öngörülebilir sütunları

The Microsoft Sequence Clustering algorithm supports the specific input columns and predictable columns that are listed in the following table.İçerik türleri kullanıldığında anlamları hakkında daha fazla bilgi için bir araştırma modeli, bkz: İçerik türleri (veri madenciliği).

Column

İçerik türleri

Giriş öznitelik

Sürekli, döngüsel, kesikli, Discretized, anahtar, anahtar sırası, tablo ve sipariş

Öngörülebilir öznitelik

Sürekli, döngüsel, kesikli, tablo, Discretized ve sipariş

Açıklamalar

  • Öngörü kullanarak sıraları, PredictSequence (dmx) işlev, yalnızca SQL Server kuruluş.

  • The Microsoft Sequence Clustering algorithm does not support using the Predictive Model Markup Language (PMML) to create mining models.

  • The Sequence Clustering algorithm supports drillthrough, the use of OLAP mining models, and the use of data mining dimensions.