Microsoft ilişkilendirme algoritması Teknik Başvurusu

The Microsoft Association Rules algorithm is a straightforward implementation of the well-known Apriori algorithm.

Her iki Microsoft karar ağaçlar algoritma ve Microsoft ilişkilendirme kuralları algoritma ilişkilerini analiz etmek için kullanılabilir, ancak her algoritması tarafından bulunan kurallar değişebilir.Oysa bir ilişkilendirme modelini kuralları tamamen güven üzerinde temel alan bir karar ağaçları modeli için belirli kurallar neden bölmelerini bilgi kazanç olarak dayanmaktadır.Yeni bilgi sağladığı için bu nedenle, bir ilişkide modeli, güçlü bir kural veya yüksek güvenirlik olan biri mutlaka ilginç olmayabilir.

Microsoft ilişkilendirme algoritması uygulaması

Apriori algoritması desenleri, analiz etmek, ancak yerine oluşturur ve sonra sayar Aday itemsets.öğe bir olay, bir ürün ya da çözümlenmekte veri türüne bağlı olarak bir öznitelik değerini temsil edebilir.

İlişkilendirme modelini Boole değişkenlerini en yaygın türü temsil eden bir Evet/Hayır veya eksik/varolan değeri, bir olay ya da ürün adı gibi her öznitelik için atanmış.A pazar sepeti çözümlemesi belirli ürünlerde müşteri yokluğunda alışveriş sepeti veya var olup olmadığını gösteren Boole değişkenlerini kullanan bir ilişkilendirme kuralları modelini bir örnektir.

Her itemset için destek ve güvenirlik temsil eden puanlar daha sonra algoritma oluşturur.Bu puanlar, rütbe ve ilginç kurallara itemsets türetmek için kullanılabilir.

İlişki modelleri de sayısal öznitelikler için oluşturulabilir.Öznitelik sürekli ise, sayılar olabilir , discretized veya toplama alanı gruplandırılmış.Discretized değerleri Boolean değerleri veya öznitelik-değer çiftleri olarak işlenebilir.

Destek, olasılık ve önemi

Support, which issometimes referred to as frequency, means the number of cases that contain the targeted item or combination of items.Belirtilen destek miktarı az olan öğeleri modelinde dahil edilebilir.

A Sık sık itemset başvurduğu bir koleksiyon öğelerin öğe birleşimi de bulunduğu MINIMUM_SUPPORT parametresi tarafından tanımlanan eşiğin desteği.Örneğin, itemset {a, b, c} MINIMUM_SUPPORT değeri 10 ' a, tek tek her öğe ise b ve c modeli ve öğeleri {a birleşimi eklenmesi gereken en az 10 durumlarda bulunması gerekirb, c} en az 10 durumlarda da bulunması gerekir.

Notitemsets sayısını kontrol edebilirsiniz bir araştırma modeli belirterek burada öğe sayısını gösterir uzunluğu bir itemset en fazla uzunluğu.

Varsayılan olarak, herhangi bir itemset veya belirli öğe için destek, o öğe veya öğeleri içeren servis taleplerini sayısını temsil eder.Ancak, siz de MINIMUM_SUPPORT toplam durumlarda veri yüzdesi olarak ifade edebilirsiniz kümegöre 1'den küçük değer ondalık olarak yazmayı.0.03 MINIMUM_SUPPORT değerini belirtin, örneğin, onu en az % 3 toplam veri küme durumlarda bu öğe veya modele eklenmek üzere itemset içermelidir demektir.Bir sayı veya yüzde kullanarak daha fazla anlamlı olup olmadığını belirlemek için modeli ile denemeler yapmalısınız.

Buna karşılık, kuralları için Eşik değil bir sayı veya yüzde olarak ifade edilen, ancak bir olasılık, bazen olarak anılacaktır güven.Örneğin, {a, b, c} itemset 50 durumlarda oluşur, ancak 50 durumlarda ve başka bir 50 durumlarda itemset {a, b} {a, b, d} itemset da ortaya çıkar, onu {a, b} {c} güçlü bir predictor değil açıktır.Bu nedenle, belirli bir sonucu bilinen tüm sonuçlar karşı Ağırlık Analysis Services tek tek kural olasılığını hesaplar (gibi , {a, b} sonra {c}) tüm itemsets ilgili tarafından desteklenme {a, b, c} itemset için destek bölme.

MINIMUM_PROBABILITY için bir değeri ayarlayarak bir model üretir kuralları sayısını sınırlayabilirsiniz.

For each rule that is created, Analysis Services outputs a score that indicates its importance, which is also referred to as lift.Lift önem itemsets ve kurallar için hesaplanmasıdır.

Bir itemset önemini tek tek itemset maddelerin bileşik olasılık bölünmesiyle itemset olasılığı hesaplanır.Bir itemset {a, b} içerir, örneğin, Analysis Services ilk sayar, bu birleşim içeren tüm servis talepleri a ve b, servis taleplerini toplam sayısına böler ve sonra normalleştirir olasılık.

Bir kural önemini verilen kural sol tarafı kuralı sağ tarafında günlük olasılığını tarafından hesaplanır.Örneğin, kuraldaki If {A} Then {B}, Analysis Services a taleplerinin oranı hesaplar ve b b ancak a olmayan durumlarda ve sonra bu oranı Logaritmik bir ölçek. kullanarak normalleştirir

Özellik seçimi

The Microsoft Association Rules algorithm does not perform any kind of automatic feature selection.Bunun yerine, algoritma algoritması tarafından kullanılan verileri kontrol eden parametreleri sağlar.Bu her itemset boyutu sınırlamaları bulunabilir veya bir itemset modeline eklemek için gerekli maksimum ve minimum destek ayarlama.

  • Maddeleri ve çok yaygın ve bu nedenle uninteresting olayları öğrenmek süzmek için çok sık itemsets modelinden kaldırmak için MAXIMUM_SUPPORT değerini azaltın.

  • Maddeleri ve seyrek itemsets öğrenmek süzmek için MINIMUM_SUPPORT değerini artırın.

  • Kuralları süzmek için MINIMUM_PROBABILITY değerini artırın.

Microsoft ilişkilendirme kuralları algoritma özelleştirme

The Microsoft Association Rules algorithm supports several parameters that affect the behavior, performance, and accuracy of the resulting mining model.

Algoritma parametreleri ayarlama

Herhangi bir araştırma modeli için parametreleri değiştirebilirsiniz saat kullanarak veri madenciliği Tasarımcısı'nda Business Intelligence Development Studio. Ayrıca parametreleri aracılığıyla kullanarak değiştirebilirsiniz AlgorithmParameters koleksiyonu ÇYN veya kullanarak MiningModels öğesi (assl) xmla içinde. Aşağıdaki tabloda her parametre. açıklar

Not

Bir dmx kullanarak, varolan bir modelinde parametrelerini değiştiremezsiniz deyim; dmx modeli oluşturmak ya da alter structure… parametreleri belirtmeniz gerekir Modeli oluştururken model ekleyin.

  • MAXIMUM_ITEMSET_COUNT
    Üretmek için itemsets sayısı üst sınırını belirtir.Hiçbir numarası belirtilmezse, varsayılan değer kullanılır.

    Varsayılan değer 200000'dir.

    Not

    Itemsets destek tarafından derecelendirilir.Aynı desteği itemsets arasında sıralama isteğe bağlıdır.

  • MAXIMUM_ITEMSET_SIZE
    Bir itemset içinde en fazla izin verilen öğe sayısını belirtir.Bu değeri 0 olarak ayarlandığında, itemset boyutu sınır olduğunu belirtir.

    Varsayılan değer 3'dir.

    Not

    Bu değeri azaltmak potansiyel azaltabilirsiniz saat , model oluşturmak için gerekli olduğundan işleme modelinin sınıra ulaşıldığında durdurur.

  • MAXIMUM_SUPPORT
    Bir itemset desteği olan servis taleplerinin sayısı üst sınırını belirtir.Bu parametre, sık görülür ve bu nedenle büyük olasılıkla çok az anlamı olan maddelerin ortadan kaldırmak için kullanılabilir.

    Bu değer 1'den az ise, değer toplam servis taleplerinin yüzdesini temsil eder.1'den büyük değerler mutlak itemset içeren servis taleplerinin sayısını temsil eder.

    Varsayılan değer 1'dir.

  • MINIMUM_ITEMSET_SIZE
    Bir itemset içinde en az izin verilen maddelerin sayısını belirtir.Bu sayıyı artırmak için daha az itemsets model içerebilir.Bu, örneğin tek öğe itemsets yoksaymak istiyorsanız yararlı olabilir.

    Varsayılan değer 1'dir.

    Not

    Size model işleme saat minimum değerini artırarak çünkü azaltmak olamaz Analysis Services hesaplaması gerekir olasılıklar tek öğeler için yine de bir parçası olarak işleme.Ancak, bu yüksek değeri ayarlayarak, daha küçük itemsets filtre uygulayabilirsiniz.

  • MINIMUM_PROBABILITY
    Bir kural geçerlidir minimum olasılık belirtir.

    Örneğin, varsa, küme , bu değer 0,5 bu olasılık yüzde elli'den az olan hiçbir kural oluşturulurken kullanılan anlamına gelir.

    Varsayılan değer 0,4'dir.

  • MINIMUM_SUPPORT
    Algoritma bir kural oluşturmadan önce itemset içermelidir durumlarda en az sayısını belirtir.

    Varsa, küme bu değer 1'den küçükse, en az sayıda servis talebi için toplam servis taleplerini yüzdesi olarak hesaplanır.

    Varsa, küme bu değer 1'den büyük bir tamsayı belirtir servis taleplerini en az sayıda öğe içermelidir durumlarda sayısı hesaplanırküme.Algoritma, otomatik olarak belleği sınırlıysa, bu parametrenin değeri artabilir.

    Varsayılan değer 0,03'dir.Bu modele dahil edilecek, yani bir itemset en az % 3'de taleplerinin bulunması gerekir.

  • OPTIMIZED_PREDICTION_COUNT
    Tahmin en iyi duruma getirme önbelleğe alınacak maddelerin sayısını tanımlar.

    Varsayılan değer 0’dır.Varsayılan değer kullanıldığında, algoritma sorguda istendiği gibi çok sayıda Öngörüler üretecektir.

    Sıfır olmayan bir değer belirtirseniz, OPTIMIZED_PREDICTION_COUNT, Tahmin sorguları dönebilirsiniz en fazla öğe belirtilen sayısı bile, istek ek Öngörüler.Ancak, bir değeri ayarlayarak geliştirmek tahmin performans.

    Değer, örneğin, küme 3, algoritma yalnızca 3 maddeyi tahmini için önbelleğe alır.Döndürülen 3 öğeleri eşit olarak olası olabilir ek Öngörüler göremiyor.

Bayrakları modelleme

İle kullanmak için aşağıdaki modelleme bayrakları desteklenir Microsoft ilişkilendirme kuralları algoritması.

  • BOŞ DEĞİL
    Sütun null değeri içeremez gösterir.Bir hata, neden Analysis Services karşılaştığı bir null sırasında eğitim modeli.

    Araştırma yapısı sütun uygulanır.

  • MODEL_EXISTENCE_ONLY
    Sütun iki olası durumlar sahip olarak kabul edilir gelir: Missingand Existing.Null değeri eksik bir değerdir.

    Araştırma modeli sütun uygulanır.

Gereksinimler

Bir ilişki modeli anahtar sütunu, giriş sütunlar ve tek bir içermelidir tahmin edilebilir sütun.

Giriş ve öngörülebilir sütunları

The Microsoft Association Rules algorithm supports the specific input columns and predictable columns that are listed in the following table.İçerik türleri, anlamı hakkında daha fazla bilgi için bir araştırma modeli, bkz: İçerik türleri (veri madenciliği).

Column

İçerik türleri

Giriş öznitelik

Döngüsel, kesikli, Discretized, anahtar, sipariş tablosu

Öngörülebilir öznitelik

Döngüsel, kesikli, Discretized, sipariş tablosu

Not

Cyclical ve Sipariş edilmiş içerik türleri desteklenir, ancak bunları olarak ayrık değerler değerlendirir ve özel işlem gerçekleştirmek.