Bir küme modeli sorgulama (- Analysis Services veri madenciliği)

Bir veri karşı bir sorgu oluşturduğunuzda, araştırma modeli, modeli hakkında meta veriler almak veya analiz keşfedilen desenleri hakkında ayrıntılar verilmektedir içerik bir sorgu oluşturun.Alternatif olarak, yeni veriler için Öngörüler yapmak modelinde desenleri kullanır tahmin sorgu oluşturabilirsiniz.Her sorgu türüne bağlı olarak farklı bilgiler sağlayacaktır.Örneğin, tahmin sorgu, hangi küme için yeni bir veri noktası ait olabilecekse beklendiğini, ancak içerik sorgu bulunamadı, kümeleri hakkında daha fazla ayrıntı sağlayabilir.

Bu bölümde dayalı modelleri için sorgular oluşturmak açıklar Microsoft kümeleme algoritması.

İçerik sorguları

dmx kullanarak modeli meta veri alma

Şema satır kümesi modeli meta veri alma

Bir küme veya kümeleri listesi döndürme

Bir küme için öznitelikleri döndürme

Saklı yordamlar sistemini kullanarak bir küme profil döndürme

Bir küme için Discriminating Etkenler bulma

Bir kümeye ait durumlar döndürme

Tahmin sorgular

Bir küme modeli gelen sonuçlar tahmin etmek

Küme üyeliği belirleme

Olasılık ve uzaklığı ile tüm olası kümeleri döndürme

Modeli hakkında bilgi bulma

Tüm veri madenciliği modelleri Schema'ya göre bir standartlaştırılmış, araştırma modeli şema satır kümesi algoritması tarafından öğrenilen içerik açarsınız.Veri madenciliği uzantısı (dmx) deyimleri kullanarak araştırma modeli şema satır kümesi sorguları oluşturabilirsiniz.De SQL Server 2008, siz de doğrudan olarak şeması satır kümeleri sorgulamasistem tabloları.

Başa dön

Örnek sorgu 1: dmx kullanarak modeli meta veri alma

kümeleme modeli hakkında temel meta veriler aşağıdaki sorgu döndürür TM_Clustering, oluşturduğunuz temel veri Mining öğretici.Kümeleme modelinin üst düğüm kullanılabilir meta veriler modeli, model depolandığı veritabanı ve alt düğümlerin sayısı modelinde içerir.Bu sorgu, modelin Ana düğümden meta veriler almak için dmx içerik sorgu kullanır:

SELECT MODEL_CATALOG, MODEL_NAME, NODE_CAPTION, 
NODE_SUPPORT, [CHILDREN_CARDINALITY], NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 1

Not

CHILDREN_CARDINALITY, sütun adı aynı adlı çok boyutlu ifadeleri (rezerve mdx) anahtar sözcük ayırmak için ayraç içine almalısınız.

Örnek sonuçlar:

MODEL_CATALOG

TM_Clustering

MODEL_ADI

Adventure Works dw

NODE_CAPTION

Küme modeli

NODE_SUPPORT

12939

CHILDREN_CARDINALITY

10

NODE_DESCRIPTION

Tümü

Bu sütunları kümeleme modelinde anlamı bir tanım için bkz: Modelleri kümeleme için içerik modeli mining (Analysis Services - veri madenciliği).

Başa dön

Örnek sorgu 2: Şema satır kümesi modeli meta veri alma

Veri madenciliği şema satır kümesi sorgulayarak bir dmx içerik sorgu döndürülen aynı bilgileri bulabilirsiniz.Ancak, bazı ek sütunları şema satır kümesi sağlar.Bunlar, modeli, oluşturulduğu tarih ve saat modeli son işlendiği, kullanılmış olan parametreler ve modeli sahibini içerir.

Aşağıdaki örnek model, değiştirilmiş ve son işlenen, model ve Eğitim küme boyutunu oluşturmak için kullanılan kümeleme parametreleri ile birlikte tarih verir.Bu bilgi modeli belgelenmesi için veya varolan bir model oluşturmak için kullanılan, kümeleme seçeneklerini belirlemek için yararlı olabilir.

SELECT MODEL_NAME, DATE_CREATED, LAST_PROCESSED, PREDICTION_ENTITY, MINING_PARAMETERS 
from $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'TM_Clustering'

Örnek sonuçlar:

MODEL_ADI

TM_Clustering

DATE_CREATED

10/12/2007 7:42:51 PM

LAST_PROCESSED

10/12/2007 8:09:54 PM

PREDICTION_ENTITY

Bisiklet alıcı

MINING_PARAMETERS

CLUSTER_COUNT = 10,

CLUSTER_SEED = 0,

CLUSTERING_METHOD = 1,

MAXIMUM_INPUT_ATTRIBUTES = 255,

MAXIMUM_STATES = 100,

MINIMUM_SUPPORT = 1,

MODELLING_CARDINALITY = 10,

SAMPLE_SIZE 50000, =

STOPPING_TOLERANCE = 10

Başa dön

Kümeler hakkında bilgi bulma

Genellikle modelleri kümeleme hakkında en yararlı içerik sorguları kullanarak göz bilgi aynı tür dönmek Küme Görüntüleyici.Bu, küme profilleri, küme karakteristiğini ve küme Ayrımcılığı içerir.Bu bölüm, bu bilgileri almak sorgu örnekleri sağlar.

Örnek sorgu 3: Bir küme veya kümeleri listesi döndürme

Tüm kümelerin 5 düğüm türü olduğundan, modeli içerik türü yalnızca düğümler için sorgulayarak kümelerin listesini kolayca alabilirsiniz.Bu örnekte gösterildiği gibi olasılık veya destek tarafından döndürülen düğümleri de filtre uygulayabilirsiniz.

SELECT NODE_NAME, NODE_CAPTION ,NODE_SUPPORT, NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 5 AND NODE_SUPPORT > 1000

Örnek sonuçlar:

NODE_NAME

002

NODE_CAPTION

Küme 2

NODE_SUPPORT

1649

NODE_DESCRIPTION

İngilizce eğitim Graduate derece, 32 = <yaş = <numara otomobilleri ait 48, = = 0, 35964.0771121808 <Yıllık gelir = <= 97407.7163393957, İngilizce meslek Professional, Commute Distance = 2-5 mil, bölge = Kuzey Amerika, bisiklet alıcı = = 1, numara Children At Giriş= 0, numara otomobilleri ait = 1, Commute Distance = 0-1 mil, İngilizce eğitim Bachelors = Çocuklar toplam = 1, numara Children At Giriş= 2, İngilizce meslek nitelikli el ile medeni durum = = s, toplam çocuklar = 0, ev sahibi bayrak = 0, cinsiyet = f, toplam çocuklar = 2, bölge Pasifik =

Küme tanımlamak öznitelikleri iki sütun veri madenciliği şema satır kümesi içinde bulunabilir.

  • NODE_DESCRIPTION sütun öznitelikleri virgülle ayrılmış bir listesini içerir.Öznitelikler listesi, görüntüleme amacıyla kısaltılmış unutmayın.

  • İç içe geçmiş tablo NODE_DISTRIBUTION, sütun öznitelik kümesinin tam listesini içerir.Hiyerarşik satır kümeleri istemciniz destekliyorsa, önce select flattened anahtar sözcüğünü ekleyerek iç içe geçmiş tablo dönebilirsiniz sütun listesi.flattened anahtar sözcük kullanımı hakkında daha fazla bilgi için bkz: select from <modeli>.İÇERİK (DMX).

Başa dön

Örnek sorgu 4: Bir küme için öznitelikleri döndürme

Her küme için Küme Görüntüleyici özniteliklerini ve değerlerini listeleyen bir profili görüntüler.Görüntüleyici'yi de modelinde değerleri tüm popülasyon talepleri için dağıtımını gösteren bir histogram görüntüler.Modeli Görüntüleyicisi'nde göz atma, histogram Mining gösterge kolayca kopyalayabilir ve sonra Excel veya Word belgesine yapıştırın.Grafiksel olarak farklı kümelerin öznitelikleri karşılaştırmak için Görüntüleyici'nin Küme özellikleri bölmesini de kullanabilirsiniz.

Ancak, birden çok küme için değerleri elde etmek, bir saat, sorgulamaya modelini daha kolaydır.Model gözattığınızda, örneğin, en iyi iki kümelerden biri ile ilgili farklı görebilirsiniz öznitelik, Number Cars Owned.Bu nedenle, her küme için değerleri ayıklamak istiyor.

SELECT TOP 2 NODE_NAME, 
(SELECT ATTRIBUTE_VALUE, [PROBABILITY] FROM NODE_DISTRIBUTION WHERE ATTRIBUTE_NAME = 'Number Cars Owned')
AS t
FROM [TM_Clustering].CONTENT
WHERE NODE_TYPE = 5

Kodun ilk satırı, yalnızca üst kümeleri istediğinizi belirtir.

Not

Varsayılan olarak, küme desteği tarafından sıralanır.Bu nedenle, node_support sütun atlanabilir.

Kodun ikinci satırı, iç içe geçmiş tablo sütun yalnızca belirli sütunları döndüren bir yükseltmesinden deyim ekler.Üstelik, bu satırları yuvalanmış sınırlar tablo hedef öznitelik için ilgili kişilere Number Cars Owned.Görüntü basitleştirmek için iç içe geçmiş tablo bilinir.

Not

İç içe geçmiş tablo sütun PROBABILITY, içine yerleştirilmesi gerekir ayraç içine çünkü onu da adı ayrılmış mdx anahtar sözcük.

Örnek sonuçlar:

NODE_NAME

T.ATTRIBUTE_VALUE

T.PROBABILITY

001

2

0.829207754

001

1

0.109354156

001

3

0.034481552

001

4

0.013503302

001

0

0.013453236

001

Eksik

0

002

0

0.576980023

002

1

0.406623939

002

2

0.016380082

002

3

1.60E-05

002

4

0

002

Eksik

0

Başa dön

Örnek sorgu 5: Return küme profil kullanarak sistem saklı yordamları

Bir kısayol olarak değil kendi sorgu dmx kullanarak yazmak, ayrıca çağırabilirsiniz sistem saklı yordamları , Analysis Services kullanan çalışma kümeleri.Aşağıdaki örnek, iç saklı yordamlar 002 Kimliğine sahip bir küme için profil dönmek için nasıl kullanılacağı gösterilmiştir.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterProfiles('TM_Clustering", '002',0.0005

Benzer şekilde, kullanabileceğiniz bir sistem saklı yordamı aşağıdaki örnekte gösterildiği gibi belirli bir küme özelliklerine dönmek için:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('TM_Clustering", '009',0.0005

Örnek sonuçlar:

Öznitelikler

Değerler

Frekans

Destek

Numara alt öğelerGiriş

0

0.999999829076798

899

Bölge

Kuzey Amerika

0.999852875241508

899

Toplam Children

0

0.993860958572323

893

Not

veri madenciliği Sistem saklı yordamları olan iç kullanım için ve Microsoft bunları gerektiği şekilde değiştirmek hakkını saklı tutar.Üretim kullanımı için dmx, ÇYN veya xmla kullanarak sorgular oluşturmanızı öneririz.

Başa dön

Örnek sorgu 6: Bir küme için Discriminating Etkenler bulma

The Cluster Discrimination tab of the Cluster Viewer enables you to easily compare a cluster with another cluster, or compare a cluster with all remaining cases (the complement of the cluster).

Ancak, bu bilgi döndüren sorgular oluşturma karmaşık olabilir ve geçici sonuçlar depolamak ve iki veya daha fazla sorgulama sonuçlarını karşılaştırmak için istemci üzerindeki bazı ek işleme gerek duyabilirsiniz.Kısaca, sistem saklı yordamları kullanabilirsiniz.

Aşağıdaki sorgu 009 kimliklerini düğüme sahip iki küme 007 arasındaki birincil discriminating Etkenler gösteren tek bir tablo döndürür.Negatif değerlere sahip öznitelik küme 007 lehine hareket oysa pozitif değerleri olan öznitelikleri 009, küme lehine hareket.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','007',0.0005,true)

Örnek sonuçlar:

Öznitelikler

Değerler

Puan

Bölge

Kuzey Amerika

100

İngilizce meslek

Nitelikli elle

94.9003803898654

Bölge

Avrupa

-72.5041051379789

İngilizce meslek

El ile

-69.6503163202722

Bu sunulan bilgilerin aynısını planındaki, Küme Ayrımcılığı , küme 9 ilk açılan liste ve küme 7 ikinci kapalı açılan listeden seçin, Görüntüleyici.Onun tamamlayıcı rengi olan 9 küme karşılaştırmak için boş dize de ikinci parametre, aşağıdaki örnekte gösterildiği gibi kullanın:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','',0.0005,true)

Not

veri madenciliği Sistem saklı yordamları olan iç kullanım için ve Microsoft bunları gerektiği şekilde değiştirmek hakkını saklı tutar.Üretim kullanımı için dmx, ÇYN veya xmla kullanarak sorgular oluşturmanızı öneririz.

Başa dön

Örnek sorgu 7: Bir kümeye ait durumlar döndürme

Üzerinde araştırma modeli detaylandırma etkinleştirilmişse modelinde kullanılan servis taleplerini hakkında ayrıntılı bilgi döndüren sorgular oluşturabilirsiniz.Araştırma yapısı üzerinde detaylandırma etkinleştirilmişse, Üstelik, sütun alt yapısını kullanarak ekleyebilirsiniz StructureColumn (dmx) işlev.

Aşağıdaki örnek model, yaş ve bölge ve bir daha fazla sütun modelinde kullanılan adı, kullanılan iki sütun verir.Sorgu yalnızca sınıflandırılmıştı durumlar küme 1 döndürür.

SELECT [Age], [Region], StructureColumn('First Name')
FROM [TM_Clustering].CASES
WHERE IsInNode('001')

Bir kümeye ait servis taleplerini geri dönmek için küme Kimliğini bilmeniz gerekir.Küme kimliği görüntüleyicilerden birini modelinde göz atarak edinebilirsiniz.Ya da, sonra adı yerine kimlik numarasını kullanabilirsiniz daha kolay başvuru için küme adını değiştirebilirsiniz.Ancak, model çalıştırırsanız, bir kümeye atamak adları kaybolacak biliyor.

Başa dön

Öngörüler modelini kullanarak yapma

Kümeleme tipik olarak açıklayan ve anlama verileri için kullanılır, ancak Microsoft uygulaması da olanak Küme üyeliği hakkında öngörü yapmak ve dönüş olasılık değerleriyle ilişkili tahmin.Bu bölüm kümeleme modelleri üzerinde tahmin sorgular oluşturmak örnekler sağlar. Birden çok servis talepleri için Öngörüler sekmeli veri kaynağını belirterek yapabilirsiniz ya da, yeni değerler üzerinde at sağlayabilirsiniz bir saat bir singleton sorgu oluşturarak.Netlik için bu bölümdeki tüm singleton sorgu verilebilir.

dmx kullanarak tahmin sorgu oluşturma hakkında daha fazla bilgi için bkz: dmx tahmin sorgular oluşturma.

Grafik araçları kullanarak tahmin sorgu oluşturma hakkında bilgi için BI Development Studio, bkz: Mining modeli tahmin sekmesi: Nasıl Yapılır Konuları.

Başa dön

Örnek sorgu 8: Bir küme modeli gelen sonuçlar tahmin etmek

Oluşturduğunuz kümeleme modeli öngörülebilir öznitelik içeriyorsa, sonuçlar hakkında Öngörüler yapmak modelini kullanabilirsiniz.Ancak, farklı bir şekilde bağlı olarak tahmin edilebilir sütun küme olup olmadığını tahmin edilebilir öznitelik model işleme Predict veya PredictOnly.Varsa, kümeleme kullanım için sütun Predict, bu özniteliğin değerlerini kümelemeleme modeline eklenir ve görünür öznitelikleri tamamlanmış bir model.Ancak, varsa, küme sütun için kullanım PredictOnly, değerleri değil oluşturmak için kullanılan kümeleri.Bunun yerine, kümeleme algoritma için yeni değerler oluşturur modu işlemi tamamlandıktan sonra PredictOnly öznitelik her kümelere göre durum ait.

Aşağıdaki sorgu, tek yeni bir durum servis talebiyle ilgili tek bilgi yaş ve cinsiyet olduğu model sağlar.deyim, ilgilendiğiniz öngörülebilir öznitelik/değer çifti belirtir ve PredictProbability (dmx) işlev olasılığını büyük/küçük harf bu nitelikleri ile hedeflenen sonucu olduğunu söyler.

SELECT
  [TM_Clustering].[Bike Buyer], PredictProbability([Bike Buyer],1)
FROM
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender]) AS t

Örnek kullanım olduğunda sonuç olarak küme için Predict:

Bisiklet alıcı

İfade

1

0.592924735740338

Örnek kullanım olduğunda sonuç olarak küme için PredictOnly ve model çalıştırırsanız:

Bisiklet alıcı

İfade

1

0.55843544003102

Bu örnekte, model arasındaki fark önemli değil.Ancak, bazen bu değerleri ve hangi modeli öngörür gerçek dağılımı arasındaki farklılıkları algılamak önemli olabilir.The PredictCaseLikelihood (dmx) function is useful in this scenario, because it tells you how likely a case is, given the model.

Tarafından döndürülen numarasını PredictCaseLikelihood işlev bir olasılık ve bu nedenle her zaman 0 ile 1 arasındaki, değeri.5 temsil eden rasgele sonucu.Bu nedenle,.5'den küçük bir puan demektir öngörülen durumda verilen modeli, düşüktür ve puan over.5 öngörülen böyle büyük bir olasılıkla daha değil olduğunu uyma modeli.

Örneğin, aşağıdaki sorguyu yeni bir örnek durum olasılığını karakterize eden iki değeri döndürür.Normalleştirilmiş değer verilen geçerli modeli olasılık temsil eder.NORMALIZED anahtar sözcük kullandığınızda işlev tarafından döndürülen olasılığını puanı "olasılık modeli ile" bölünerek ayarlanır "olasılık model olmadan".

SELECT
PredictCaseLikelihood(NORMALIZED) AS [NormalizedValue], PredictCaseLikelihood(NONNORMALIZED) AS [NonNormalizedValue]
FROM
  [TM_Clustering_PredictOnly]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender]) AS t

Örnek sonuçlar:

NormalizedValue

NonNormalizedValue

5.56438372679893E-11

8.65459953145182E-68

Bu sonuçlar sayıları bilimsel gösterimde olduğunu unutmayın.

Başa dön

Örnek sorgu 9: Küme üyeliği belirleme

Bu örnek kullanır Küme (dmx) Yeni durum olduğu ait büyük olasılıkla küme ve kullanımları dönmek için işlev ClusterProbability (dmx) üyelik için olasılık dönmek için işlevo küme.

SELECT Cluster(), ClusterProbability()
FROM
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender],
  'S' AS [Marital Status]) AS t

Örnek sonuçlar:

$KÜMESİ

İfade

Küme 2

0.397918596951617

Notvarsayılan olarak, ClusterProbability işlev büyük olasılıkla küme. olasılığını verirAncak, farklı bir küme sözdizimini kullanarak belirtebileceğiniz ClusterProbability('cluster name').Bunu yaparsanız, her tahmin işlev sonuçlar diğer sonuçlarını bağımsız olduğunu unutmayın.Bu nedenle, ikinci olasılık puanı sütun adlı ilk kümesinden farklı bir küme için başvurabileceğiniz sütun.

Başa dön

Örnek sorgu 10: Olasılık ve uzaklığı ile tüm olası kümeleri döndürme

Önceki örnekte, olasılık puanı çok yüksek değildi.Daha iyi bir küme varsa, kullanabileceğiniz belirlemek için PredictHistogram (dmx) ile birlikte çalışması Küme (dmx) Olasılık ile birlikte tüm olası kümeleri içeren iç içe geçmiş bir tablo dönmek için işlev, yeni durum , them her küme içinflattened anahtar sözcük hiyerarşik satır kümesi düz değiştirmek için kullanılan tablo rahat.

SELECT FLATTENED PredictHistogram(Cluster())
From
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender],
  'S' AS [Marital Status])

Deyim.$ küme

Deyim.$ UZAKLIĞI

Deyim.$ olasılık

Küme 2

0.602081403048383

0.397918596951617

Küme 10

0.719691686785675

0.280308313214325

Küme 4

0.867772590378791

0.132227409621209

Küme 5

0.931039872200985

0.0689601277990149

Küme 3

0.942359230072167

0.0576407699278328

Küme 6

0.958973668972756

0.0410263310272437

Küme 7

0.979081275926724

0.0209187240732763

Küme 1

0.999169044818624

0.000830955181376364

Küme 9

0.999831227795894

0.000168772204105754

Küme 8

1

0

Varsayılan olarak, sonuçlar, olasılık derecelendirilir.Olasılığı oldukça düşüktür, küme 2 ise küme 2 rağmen sonuçlar size, söylemek hala en iyi yeni veri noktası için uyma.

Notek sütun $DISTANCE, veri noktası için uzaklıkta temsil ederküme. Varsayılan olarak, Microsoft kümeleme algoritmasını kullanır ölçeklenebilir em Kümeleme, her bir veri noktası için birden çok küme atar ve sıralar olası kümeleri.Ancak, kümeleme modelinizi k-anlamına gelir algoritmasını kullanarak oluşturursanız, her bir veri noktası için yalnızca tek bir kümeleme atanabilir ve bu sorgu yalnızca bir satır döndürür.Bu farklılıkları anlama sonuçlar yorumlamak gerekli PredictCaseLikelihood (dmx) işlev.em ve kümeleme k-anlamına gelir arasındaki farklar hakkında daha fazla bilgi için bkz: Microsoft Kümeleme algoritması Teknik Başvurusu.

Başa dön

Fonksiyon listesi

Tüm Microsoft algoritmaları desteği ortak küme işlevleri.Ancak, kullanılarak oluşturulan modelleri Microsoft kümeleme algoritmasını destekler üzerinde ek işlevleri listelenen aşağıdaki tablo.

Tüm ortak işlevlerin listesi için Microsoft , model türleri Bkz: Algoritma başvurusu (- Analysis Services veri madenciliği).Belirli işlevleri sözdizimini görmek Veri madenciliği Extensions (dmx) işlev başvurusu.