Makale
07/26/2011

Veri eğitimi ve kümeleri sınama içine bölümleme (Analysis Services - veri madenciliği)

Veri eğitimi ve kümeleri sınama içine ayırarak veri madenciliği modelleri değerlendirirken, önemli bir parçasıdır.Typically, when you partition a data set into a training set and testing set, most of the data is used for training, and a smaller portion of the data is used for testing.Analysis Services randomly samples the data to help ensure that the testing and training partitions are similar.Eğitim ve sınama için benzer verileri kullanarak, veri tutarsızlıkları etkilerini en aza indirmek ve modeli özelliklerini daha iyi anlamak.

Eğitim küme kullanarak bir modeli işlendikten sonra sınama küme karşı Öngörüler yaparak modelini sınayın.Sınama küme verileri tahmin etmek istediğiniz öznitelik bilinen değerlerini içerdiğinden, modelinin tahmin doğru olup olmadığını belirlemek kolaydır.

Genellikle, öngörü doğruluğunu araştırma modeli tarafından ölçülür dokundurduğunuzda veya sınıflandırma doğruluk.Lift grafik ve diğer doğruluk grafikler hakkında daha fazla bilgi için bkz: Model doğruluğu grafik için Araçlar (Analysis Services - veri madenciliği).

Veri madenciliği yapıları için bölümler oluşturma

De SQL Server 2008, veri bölümleme düzey araştırma yapısı.Bölüm boyutunu ve her bölüm veri hakkındaki bilgileri yapısı ile saklanır ve bu yapısına göre tüm modelleri eğitim ve sınama için bölümleri kullanabilirsiniz.

Bir bölümü üzerinde bir araştırma yapısı aşağıdaki şekillerde tanımlayabilirsiniz:

Araştırma yapısı oluşturduğunuzda, bir araştırma yapısı bölümlemek için veri madenciliği Sihirbazı'nı kullanma.
Yapı özelliklerinde değişiklik yapma Mining yapısı sekmesi veri Mining Tasarımcısı.
Oluşturma ve yapıları Çözümleme Yönetim Nesneleri (ÇYN) veya xml veri tanımlama dili (ddl) kullanarak program aracılığıyla değiştirme.

Bir araştırma yapısı bölümlemek için veri madenciliği Sihirbazı'nı kullanma

Bir araştırma yapısı için veri kaynaklarını tanımladıktan sonra varsayılan olarak, yüzde 70'inin eğitim ve sınama yüzde 30 bölümlere veri veri madenciliği Sihirbazı bölünecektir.Bu, veri madenciliği, ancak ile sık sık kullanılan bir oranı Analysis Services Bu cins oranı değiştirebilirsinizkendi gereksinimlerini.

Sihirbazı'na da yapılandırabilirsiniz küme en fazla sayıda eğitim servis taleplerini, veya bir belirtilen en fazla sayıda servis talebi kadar taleplerinin en fazla yüzde izin vermek için sınırları birleştirebilirsiniz.En büyük bir servis taleplerinin yüzdesini hem durumlarda en fazla sayısını belirtirken Analysis Services kullanan küçük iki sınırlarının büyüklüğü sınama küme.Örneğin, yüzde 30 gizleme sınama durumlarda ve sınama durumlarda sayısı 1000 belirtirseniz, sınama küme boyutunu 1000 durumlarda hiçbir zaman aşılacak.Bu, sınama boyutu emin olmak istiyorsanız yararlı olabilir küme bile daha fazla eğitim veri modeline eklenir tutarlı kalır.

Aynı veri kaynak görünümü farklı araştırma yapıları için kullanın ve kabaca aynı şekilde tüm Araştırma yapıları ve bunların modelleri veri bölümlenmiş emin olmak istiyorsanız, rastgele örnekleme başlatmak için kullanılan bir tohum belirtmeniz gerekir.Ne zaman size belirtmek için bir değer HoldoutSeed, Analysis Services başlamak için bu değeri kullanınörnekleme. Aksi takdirde, örnekleme tohum değerini oluşturmak için araştırma yapısı adı üzerinde karma algoritmasını kullanır.

Not

Araştırma yapısının bir kopyasını kullanarak oluşturduğunuz, EXPORT ve IMPORT ifadeleri, yeni araştırma yapısı vardır aynı bölüm tanımı, çünkü verme işlemi, yeni bir kimlik oluşturur ancak kullanır aynı adı.Ancak, iki araştırma yapıları aynı temel veri kullanırsanız, kaynak , ancak farklı adlar, her araştırma yapısı farklı olacaktır oluşturan bölümler.

Yapı özelliklerini değiştirme

Oluşturur ve bir araştırma yapısı işlemek ve daha sonra bir test bölümü eklemek istediğiniz karar, madenciliği yapısının özelliklerini değiştirebilirsiniz.Veri bölümlenmiş şeklini değiştirmek için aşağıdaki özelliklerini düzenleyin:

Özellik	Açıklama
HoldoutMaxCases	Sınama dahil etmek için servis taleplerinin sayısı üst sınırını belirtir küme.
HoldoutMaxPercent	Sınama yüzdesi tam olarak ayarlamak dahil etmek için servis taleplerinin sayısını belirtir veri küme.Hiçbir veri küme için 0 belirtirsiniz.
HoldoutSeed	Rastgele veri bölümlerinin seçerken tohum kullanmak için bir tamsayı değeri belirtir.Bu değer, Eğitim küme durumlarda sayısını etkilemez; Bunun yerine, bölüm yinelenen sağlar.

Eklemek veya bir bölümü için varolan yapısını değiştirme, yapısı ve tüm ilişkili modelleri yeniden işleme gerekir.Ayrıca, bir bölümü ekleyerek farklı verilerin alt küme küme küme kümesini üzerinde Eğitilecek modelinin belirsizleşmesine neden olur çünkü sizin modelinden farklı sonuçlar görebilirsiniz.

holdout programlı olarak belirtme

Bölümlenmiş veri oluşturabilirsiniz araştırma yapısı dmx deyimleri, ÇYN veya xml ddl kullanarak.

dmxiçinde veri Mining Extensions (dmx), MINING YAPISI oluşturma deyim genişletilmiş dili ile holdout yan tümce tümce tümce eklemek için.Sözdizimi ve YAPISI oluşturma deyim örnekleri için bkz: ARAŞTIRMA YAPISI (DMX) OLUŞTURMA.

Not

MINING YAPISI alter deyim gizleme parametreleri kullanımını desteklemez.
assl, hem yeni bölümlenmiş araştırma yapıları oluşturabilir ve bölümleri kullanarak varolan veri madenciliği yapıları için ekleme Analysis Services komut dosyası dili (assl).Daha fazla bilgi için bkz: MiningStructure öğesi (assl).
ÇYNda görüntüleyebilir ve ÇYN kullanarak bölümleri değiştireceksiniz.Daha fazla bilgi için bkz: ÇYN kavramlar ve nesne modeli.

Veri madenciliği sorgulayarak varolan bir araştırma yapısında bölümler hakkında bilgi görüntüleyebilirsiniz şema satır kümesi.BULMA çağrısı SATIRKÜMESİ sağlayarak bunu yapabilirsiniz veya dmx sorgu kullanabilirsiniz.Daha fazla bilgi için bkz: Veri madenciliği şema satır kümeleri veya Veri madenciliği şeması satır kümeleri sorgulama (- Analysis Services veri madenciliği).

Bölüm bilgilerini kullanma

eğitmek ve yeni modelleri test etmek için var olan bölümleri kullanın böylece varsayılan olarak, eğitmek ve test bölümleri hakkında tüm bilgileri, önbelleğe alınır.Ayrıca, model üzerinde veri alt kümelerine değerlendirilmesi için önbelleğe alınan gizleme bölüm uygulanacak filtreleri tanımlayabilirsiniz.Daha fazla bilgi için bkz: Veri madenciliği modelleri için filtre oluşturma (- Analysis Services veri madenciliği).

gizleme ve sağladığınız verileri yapılandırma şekline göre durumlarda bölüme ayrılır şekilde bağlıdır.Her bölüm durumlarda sayısı belirlemek veya eğitim ve sınama kümesi dahil Servis talepleriyle ilgili ayrıntıları bulmak istiyorsanız, dmx sorgu oluşturarak modeli yapısına sorgulama yapabilirsiniz.Örneğin, aşağıdaki sorgu kullanılan servis taleplerini modeli Eğitim küme döndürür.

SELECT * from <structure>.CASES WHERE IsTrainingCase()

Yalnızca sınama durumlarda almak ve ayrıca bir araştırma yapısı sütun sınama durumlarda filtre uygulamak için aşağıdaki sözdizimini kullanın:

SELECT * from <structure>.CASES WHERE IsTestCase() AND <structure column name> = '<value>'

Holdout kullanımını sınırlama

gizleme, kullanmak için MiningStructureCacheMode madenciliği yapısının özellik olmalıdır küme için varsayılan değer, KeepTrainingCases.Değiştirirseniz, CacheMode özellik için ClearAfterProcessingve araştırma yapısı yeniden işleme, bölüm kaybolacak.
saat serisi modelleri ile bölümleri kullanamazsınız.Bir bölüm oluşturup, belirten bu nedenle bölümleme dışıdır Microsoft zaman Series algoritması kullanılabilir oluşturma modeli.Araştırma yapısı en durum veya iç içe geçmiş tablo düzey bir anahtar zaman sütun içeriyorsa, bölümleme de devre dışı bırakılır.
Farkında olmadan tam veri küme sınama için kullanmanız için bölümleri yapılandırın ve eğitim için hiçbir veri kullanın.However, Analysis Services will raise an error so that you can correct the problem.Analysis Services also warns you when the structure is processed if more than 50 percent of the data has been held out for testing.
Çoğu durumda, varsayılan gizleme değeri 30 eğitim ve test verileri arasında iyi bir denge sağlar.Ne kadar büyük bir veri küme yeterli eğitim sağlamak olmalıdır veya ne kadar küçük Eğitim küme fazla uygunluk önlemek için olması belirlemek için basit bir yolu yoktur.Ancak, bir model inşa ettik sonra değerlendirmek için karşılıklı doğrulama kullanabilirsiniz veri küme belirli bir modeli ile.Daha fazla bilgi için bkz: Karşılıklı doğrulama (- Analysis Services veri madenciliği).
Özelliklerine ek olarak listelenen önceki tablo, bir salt okunur özellik HoldoutActualSize, ÇYN ve sağlandıxml ddl. Yapı işlendikten sonra bir bölümünün gerçek boyutunu doğru kadar belirlenemediğinden, ancak değerinin almadan önce modeli işlenmemiş olup olmadığını denetlemeniz gereken HoldoutActualSize özellik.