Aracılığıyla paylaş


Terim ayıklama dönüşümü

Terim ayıklama dönüşümü dönüşümü giriş sütunundaki metinden şartları ayıklar ve sonra şartları için yazdığı bir dönüştürme çıktısı sütun.dönüştürme Ve İngilizce metin ile çalışır, kendi İngilizce Sözlük ve İngilizce dil bilgilerini kullanır.

Terim ayıklama dönüştürme, veri küme içeriği bulmak için kullanabilirsiniz.Örneğin, iletileri görüş çözümlenirken bir yolu olarak, tartışma konuları ayıklamak için terim ayıklama dönüştürme kullanabilir böylece e-posta iletilerini içeren metni ürünleri hakkında yararlı geribildirim sağlayabilir.

Terim ayıklamak dönüştürme yalnızca isimleri, yalnızca, ad tamlamaları veya hem isimleri ve isim aşamaları ayıklayabilirsiniz.Bir isim, bir tek isim ise; ad tamlamaları, biri bir isim ve diğer bir isim veya bir sıfat ise en az iki sözcük var.dönüştürme salt isimleri seçeneği kullanılıyorsa, örneğin, onu benzer terimleri ayıklayan bisiklet ve Yatay; dönüştürme isim tümcecik seçeneğini kullanır benzer terimleri ayıklayan Yeni mavi bisiklet, bisiklet helmet, ve Kutulu bisiklet.

Makaleler ve zamirler ayıklanır değil.Örneğin, bu terim terim ayıklama dönüştürme ayıklar bisiklet metinden bisiklet, Benim bisiklet, ve o bisiklet.

Farklı terimler gibi sözcükleri büyük harfli ve noncapitalized sürümleri davranılmasını terim ayıklama dönüştürme sözcükleri normalleştirir.Örneğin, metinde İzmir birçok bisiklet görmek ve bisiklet mavi, bisiklet ve bisiklet aynı terimi tanınan ve dönüştürme yalnızca tutar bisiklet.Uygun isimleri ve iç sözlükte listelenen sözcükleri normalleştirilmiş değil.

Terim ayıklama dönüştürme, sadece tekil bir isim, ayıklamak için isimleri de kaynaklandığını.Örneğin, dönüştürme ayıklar ADAM dan men, Fare dan fareler, ve bisiklet dan bisiklet.dönüştürme İsimleri nedeniyle kendi sözlük kullanır.Sözlükte, gerunds isimleri kabul edilir.

Terim ayıklama dönüştürme yalnızca metin dt_wstr veya dt_ntext veri türüne sahip bir sütun olarak çalışabilirsiniz.Bir sütuna metin içeriyor ancak bu veri türlerinden birini değil, dt_wstr ile sütun eklemek için veri dönüştürme dönüşümü kullanılan veya verileri dt_ntext veri akışı yazın ve yeni bir sütun için sütun değerleri kopyalamak.Veri dönüştürme dönüşümü çıktı, daha sonra terim ayıklama dönüşümü giriş olarak kullanılabilir.Daha fazla bilgi için bkz: Veri dönüştürme dönüşümü.

Terim ayıklama dönüştürme ayıklar, her terim için bir puan üretir.Skor, bir TFIDF değer veya normalleştirilmiş terimi görünür giriş sayısı anlamına gelen ham sıklığı olabilir.Ya da, durum, skoru 0'dan büyük bir gerçek sayı ile temsil edilir.Örneğin, TFIDF puanı 0,5 değerine sahip ve sıklığını 1.0 veya 2.0 gibi bir değer olacaktır.

İsteğe bağlı olarak, terimi dönüştürme dışlama terimleri içeren bir tablo sütunda başvuru yani ayıklama koşullarına şartlarından ayıklar, dönüşümün atlamalısınız, bir veri küme.Bu ne zaman yararlıdır bir küme terimi ile gibi yüksek frekans etkisiz sözcük olur çünkü koşulları zaten inconsequential bir belirli bir iş ve endüstri, tipik olarak belirlenmiştir.Çünkü çok sık sahip açıklanan Örneğin, otomobiller hakkında belirli bir marka müşteri desteği bilgilerini içeren bir veri kümenden koşulları Ayıklanıyor, marka adı dışarıda anlamlı değer.Bu nedenle, birlikte çalıştığınız veri küme için dışlama listesindeki değerlerin özelleştirilmelidir.

Eklediğinizde, bir terim dışlama listesine tüm terimleri — sözcük veya ad tamlamaları — terimi içeren da dışarıda.Tek sözcük dışlama listesini içerir, örneğin, veri, bu sözcüğü gibi içeren sonra tüm koşulları veri, veri madenciliği, veri bütünlük, ve veri doğrulama da dışarıda bırakılacaktır.Sözcüğü içeren bileşimden çıkarmak istediğiniz veri, açıkça bu bileşik terimlerin dışlama listesine eklemeniz gerekir.İncidences, ayıklamak istediğiniz, örneğin, veri, ancak veri doğrulama, eklemek veri doğrulama dışlama için listelemek ve emin olun veri dışlama listesinden kaldırılır.

Başvuru tablosu tablo içinde olması gereken bir SQL Server 2000, bir SQL Server, veya bir Access veritabanını.Terim ayıklama dönüştürme bağlanmak için başvuru için ayrı bir ole db bağlantı kullanır tablo.Daha fazla bilgi için bkz: ole db Bağlantı Yöneticisi.

Terim ayıklama dönüştürme tamamen açma modunda çalışır.Çalışma sırasında saat, dışlama başvuru tablosundan koşullarına ve tüm dönüştürme girdisi satırları işler önce özel belleğinde saklar terim ayıklama dönüştürme okur.

Ayıklanan terimleri yazılır, bir tablo, terim arama, belirsiz arama ve arama dönüşümleri gibi diğer arama dönüştürme tarafından kullanılabilir.

Terim ayıklama dönüştürme çıktı yalnızca iki sütun içerir.Ayıklanan terimleri bir tane sütun içeriyorsa ve Skor bir sütun içerir.Sütunlarının varsayılan adları olan Term ve Score.Çünkü metin sütun içinde giriş birden çok koşulları içerebilir, terim ayıklama dönüştürme çıktı genellikle daha fazla satırdan fazla giriş vardır.

Metin ayıklama dönüştürme iç algoritmaları ve istatistiksel modeller, sonuçlar üretmek için kullanır.Terim ayıklama dönüştürme birkaç kez çalıştırmak ve sonuçlar metin madenciliği çözümünüz için çalışır türünü oluşturmak için dönüşümün yapılandırmak için sonuçlar incelemek zorunda kalabilirsiniz.

Terim ayıklama dönüştürme, normal bir giriş, bir çıkış ve bir hata çıktı vardır.

Metinden koşulları ayıklanıyor

Şartları metinden ayıklamak için terim ayıklama dönüştürme aşağıdaki görevleri gerçekleştirir.

Tokenizing metin

İlk olarak, aşağıdaki görevleri gerçekleştirerek terim ayıklama dönüştürme sözcükleri tanımlar:

  • Metin, boşluk, satır sonlarının ve diğer word Kesiciler İngilizce olarak kullanarak sözcüklere ayırma.Örneğin, noktalama işaretleri gibi ? and : sözcük bölme karakterlerdir.

  • Koruma, tire veya altçizgi birbirine bağlı sözcükleri.Örneğin, sözcük kopya korumalı ve salt okunur bir sözcük olarak kalır.

  • Dönemleri dahil olduğu gibi kısaltmalar kalmasını sağlar.Örneğin, a.b.c şirket tokenized olarak abc ve Şirket.

  • Özel karakterler üzerinde sözcük bölme.Örneğin, word tarih/saat olarak ayıklanmış tarihi ve zaman, (bisiklet) olarak bisiklet, ve C# c.Özel karakterler atılır ve lexicalized olamaz.

  • Kesme gibi özel karakterler sözcüklere bölmek zaman tanıma.Örneğin, word bisiklet 's iki sözcüklere bölmek ve tek terim üretir bisiklet (isim).

  • saat ifadeler, parasal ifadeler, e-posta adresleri ve posta adreslerini bölme.Örneğin, tarih 31 Ocak 2004 üç alıntı içinde ayrılmış Ocak, 31, ve 2004.

Sözcük etiketleme

İkinci olarak, terim ayıklama dönüştürme sözcükleri aşağıdaki bölümleri of konuşma biri olarak etiketler:

  • Tekil içinde bir isim.Örneğin, bisiklet ve potato.

  • Çoğul olarak bir isim.Örneğin, bisiklet ve Patatesler.Lemmatized tüm çoğul isimleri dallanma tabi olur.

  • Uygun isim tekil içinde.Örneğin, Nisan ve Peter.

  • Uygun isim çoğul olarak.Örneğin Aprils ve Peters.Bir özel dallanma tabi olması isim için standart İngilizce sözcükler için sınırlı iç sözlüğü bir parçası olması gerekir.

  • Bir sıfat.Örneğin, mavi.

  • İki şey karşılaştırır etken bir sıfat.Örneğin, yüksek ve uzun.

  • Bir kalite düzey en az iki diğerlerinin altında veya üstünde olan bir şeyi tanımlar superlative sıfat.Örneğin, en ve en uzun.

  • Bir sayı.Örneğin, 62 ve 2004.

Bu bölümleri of konuşma biri olmayan sözcükler yoksayılır.Örneğin, fiil ve zamirler atılır.

Not

Bölümleri of konuşma etiketleme istatistiksel bir modelini temel alır ve etiketleme tamamen doğru olmayabilir.

Terim ayıklama dönüştürme yalnızca isimleri ayıklamak için yapılandırılmışsa, yalnızca tekil veya çoğul biçimleri isimleri ve uygun isimleri etiketli sözcükler ayıklanır.

Terim ayıklama dönüştürme yalnızca ad tamlamaları ayıklamak için yapılandırılmışsa, isimleri, uygun isimleri, sıfatları ve sayı etiketli sözcükleri tümcecik isim yapmak birleştirilebilir, ancak bir tekil veya çoğul formu olan bir isim veya uygun isim etiketli en az bir word tümcecik içermesi gerekir.Örneğin, isim ifade en yüksek dağ superlative bir sıfat etiketlenmiş bir sözcüğü birleştirir (en yüksek) ve isim etiketlenmiş bir sözcük (dağ).

Terim ayıklama isimleri hem de ad tamlamaları ayıklamak için yapılandırılmışsa, hem isimleri için kurallar ve ad tamlamaları kuralları uygulanır.Örneğin, dönüştürme ayıklar bisiklet ve güzel mavi bisiklet metinden çok güzel mavi bisiklet.

Not

Ayıklanan terimleri tabi en yüksek kalması, uzunluğu ve sıklık eşiği terim dönüştürme kullanır.

Sözcükleri dallanma

Üçüncü olarak, terim ayıklama dönüştürme sözcükleri kendi sözlük form için terim ayıklama dönüştürme için dahili sözlüğünü kullanarak aşağıdaki örneklerde gösterildiği gibi kaynaklandığını.

  • Kaldırma s isimleri arasında.Örneğin, bisiklet olur bisiklet.

  • Kaldırma es isimleri arasında.Örneğin, öyküleri olur Öykü.

  • Tekil düzensiz isimleri için sözlükten alınıyor.Örneğin, geese olur goose.

Sözcük normalleştirme

Terim ayıklama dönüştürme cümle içindeki konumlarını nedeniyle yalnızca büyük harfli terimler normalleştirir ve bunların sermayeye form yerine kullanır.Sözcükler, örneğin, köpekler, kediler chase ve yüksek dağ yolları, köpekler ve dağ için normalleştirilmiş köpek ve dağ.

Büyük küçük harf duyarlı normalleştirme kullanma

Terim ayıklama dönüştürme sözcükleri büyük harf ve küçük harf ya da farklı terimler veya farklı türevlerini aynı terimi olarak dikkate alınacak yapılandırılabilir.

  • Şartları dönüştürme durum farklılıkları tanıyacak şekilde yapılandırılmışsa, ister yöntem ve yöntem iki farklı terimler ayıklanır.Bir cümlenin ilk sözcüğünü olmayan büyük harfli sözcükleri hiçbir zaman normale döndü ve uygun isimleri etiketlenir.

  • dönüştürme olacak şekilde yapılandırılmışsa, durum-duyarlı, şartları ister yöntem ve yöntem tek bir terim türevleri tanınır.Ayıklanan terimleri listesi ya da içerebilir yöntem veya yöntem, hangi word ilk girişte olursa bağlı veri küme.If Method is capitalized only because it is the first word in a sentence, it is extracted in normalized form.

Tümce ve sözcük sınırları

Terim ayıklama dönüştürme cümle cümle sınırları aşağıdaki karakterleri kullanarak içine metin ayırır:

  • Satır sonu karakterleri ASCII 0x0d (başı) ve 0x0a (satır besleme).Bu karakter bir cümle sınırı kullanılacak olması gerekir iki veya daha fazla satır sonu karakterleri bir satırda.

  • Tire (-).Bu karakter bir cümle sınırı kullanmak için her iki karakter sol ve sağ tarafında tire bir harf olabilir.

  • Alt çizgi (_).Bu karakter bir cümle sınırı kullanmak için her iki karakter sol ve sağ tarafında tire bir harf olabilir.

  • Daha az'den veya 0x19 eşit veya daha büyük veya eşit 0x7b tüm Unicode karakterler.

  • Sayıları, noktalama işaretlerini ve alfabetik karakter birleşimleri.Örneğin, A23B # 99 terim verir A23B.

  • The characters, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.

    Not

    Birden fazla cümle bir veya daha fazla nokta (.) içeren kısaltmalar ayrılır.

Sonra terim ayıklama dönüştürme sözcükleri kullanarak aşağıdaki sözcük sınırlarının cümle ayırır:

  • Boşluk

  • Sekmesi

  • ASCII 0x0d (başı)

  • ASCII 0x0a (satır besleme)

    Not

    Kesme işareti bir sözcük olan bir contraction gibi olup Web'deyiz veya ,, word kesme; bozulur Aksi takdirde, kesme aşağıdaki harfleri atılır.Örneğin, biz olduğunuz içine split biz ve olduğunuz, ve bisiklet 's için kesildikten bisiklet.

Terim ayıklama dönüşümü yapılandırma

Yapabilirsiniz küme Özellikler'inde SSIS Tasarımcısı veya programlı olarak.

Yapabilirsiniz özellikleri hakkında daha fazla bilgi için küme , Terim ayıklama dönüşümü Düzenleyicisi iletişim kutusunda, aşağıdaki konulardan birini tıklatın:

Yapabilirsiniz özellikleri hakkında daha fazla bilgi için küme , Gelişmiş Düzenleyici iletişim kutusunda veya programlı olarak aşağıdaki konulardan birini tıklatın:

Özellikleri küme hakkında daha fazla bilgi için bkz: Nasıl yapılır: Bir veri akışı bileşen özelliklerini ayarlama.

Integration Services simgesi (küçük)Integration Services ile güncel kalın

En son karşıdan yüklemeler, makaleler, örnekler ve seçilen topluluk çözümleri yanı sıra Microsoft videolar için ziyaret Integration Services sayfa msdn veya TechNet:

Bu güncelleştirmelerle ilgili otomatik bildirim almak için, sayfadaki RSS akışlarına abone olun.