Aracılığıyla paylaş


Terim ayıklama dönüşümü

Terim ayıklama dönüşümü dönüşümü giriş sütunundaki Metinden şartları ayıklar ve sonra Şartlar bir dönüşümü çıktı sütunu yazıyor. Dönüşümün sadece İngilizce metinlerle çalışır ve kendi İngilizce sözlük ve İngilizce dil bilgilerini kullanır.

Terim ayıklama dönüşümü, veri kümesi içeriği bulmak için kullanabilirsiniz. Örneğin, iletileri, geribildirim analizi bir yolu olarak tartışma konuları ayıklamak için terim ayıklama dönüşümü kullanabilir böylece e-posta iletilerini içeren metni ürünler hakkında yararlı geribildirim sağlayabilir.

Ayıklanan terimleri ve veri türleri

Terim ayıklama dönüşümü sözcükler yalnızca, İsim tümcecikleri yalnızca veya sözcükler hem isim aşamaları ayıklayabilirsiniz. Bir isim, bir tek isim ise; bir isim tümcecikleri en az iki sözcük olan bir isim olduğunu ve diğer bir isim veya bir sıfat olduğunu. Örneğin, onu ayıklar gibi terimler dönüşümü yalnızca sözcükler seçeneği kullanılıyorsa, Bisiklet ve manzara; dönüşümün noun phrase seçeneği kullanılıyorsa, bu gibi terimler ayıklayan yeni mavi Bisiklet, Bisiklet kask, ve Bisiklet kutulu.

Makaleler ve zamirler elde değil. Örneğin, terim terim ayıklama dönüşümü ayıklar Bisiklet metin Bisiklet, benim bisiklet, ve o Bisiklet.

Terim ayıklama dönüşümü, o hulasa her dönem için bir Puan üretir. Puan TFIDF değerini veya normalleştirilmiş terimi görünür giriş sayısı anlamına gelen ham frekans olabilir. Bu durumda, 0'dan büyük bir gerçek sayı skor gösterilir. Örneğin, TFIDF puanı 0,5 değerine sahip ve frekans değeri 1.0 veya 2.0 gibi olurdu.

Terim ayıklama dönüşümü çıkış sadece iki sütun içerir. Bir sütun Ayıklanan terimleri ve skor diğer sütun içerir. Sütunlar varsayılan adları Term ve Score. Terim ayıklama dönüşümü çıkış genellikle giriş metin sütun birden fazla terim içerebileceğinden, giriş daha fazla satır var.

Ayıklanan terimleri tabloya yazılır, diğer arama dönüşümün arama terimi, belirsiz arama ve arama dönüşümleri gibi tarafından kullanılabilir.

Terim ayıklama dönüşümü yalnızca metin dt_wstr veya dt_ntext veri türüne sahip bir sütun olarak çalışabilirsiniz. Sütun metin içerir, ancak bu veri türlerinden birini yok, veri dönüşümü yaptırmak dt_wstr ile sütun eklemek için kullanılabilir veya dt_ntext veri veri akışı yazın ve yeni bir sütun için sütun değerleri kopyalayın. Veri dönüşümü yaptırmak çıkışından sonra terim ayıklama dönüşümü giriş olarak kullanılabilir. Daha fazla bilgi için, bkz. Veri dönüştürme dönüşümü.

Dışlama terimleri

Bu dönüşümün bir veri kümesindeki şartları alır zaman atlaması gereken isteğe bağlı olarak, terimi dönüşümü yapabilirsiniz referans dışlama terimleri içeren bir tablo sütunda anlam çıkarma şart. Terim gibi yüksek frekans ile bir sözcük haline gelir çünkü koşullar kümesi zaten önemsiz bir belirli iş ve sanayi, genellikle saptanmıştır bu yararlıdır. Çünkü çok sık öneme sahip belirtilir örneğin, ne zaman arabalar hakkında belirli bir marka müşteri desteği bilgilerini içeren bir veri kümesinden koşulları ayıklanıyor, marka adı dışarıda. Bu nedenle, dışlama listesindeki değerlerin, çalıştığınız veri kümesine özelleştirilmelidir.

Eklediğinizde bir terim dışlama listesine, koşullarını — sözcükleri veya İsim tümcecikleri — terimi içeren de tutulur. Örneğin, tek sözcük dışlama listesi içeriyorsa, veri, bu sözcüğü gibi içeren sonra koşullarını veri, veri incelemesi, veri bütünlüğü, ve veri doğrulama da dışarıda bırakılacaktır. Sözcüğü içeren bileşikler dışlamak istediğiniz veri, açıkça bu bileşik terimleri dışlama listesine eklemeniz gerekir. Örneğin, olaylar ayıklamak istediğiniz veri, çıkar ama veri doğrulama, eklemek istiyorum veri doğrulama dışlama listesi ve emin olun veri dışlama listesinden kaldırılır.

Başvuru tablosu tablo içinde olması gereken bir SQL Serverveya Access veritabanına. Terim ayıklama dönüşümü için başvuru tablosu bağlanmak için ayrı bir ole db bağlantı kullanır. Daha fazla bilgi için, bkz. ole db Bağlantı Yöneticisi.

Terim ayıklama dönüşümü tamamen precached bir modda çalışır. Çalışma zamanında terim ayıklama dönüşümü dışlama terimleri başvuru tablosundan okur ve herhangi bir dönüşüm giriş satırları işler önce kendi özel bellekte saklar.

Ekstraksiyon koşullarının metinden

Terim ayıklama dönüşümü hüküm Metinden ayıklamak için aşağıdaki görevleri gerçekleştirir.

Kelime tanımlaması

Aşağıdaki görevleri gerçekleştirerek ilk terim ayıklama dönüşümü sözcükleri tanımlar:

  • Metin, boşluk, satır sonlarının ve diğer sözcük sonlandırıcılar İngilizce olarak kullanarak kelimelere ayıran. Örneğin, noktalama işaretleri gibi ? ve : sözcük bölme karakterlerdir.

  • Tire veya altçizgi ile bağlı olan sözcükleri koruma. Örneğin, kelime kopya korumalı ve salt bir kelime kalır.

  • Dönemleri dahil olduğu gibi kısaltmalar tutmak. Örneğin, a.b.c şirket tokenized olarak abc ve Şirket.

  • Özel karakterler kelimeleri bölme. Örneğin, word Tarih/Saat olarak çıkarılan tarihi ve zaman, (bisiklet) olarak Bisiklet, C# tedavi c. Özel karakterler atılır ve lexicalized olamaz.

  • Kesme işareti gibi özel karakterler kelime değil böldüğünüzde bilincinde. Örneğin, word Bisiklet 's iki sözcüklere bölmek değil ve verimleri tek terim Bisiklet (isim).

  • Zaman ifadeleri, parasal ifadeler, e-posta adresleri ve posta adreslerini bölme. Örneğin, tarihi 31 Ocak 2004 üç belirteçleri ayrılmış Ocak, 31, ve 2004.

Tagged sözcükler

İkinci olarak, terim ayıklama dönüşümü sözcükleri aşağıdaki bölümleri of konuşma biri olarak Etiketler:

  • Tekil şeklinde bir isim. Örneğin, Bisiklet ve patates.

  • Çoğul şeklinde bir isim. Örneğin, Bisiklet ve patates. Doğan tabi değil lemmatized bütün çoğul sözcükler vardır.

  • Bir sıfat tekil şeklinde. Örneğin, Nisan ve Peter.

  • Bir sıfat çoğul şeklinde. Örneğin Aprils ve Engin. İçin bir özel doğan tabi olmaya ad, standart İngilizce kelimeleri sınırlı iç sözlüğü bir parçası olmalıdır.

  • Bir sıfat. Örneğin, mavi.

  • İki şey karşılaştırır karşılaştırmalı bir sıfat. Örneğin, yüksek ve uzun.

  • Bir kalite düzeyi en az iki diğerlerinin altında veya üstünde olan bir şey tanıtan üstün bir sıfat. Örneğin, en ve uzun.

  • Bir sayı. Örneğin, 62 ve 2004.

Bu bölümleri of konuşma biri olmayan sözcükler yoksayılır. Örneğin, fiil ve zamirler atılır.

[!NOT]

Bölümleri of konuşma etiketleme istatistiksel bir modelini temel alır ve etiketleme tamamen doğru olmayabilir.

Terim ayıklama dönüşümü yalnızca sözcükler ayıklamak için yapılandırılmışsa, tekil veya çoğul sözcükler ve formları sözcükler Etiketlenmiş kelime ayıklanır.

Terim ayıklama dönüşümü, sadece İsim tümcecikleri ayıklamak için yapılandırılmışsa, sözcükler, sözcükler, Sıfat ve sayı Etiketlenmiş kelimeleri bir isim ifade yapmak için kombine edilebilir, ancak bir isim ya da bir sıfat tekil veya çoğul biçimi olarak etiketli en az bir kelime ifade içermelidir. Örneğin, isim ifade en yüksek Dağı üstün bir sıfat olarak etiketli bir sözcüğü birleştirir (en) ve isim etiketli bir kelime (dağ).

Terim ayıklama, sözcükler ve İsim tümcecikleri ayıklamak için yapılandırılmışsa, hem sözcükler için kuralları hem de İsim tümcecikleri kuralları uygulanır. Örneğin, ayıklayan dönüşüm Bisiklet ve güzel mavi Bisiklet metin çok güzel mavi Bisiklet.

[!NOT]

Ayıklanan terimleri dönüşümün kullanan en fazla dönem uzunluğunu ve frekans eşik tabi kalır.

Stemmed sözcükler

Terim ayıklama dönüşümü, sadece tekil bir isim, ayıklamak için sözcükler de kaynaklanmaktadır. Örneğin, ayıklayan dönüşüm adam dan erkekler, fare dan fareler, ve Bisiklet dan Bisiklet. Kök sözcükler sözlükten dönüşümü kullanır. Eğer sözlükte ulaç sözcükler kabul edilir.

Terim ayıklama dönüşümü sözcükleri kendi sözlük oluşturmak için terim ayıklama dönüşümü iç sözlüğü kullanarak bu örneklerde gösterildiği gibi kaynaklanıyor.

  • Kaldırma s gelen sözcükler. Örneğin, Bisiklet olur Bisiklet.

  • Kaldırma es gelen sözcükler. Örneğin, öyküleri olur hikaye.

  • Tekil için düzensiz sözcükler sözlükten alınıyor. Örneğin, kazlar olur kaz.

Normalleştirilmiş sözcükler

Terim ayıklama dönüşümü yalnızca bir cümle içindeki konumlarını nedeniyle katılamayacağını şartları normalleştirir ve büyük harf olmayan formu yerine kullanır. Örneğin ifadeler de köpek kedi kovalamak ve dağ yolları dik, köpekler ve dağ için normalleştirilmiş köpek ve dağ.

Böylece sözcükler büyük harfle yazılmış ve noncapitalized sürümleri farklı Şartlar olarak kabul edilmediği için terim ayıklama dönüşümü sözcükleri normalleştirir. Örneğin, metin içinde Seattle birçok Bisiklet görmek ve Bisiklet mavi, Bisiklet ve Bisiklet aynı terimi tanınan ve dönüşümün sadece tutar Bisiklet. Sözcükler ve iç sözlükte listelenmeyen sözcükleri normalleştirilmiş değil.

Büyük küçük harf duyarlı normalleştirme

Terim ayıklama dönüşümü sözcükleri büyük harf ve küçük harf veya farklı türevlerini aynı terimi iki ayrı dönem olarak dikkate yapılandırılabilir.

  • Dönüşümün farklılıklar durumda tanımak için yapılandırılmışsa, şartlar ister yöntemi ve yöntemi iki farklı dönem ayıklanır. Bir cümlenin ilk sözcüğünü olmayan büyük harfli sözcükleri normalleştirilmiş asla ve sözcükler etiketlenir.

  • Dönüşümün harf büyüklüğüne duyarsız olarak yapılandırılan koşulları gibi yöntemi ve yöntemi tek terim çeşitleri tanınıyor. Ayıklanan terimleri listesi ya da içerebilir yöntemi veya yöntemi, hangi kelime ilk giriş veri kümesinde olursa bağlı. Eğer yöntemi sadece bir cümlenin ilk sözcüğünü olduğu için normalleştirilmiş formda ayıklanır dönüştürülüyor.

Cümle ve sözcük sınırları

Terim ayıklama dönüşümü, cümle cümle sınırları aşağıdaki karakterleri kullanarak içine metin ayırır:

  • ASCII satır sonu karakterleri 0x0d (satırbaşı) ve 0x0a (satır besleme). Bu karakter bir cümle sınır kullanmak için bir satırda iki veya daha fazla satır sonu karakteri bulunmalıdır.

  • Tire (-). Bu karakter bir cümle sınır kullanmak için sola ya da sağa, tire ne karakter harf olabilir.

  • Alt çizgi (_). Bu karakter bir cümle sınır kullanmak için sola ya da sağa, tire ne karakter harf olabilir.

  • Az daha veya 0x19 eşit veya daha büyük ya da eşit 0x7b tüm Unicode karakterler.

  • Sayıları, noktalama işaretlerini ve alfabetik karakter birleşimleri. Örneğin, A23B # 99 terim verir A23B.

  • The characters, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.

    [!NOT]

    Bir veya daha fazla nokta (.) içeren kısaltmalar birden fazla cümle ayrılmış değil.

Sonra terim ayıklama dönüşümü sözcükleri kullanarak aşağıdaki sözcük sınırları cümle ayırır:

  • Boşluk

  • Sekme

  • ASCII 0x0d (satırbaşı)

  • ASCII 0x0a (satır besleme)

    [!NOT]

    Kesme işareti bir kelime bir daralma gibi olduğunu, we're veya 's, sözcük kesme; kırık Aksi takdirde, kesme işareti aşağıdaki harfleri atılır. Örneğin, biz içine bölünmüş biz ve senin, ve Bisiklet 's için kesilmiş Bisiklet.

Terim ayıklama dönüşümü yapılandırma

Metin ayıklama dönüşümü iç algoritmaları ve istatistiksel modeller sonuçları üretmek için kullanır. Sonuçları metin incelemesi çözümünüz için çalışan sonuçlarının türünü oluşturmak için dönüşümü yapılandırmak inceleyin ve terim ayıklama dönüşümü birkaç kez çalıştırmak gerekebilir.

Terim ayıklama dönüşümü, normal bir giriş, bir çıkış ve bir hata çıktı vardır.

Aracılığıyla özelliklerini ayarlayabilirsiniz SSISTasarımcısı veya programlı olarak.

Sen-ebilmek koymak içinde özellikleri hakkında daha fazla bilgi için Terim ayıklama dönüşümü Düzenleyicisi iletişim kutusunda, aşağıdaki konulardan birini tıklatın:

Sen-ebilmek koymak içinde özellikleri hakkında daha fazla bilgi için Gelişmiş Düzenleyici iletişim kutusu veya programlı olarak aşağıdaki konulardan birini tıklatın:

Özellikleri ayarlama hakkında daha fazla bilgi için bkz: Veri akışı bileşen özelliklerini ayarlama.

İlişkili İçerik

Integration Services simgesi (küçük) Integration Services ile güncel kalın

En son karşıdan yüklemeler, makaleler, örnekler ve Microsoft video yanı sıra topluluk seçili çözümleri için ziyaret Integration ServicesMSDN sayfası:


Bu güncelleştirmelerle ilgili otomatik bildirim almak için, sayfadaki RSS akışlarına abone olun.