Share via


詞彙查閱轉換

「詞彙查閱」轉換會比對從轉換輸入資料行的文字中擷取的詞彙,以及參考資料表中的詞彙。然後,它會計算查閱資料表中的詞彙在輸入資料集中出現的次數,並將計數與參考資料表的詞彙一起寫入轉換輸出中的資料行。此轉換包括單字頻率統計資料,對基於輸入文字建立自訂單字清單很有用處。

在「詞彙查閱」轉換執行查閱之前,它會使用與「詞彙擷取」轉換相同的方法從輸入資料行的文字中擷取單字:

  • 文字分解為句子。

  • 句子分解為單字。

  • 單字會正規化。

若要進一步自訂要比對的詞彙,可以設定「詞彙查閱」轉換,以執行區分大小寫的比對。

「詞彙查閱」會使用下列規則執行查閱並傳回值:

  • 如果設定轉換執行區分大小寫的比對,則會捨棄使區分大小寫比較失敗的比對。例如,會將 studentSTUDENT 視為不同的單字。

    [!附註]

    未大寫的單字可與在句子開頭大寫的單字進行比對。例如,當 Student 為句子第一個單字時,studentStudent 之間的比對則會成功。

  • 如果名詞或名詞片語的複數形式存在於參考資料表中,則查閱只會比對名詞或名詞片語的複數形式。例如,students 的所有執行個體都會在 student 的執行個體之外另行計數。

  • 如果在參考資料表中找到單字的單數形式,則單字或片語的單數及複數形式都會與單數形式比對。例如,如果查閱資料表包含 student,且轉換找到單字 studentstudents,則會將這兩個單字作為查閱詞彙 student 的相符部份進行計數。

  • 如果輸入資料行中的文字是還原的名詞片語,則只有該名詞片語中的最後一個單字會受正規化影響。例如,doctors appointments 的還原版本是 doctors appointment

當查閱項目在參考集中包含重疊的詞彙 (即,在一個以上參考記錄中找到子詞彙) 時,「詞彙查閱」轉換只會傳回一個查閱結果。下列範例顯示查閱項目包含重疊子詞彙時的結果。此處的重疊子詞彙為 Windows,其在兩個參考詞彙中均有找到。不過,轉換不會傳回兩個結果,只傳回單一參考詞彙 Microsoft Windows。第二個參考詞彙 Windows XP Home Edition SP1 則不會傳回。

項目

輸入詞彙

Microsoft Windows XP Home Edition SP

參考詞彙

Microsoft Windows、Windows XP Home Edition SP1

輸出

Microsoft Windows

「詞彙查閱」轉換可以比對包含特殊字元的名詞及名詞片語,且參考資料表中的資料可能包含這些字元。特殊字元如下:%、@、&、$、#、*、:、;、.、,、!、?、<、>、+、=、^、~、|、\、/、(、)、[、]、{、}、“和‘。

「詞彙查閱」轉換只可以使用具有 DT_WSTR 或 DT_NTEXT 資料類型的資料行。如果資料行包含文字,但不具有這些資料類型的其中之一,則「資料轉換」可以將具有 DT_WSTR 或 DT_NTEXT 資料類型的資料行加入資料流程,並將資料行值複製至新資料行。然後,「資料轉換」的輸出可以用作「詞彙查閱」轉換的輸入。如需詳細資訊,請參閱<資料轉換>。

「詞彙查閱」轉換輸入資料行包含 InputColumnType 屬性,指出資料行的用法。InputColumnType 可包含下列值:

  • 值 0 表示資料行只傳遞至輸出,且不在查閱中使用。

  • 值 1 表示資料行只在查閱中使用。

  • 值 2 表示資料行傳遞至輸出,且亦在查閱中使用。

InputColumnType 屬性設為 0 或 2 的轉換輸出資料行包含資料行的 CustomLineageID 屬性,其包含上游資料流程元件指派給該資料行的歷程識別碼。

「詞彙查閱」轉換會將兩個資料行 (依預設,命名為 Term 及 Frequency) 加入轉換輸出。Term 包含查閱資料表的詞彙,而 Frequency 包含參考資料表中的該詞彙在輸入資料集中出現的次數。這些資料行不包含 CustomLineageID 屬性。

查閱資料表必須是 SQL Server 2000、SQL Server 或 Access 資料庫中的資料表。如果將「詞彙擷取」轉換的輸出儲存為資料表,則此資料表可以當做參考資料表使用,但是也可以使用其他資料表。在您可以使用「詞彙查閱」轉換之前,一般檔案、Excel 活頁簿或其他來源中的文字必須匯入至 SQL Server 資料庫或 Access 資料庫。

「詞彙查閱」轉換會使用個別 OLE DB 連接,以連接到參考資料表。如需詳細資訊,請參閱<OLE DB 連接管理員>。

「詞彙查閱」轉換以完全預先快取模式運作。在執行階段,「詞彙查閱」轉換在處理任何轉換輸入資料列之前,會從參考資料表讀取詞彙,並將其儲存於其私用記憶體中。

因為輸入資料行資料列中的詞彙可能重複,所以「詞彙查閱」轉換的輸出一般比轉換輸入擁有更多的資料列。

轉換擁有一項輸入和一項輸出。但它不支援錯誤輸出。

設定詞彙查閱轉換

您可以透過「SSIS 設計師」或以程式設計的方式設定屬性。

如需有關可在 [詞彙查閱轉換編輯器] 對話方塊中設定之屬性的詳細資訊,請按一下下列主題之一:

如需有關可以在 [進階編輯器] 對話方塊中或以程式設計方式設定之屬性的詳細資訊,請按一下下列其中一個主題:

如需有關如何設定屬性的詳細資訊,請參閱<如何:設定資料流程元件的屬性>。

Integration Services 圖示 (小) 掌握 Integration Services 的最新狀態

若要取得 Microsoft 的最新下載、文件、範例和影片以及社群中的選定解決方案,請瀏覽 MSDN 或 TechNet 上的 Integration Services 頁面:

若要得到這些更新的自動通知,請訂閱該頁面上所提供的 RSS 摘要。