資料行模式設定檔要求選項 (資料分析工作)

適用於:SQL Server Azure Data Factory 中的 SSIS Integration Runtime

您可以使用 [設定檔要求] 頁面的 [要求屬性] 窗格,針對要求窗格中選取的 [資料行模式設定檔要求] 設定選項。 資料行模式設定檔會報告一組規則運算式,其中涵蓋了字串資料行中值的指定百分比。 這個設定檔可協助您識別資料中的問題,例如無效的字串,而且可以建議未來可用於驗證新值的規則運算式。 舉例來說,「美國郵遞區號」資料行的模式設定檔可能會產生規則運算式 \d{5}-\d{4}、\d{5} 和 \d{9}。 如果您看見其他規則運算式,表示您的資料可能包含無效或格式錯誤的值。

注意

本主題所描述的選項會顯示在 [資料分析工作編輯器][設定檔要求]頁面上。 如需此編輯器頁面的詳細資訊,請參閱資料分析工作編輯器 (設定檔要求頁面)

如需如何使用資料分析工作的詳細資訊,請參閱 資料分析工作的設定。 如需如何使用資料設定檔檢視器來分析資料分析工作輸出的詳細資訊,請參閱 資料設定檔檢視器

了解分隔符號和符號的使用方式

針對 [資料行模式設定檔要求] 計算模式之前,資料分析工作會 Token 化資料。 也就是說,此工作會將字串值分隔成名為 Token 的較小單位。 此工作會根據您針對 [分隔符號] 和 [符號] 屬性指定的分隔符號和符號,將字串分隔成 Token:

  • 分隔符號 :根據預設,分隔符號清單包含下列字元:空格、水平定位字元 (\t)、新行字元 (\n) 和歸位字元 (\r)。 雖然您可以指定其他分隔符號,但是無法移除預設的分隔符號。

  • 符號:根據預設,[符號] 清單包含下列字元:,.;:-"'~=&/@!?()<>[]{}|#*^% 以及刻度標記。 例如,如果這些符號是 "()-","(425) 123-4567" 值就會 Token 化成為 ["(", "425", ")", "123", "-", "4567", ")"]。

一個字元無法同時屬於分隔符號和符號。

所有分隔符號都會在 Token 化程序中正規化成為單一空格,而符號則會保留。

了解標記資料表的使用方式

您可以選擇使用單一標籤聚集相關的 Token,方法是將標籤和相關的詞彙儲存在您在 SQL Server 資料庫中建立的特殊資料表中。 標記資料表必須具有兩個字串資料行:一個名為「標記」,而另一個名為「詞彙」。 這些資料行的類型可以是 charncharvarcharnvarchar,但不得為 textntext。 您可以在單一資料表中結合多個標記和對應的詞彙。 一個資料行模式設定檔要求只能使用一份標記資料表。 您可以使用個別的 ADO.NET 連線管理員連線到標籤資料表。 因此,標記資料表可以位於不同的資料庫中或與來源資料位於不同的伺服器上。

例如,您可以使用單一標記「方向」,將可能顯示在街道地址中的「東」、「西」、「北」和「南」值組成群組。 下表是這類標記資料表的範例。

Tag 詞彙
方向
方向 West
方向
方向

您可以使用另一個標記,將在街道地址中表示「街道」概念的不同字詞組成群組:

Tag 詞彙
Street Street
Street
Street 位置
Street

根據這種標記的組合,街道地址的產生模式可能會類似於下列模式:

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

注意

使用標記資料表會降低資料分析工作的效能。 請勿使用超過 10 個標記或使用超過 100 個詞彙 (每個標記)。

相同的詞彙可以屬於多個標記。

要求屬性選項

[要求屬性] 窗格會針對 [資料行模式設定檔要求] 顯示下列選項群組:

  • [資料],其中包括 [TableOrView][資料行] 選項。

  • 一般

  • 選項

資料選項

ConnectionManager
選取現有的 ADO.NET 連線管理員,以便使用 .NET Data Provider for SQL Server (SqlClient) 來連線至包含待分析資料表或檢視表的 SQL Server 資料庫。

[TableOrView]
選取包含要分析之資料行的資料表或檢視表。

如需詳細資訊,請參閱本主題中的「TableorView 選項」一節。

資料行
選取要分析的現有資料行。 選取 (*) 來分析所有資料行。

如需詳細資訊,請參閱本主題中的「資料行選項」一節。

TableOrView 選項

結構描述
指定選取之資料表所屬的結構描述。 此選項是唯讀的。

Table
顯示選取之資料表的名稱。 此選項是唯讀的。

資料行選項

IsWildCard
指定是否選取 (*) 萬用字元。 如有選取 (*) 分析所有的資料行,此選項會設定為 [True]。 如果您已選取要分析的個別資料行,它就會設定為 [False] 。 此選項是唯讀的。

ColumnName
顯示所選取資料行的名稱。 若選取了 (*)) 分析所有的資料行,此選項會空白。 此選項是唯讀的。

StringCompareOptions
這個選項不會套用至資料行模式設定檔。

一般選項

RequestID
輸入描述性名稱,以便識別這個設定檔要求。 一般而言,您不需要變更自動產生的值。

選項。

MaxNumberOfPatterns
指定您想讓設定檔計算的模式數目上限。 這個選項的預設值為 10。 最大值為 100。

PercentageDataCoverageDesired
指定您想讓計算模式涵蓋的資料百分比。 這個選項的預設值為 95 (%)。

CaseSensitive
指出模式是否應該區分大小寫。 此選項的預設值是 [False]

分隔符號
列出在 Token 化文字時應該視為字詞之間空格對等項目的字元。 根據預設,[分隔符號] 清單包含下列字元:空格、水平定位字元 (\t)、新行字元 (\n) 和歸位字元 (\r)。 雖然您可以指定其他分隔符號,但是無法移除預設的分隔符號。

如需詳細資訊,請參閱本主題前面的「了解分隔符號和符號的使用方式」。

Symbols
列出應該保留成為模式一部分的符號。 範例可能包括 "/" (代表日期)、":" (代表時間) 和 ‘\@’ (代表電子郵件地址)。 根據預設,[符號] 清單包含下列字元:,.;:-"'~=&/@!?()<>[]{}|#*^%

如需詳細資訊,請參閱本主題前面的「了解分隔符號和符號的使用方式」。

TagTableConnectionManager
選取現有使用 .NET Data Provider for SQL Server (SqlClient) 的 ADO.NET 連線管理員,以連線至包含標籤資料表的 SQL Server 資料庫。

如需詳細資訊,請參閱本主題前面的「了解標記資料表的使用方式」。

TagTableName
選取現有的標記資料表,其中必須具有兩個分別名為「標記」和「詞彙」的資料行。

如需詳細資訊,請參閱本主題前面的「了解標記資料表的使用方式」。

另請參閱

資料分析工作編輯器 (一般頁面)
單一資料表快速分析表單 (資料分析工作)