Udostępnij za pośrednictwem


Fuzzy Grouping Transformation

grupowanie rozmyte Transformacji przeprowadza czyszczenie zadań identyfikujące wiersze danych, które mogą być duplikatami, a następnie wybierając kanoniczna wiersz danych do użycia w standaryzacja danych danych.

Uwaga

Aby uzyskać bardziej szczegółowe informacje na temat transformacja rozmyte grupowania, w tym wydajność i ograniczenia ilości pamięci zobacz oficjalny dokument Rozmyty wyszukiwanie i grupowanie rozmyte usług integracja programu SQL Server 2005.

grupowanie rozmyte Transformacji wymaga połączenia z wystąpienie programu SQL Server Aby utworzyć tymczasowe SQL Server tabele w algorytmie przekształcania wymaga, aby wykonać swoją pracę. Połączenie musi rozpoznać użytkownikowi, który ma uprawnienie do tworzenia tabel w bazie danych.

Aby skonfigurować transformacja, należy wybrać wejściowy kolumna używany do identyfikacji duplikatów, i należy wybrać typ dopasowania — niewyraźne lub dokładne — dla każdej kolumna.Gwarancje dokładne dopasowanie tylko wiersze, które mają identyczne wartości w tym kolumna zostaną pogrupowane.Dokładne dopasowanie, mogą być stosowane do dowolnej kolumny Integration Services Typ danych, z wyjątkiem DT_TEXT, DT_NTEXT i DT_IMAGE. Dopasowanie rozmyty grupuje wiersze, które mają około tej samej wartości.Metoda przybliżone dopasowanie danych zależy od wyniku podobieństwa określone przez użytkownika.Tylko kolumn o typach danych DT_WSTR i DT_STR mogą być używane w dopasowywanie rozmyte.Aby uzyskać więcej informacji zobaczTypy danych usług integracja.

wynik transformacja obejmuje wszystkie kolumny danych wejściowych, jedną lub więcej kolumn przy użyciu standardowych danych, a kolumna zawierająca wynik podobieństwa.Wynik jest wartość dziesiętną między 0 i 1.Kanoniczna wiersz ma do uzyskania oceny w przedziale od 1.Pozostałe wiersze w grupie rozmyty mają wyniki, które wskazują, jak wiersz odpowiada kanoniczna wiersza.Im bliżej wynik jest 1, im więcej ściśle wiersz odpowiada kanoniczna wiersza.Te wiersze rozmyty grupa zawiera wiersze, które są dokładne duplikaty kanoniczna wiersza, także mieć do uzyskania oceny w przedziale od 1.transformacja nie usuwa zduplikowanych wierszy; grupuje je, tworząc klucz, który dotyczy wiersza kanoniczna podobne wierszy.

transformacja umożliwia tworzenie jednego wiersza danych wyjściowych dla każdego wiersza wejściowego, zawierające następujące dodatkowe kolumny:

  • _key_in, kolumna, która jednoznacznie identyfikuje każdy wiersz.

  • _key_out, kolumna, która identyfikuje grupę zduplikowane wiersze.The _key_out kolumna has the value of the _key_in kolumna in the canonical data row.Wiersze o tej samej wartości w _key_out są częścią tej samej grupy.The _key_outvalue for a group corresponds to the value of _key_in in the canonical data row.

  • _score, wartość z przedziału od 0 do 1, wskazująca podobieństwa wprowadzania wiersza do wiersza kanoniczna.

Są one domyślnie kolumna nazw i użytkownik może skonfigurować transformacja rozmyte grupowanie na używanie innych nazw.Dane wyjściowe zawiera także wynik podobieństwa do każdej kolumna użytej w grupowanie rozmyte.

Grupowanie rozmyte transformacja zawiera dwie funkcje umożliwiające dostosowywanie grupowania, wykonuje: Token ograniczników i próg podobieństwa. transformacja udostępnia domyślny zestaw ograniczników umożliwia tokenize danych, ale można dodawać nowe ograniczniki poprawić tokenizacja danych.

Próg podobieństwa wskazuje, w jaki sposób ściśle transformacja identyfikuje duplikaty.Może być progi podobieństwa zestaw na poziomach kolumna i składnika.Próg kolumna poziom podobieństwa jest dostępna tylko dla kolumn, które wykonuje rozmyty dopasowania.Podobieństwa zakres wynosi od 0 do 1.Bliżej 1 wartość progu wynosi, bardziej przypominające wierszy i kolumn muszą być w celu zakwalifikowania jako duplikaty.Określony próg podobieństwa między wierszami i kolumnami ustawiając MinSimilarity właściwość na poziomie składnika i kolumn. Do zaspokojenia podobieństwa, który jest określony poziom składnika, wszystkie wiersze musi mieć podobieństwa we wszystkich kolumn, które jest większe niż lub równa próg podobieństwa, który jest określony poziom składnika.

grupowanie rozmyte Transformacji oblicza wewnętrzną środki podobieństwa i wierszy, które są podobne mniejsza niż wartość określona w MinSimilarity nie są zgrupowane.

Aby zidentyfikować próg podobieństwa, która działa w przypadku danych, może być konieczne zainstalowanie grupowanie rozmyte transformacja kilka razy przy użyciu różnych podobieństwa minimalnej wartości progowe.W czasie wykonywania wynik kolumny w wynik transformacja zawiera wyniki podobieństwa dla każdego wiersza w grupie.Wartości te umożliwiają identyfikowanie próg podobieństwa, która jest odpowiednia dla danych.Jeśli chcesz zwiększyć podobieństwa, należy ustawić MinSimilarity wartość większa niż wartość w polu kolumny wynik.

Można dostosować, grupa, które wykonuje transformacja przez ustawienie właściwości kolumn w grupowanie rozmyte przekształcania danych wejściowych.Na przykład FuzzyComparisonFlags Właściwość określa, w jaki sposób transformacja porównuje dane ciąg, kolumna, a także ExactFuzzy Właściwość określa, czy transformacja kontroluje rozmyty dopasowania i dopasowanie dokładne.

Ilość pamięci, grupowanie rozmyte zastosowanie transformacji można tak skonfigurować, ustawiając MaxMemoryUsage Właściwość niestandardowa. Można określić liczbę megabajtów (MB) lub użyj wartości 0, aby zezwolić transformacja umożliwia dynamiczne ilość pamięci na podstawie ich potrzeb i dostępnej pamięci fizycznej.The MaxMemoryUsage custom właściwość can be updated by a właściwość wyrażenie when the pakiet is loaded. Aby uzyskać więcej informacji zobacz Integracja usług wyrażenie odwołania, Za pomocą wyrażenia właściwość w pakietach, a Właściwości niestandardowe transformacja.

Wynikiem tej transformacja jest jeden wejściowych i wyjściowych w jeden.Nie obsługuje on dane wyjściowe błąd.

Porównanie wierszy

Po skonfigurowaniu transformacja rozmyte grupowanie, można określić algorytm porównania transformacja polega na porównywaniu wierszy w dane wejściowe transformacja.Jeśli użytkownik zestaw Exhaustive Właściwość true, transformacja porównuje każdego wiersza w danych wejściowych do każdego wiersza w danych wejściowych. Ten algorytm porównania może generować dokładniejsze wyniki, ale jest prawdopodobne transformacja wykonać wolniej, chyba że liczba wierszy w danych wejściowych jest mała.Aby uniknąć problemów z wydajnością, zaleca się ustawienie Exhaustive Właściwość true tylko w czasie projektowania pakiet.

Tymczasowe tabele oraz indeksy

Przy uruchomieniu czas, grupowanie rozmyte transformacja tworzy tymczasowe obiekty takie jak tabele oraz indeksy, potencjalnie znacznego rozmiaru w SQL Server Baza danych, która łączy się z transformacja. Rozmiar tabel i indeksów jest proporcjonalna do liczby wierszy w transformacja, wprowadzania i liczby tokenów utworzone przez grupowanie rozmyte transformacja.

transformacja również kwerendy tabel tymczasowych.W związku z tym należy rozważyć podłączenie grupowanie rozmyte transformacja do wystąpienie innych niż produkcji SQL Server, zwłaszcza wtedy, gdy serwer produkcyjny ma ograniczone dostępne miejsce na dysku.

Może zwiększyć wydajność tej transformacja, jeśli tabel i indeksów używa znajdują się na komputerze lokalnym.

Konfigurowanie przekształcania grupowanie rozmyte

zestaw właściwości za pomocą SSIS Projektant lub programowo.

Aby uzyskać więcej informacji na temat właściwości, które zestaw w Rozmyty Edytor transformacja grupowanie okna dialogowego kliknij jedną z następujących tematów:

Aby uzyskać więcej informacji na temat właściwości, które zestaw w Zaawansowany edytor okna dialogowego pole lub programowo, kliknij jedną z następujących tematów:

Aby uzyskać więcej informacji na temat ustawiania właściwości kliknij jedną z następujących tematów:

Integration Services icon (small) Konfiguracja w aktualizacji z usług integracja Services pobytu

Najnowsze pliki do pobrania, artykuły, próbki, i pliki wideo firmy Microsoft, jak również wybranego rozwiązania od Wspólnoty, odwiedź witrynę Integration Services strona w witrynie MSDN lub TechNet:

Automatycznego powiadomienie tych aktualizacji należy subskrybować źródła danych RSS, które jest dostępne strona.