Projets connexes pour des solutions d’exploration de données

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et est à présent abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez Compatibilité descendante d’Analysis Services.

Une solution d'exploration de données requiert au minimum le projet d'exploration de données, lequel définit les sources de données, les vues de source de données, ainsi que les structures et modèles d'exploration de données. Toutefois, lorsque les modèles d'exploration de données sont utilisés dans les prises de décision quotidiennes, il est important que l'exploration de données soit intégrée à l'autre partie d'une solution d'analyse prédictive, qui peut inclure ces processus et composants :

  • Préparation et sélection des données et des variables. Inclut le nettoyage de données, la gestion et l'intégration des métadonnées de plusieurs sources de données, ainsi que la conversion, la fusion et le téléchargement de données dans un entrepôt de données.

  • Rapports d'analyse, présentation des prédictions et audit/suivi des activités d'exploration de données.

  • Utilisation des modèles multidimensionnels ou des modèles tabulaires pour explorer les résultats.

  • Amélioration de la solution d'exploration de données pour prendre en charge des nouvelles données ou les modifications de l'infrastructure de support contrôlées par l'analyse actuelle.

Cette rubrique décrit les autres fonctionnalités de SQL Server 2017 qui font souvent partie d’une solution d’analyse prédictive, soit pour prendre en charge les processus de préparation des données et d’exploration de données, soit pour prendre en charge les utilisateurs en fournissant des outils d’analyse et d’action.

Services d’intégration

Reporting Services

Data Quality Service

Recherche en texte intégral

Indexation sémantique

SQL Server Integration Services

Integration Services fournit des composants et des fonctionnalités requis pour les phases de préparation et d’entraînement des données d’un projet d’exploration de données. Bien que vous puissiez effectuer de nombreuses tâches de nettoyage ou de préparation des données à l’aide d’autres outils, tels que des scripts, Integration Services présente de nombreux avantages pour l’exploration de données :

  • Représente des tâches dans le cadre d'un flux de travail, qui peuvent être répétées, automatisées, ramifiées et étendues.

  • Fournit une prise en charge complète de l'audit, ainsi que plusieurs méthodes pour capturer les erreurs et les événements de journalisation.

    En plus de capturer le lignage des données, vous pouvez contrôler les modifications apportées aux données tout le long du pipeline de transformation des données.

    Vous pouvez également intégrer vos flux de travail SSIS aux fonctionnalités prenant en charge la fonction de capture de données modifiées dans SQL Server.

  • L’exploration de données peut être incorporée dans le workflow Integration Services pour séparer intelligemment les données entrantes en plusieurs tables. Par exemple, vous pouvez utiliser une requête de prédiction pour répartir vos nouveaux clients dans différents groupes afin de pouvoir cibler lors d'une campagne de publipostage.

Les listes suivantes fournissent des liens vers les composants Integration Services qui sont les plus couramment utilisés pour prendre en charge l’exploration de données.

Composants de flux de contrôle

composants Data Flow

SQL Server Reporting Services

Bien que Reporting Services ne soit généralement pas considéré comme un composant essentiel des solutions d’exploration de données, il fournit les fonctionnalités suivantes qui sont utiles pour la présentation des solutions d’exploration de données.

  • Intégration des données de plusieurs sources dans des rapports complexes. Créez des requêtes sur le contenu du modèle pour les analystes et créez des rapports qui présentent des prédictions et des tendances pour les utilisateurs finaux.

  • La capacité de créer un rapport permettant aux utilisateurs d'effectuer directement des requêtes sur un modèle d'exploration de données existant.

  • Intégration à SQL Server Analysis Services, pour prendre en charge l’extraction et l’exploration des dimensions d’exploration de données et des cubes d’exploration de données créés à partir de modèles OLAP.

  • fonctionnalités de paramétrage et de mise en forme disponibles dans Reporting Services.

Pour plus d'informations sur l'utilisation de Reporting Services avec les requêtes DMX comme source de données, consultez les liens suivants :

Récupérer des données d'un modèle d'exploration de données (DMX) (SSRS)

Interface utilisateur du Concepteur de requêtes DMX Analysis Services

Type de connexion Analysis Services pour DMX (SSRS)

Toutefois, il n'est pas nécessaire d'utiliser DMX comme source de données. Les composants Integration Services pour l’exploration de données prennent également en charge l’enregistrement des résultats d’une requête de prédiction dans une base de données relationnelle. Si vous disposez d’un workflow établi pour la mise à jour des modèles à l’aide d’Integration Services, la persistance des prédictions et d’autres résultats de requête d’exploration de données dans SQL Server vous permettre d’utiliser Power View pour la création de rapports, ainsi que d’autres outils qui n’interfacent pas avec DMX.

Pour plus d'informations sur l'utilisation de Reporting Services comme couche de présentation pour les sources de données, consultez Integrating Reporting Services into Applications.

Data Quality Services

Data Quality Services (DQS) est une nouveauté dans SQL Server 2017. Étant donné que les problèmes de données peuvent rendre l’exploration de données impossible, les mineurs de données qui effectuent des analyses répétées ou qui travaillent dans de grandes organisations avec des sources de données complexes sont censés constater qu’un projet de données bien planifié utilisant DQS est une solution plus fiable pour la prise en charge de l’exploration de données que le nettoyage ad hoc des données à l’aide de Transact-SQL ou d’autres scripts.

Les fonctionnalités suivantes de DQS doivent être prises en compte pour la préparation et l'intégrité des données dans une solution d'exploration de données.

Un processus de nettoyage de données assisté par ordinateur qui analyse les données sources et suggère des modifications.
DQS peut comparer des données sources avec des données de référence basées dans le Cloud conservées et garanties par les fournisseurs de qualité des données.

DQS peut également analyser les données sources brutes et créer une base de connaissances avec les données utilisateur. Les données traitées sont classées puis affichées à l'utilisateur pour d'autres traitements. Le processus de nettoyage est interactif, ce qui signifie que le gestionnaire de données peut approuver, rejeter ou modifier les données proposées par le processus de nettoyage des données assisté par ordinateur.

Le résultat du processus est une base de connaissances que vous pouvez améliorer en permanence, ou réutiliser dans plusieurs phases d'amélioration des données.

Pour plus d'informations, voir Data Cleansing.

Un processus de correspondance de données assisté par ordinateur qui analyse les données sources et suggère des modifications.
Pour éviter la duplication de données, vous pouvez effectuer d'autres nettoyages de la source de données afin d'identifier les correspondances exactes et approximatives. Ces composants vous permettent de spécifier des règles de correspondance, ainsi que les seuils auxquels les appliquer.

Une fois que vous avez trouvé des correspondances de données, vous pouvez supprimer les doublons car ils peuvent représenter un problème pour l'exploration de données. La déduplication de données n'est pas automatique. En effet, le gestionnaire de données ou le professionnel de l'informatique doit vérifier la connaissance dans la base de connaissances et les modifications à apporter aux données.

Une fois que vous avez créé le projet DQS initial, vous pouvez automatiser de nombreuses tâches à l’aide des composants Integration Services.

Pour plus d'informations, voir Data Matching.

Tout en procédant aux activités de nettoyage et de mise en correspondance dans un projet de qualité de données, vous pouvez obtenir des statistiques et des informations en temps réel sur les données que DQS est entrain de traiter. Le profilage des données vous permet d'évaluer dans quelle mesure le nettoyage et la mise en correspondance des données vous ont aidé à améliorer la qualité des données, et aussi de comprendre les modifications qui ont été effectuées. Pour plus d'informations sur le profilage des données et les notifications, consultez Data Profiling and Notifications in DQS.

Une base de connaissances qui représente trois types de connaissances : connaissance prête à l'emploi, connaissance générée par le serveur DQS et connaissance générée par l'utilisateur.
Une fois que vous avez créé une base de connaissances, vous pouvez l'utiliser de manière itérative pour nettoyer et vérifier d'autres données.

Vous pouvez importer de nouvelles données dans les données de la base de connaissances, qui peuvent provenir de plusieurs sources. Il peut s'agir de données propres connues des fournisseurs de référence ou de données brutes qui sont mises en correspondance avec les données existantes de la base de connaissances.

Pour plus d'informations sur l'activité de nettoyage dans un projet de qualité des données, consultez Nettoyage de données (DQS).

Vous pouvez également appliquer la connaissance de la base de connaissances à d'autres sources pour procéder au nettoyage des données dans le cadre d'autres processus. Le nettoyage des données peut aider à identifier des erreurs de saisie des utilisateurs, des altérations dans la transmission ou le stockage, ou des incohérences dans les définitions du dictionnaire de données.

Pour plus d’informations, consultez DQS Knowledge Bases and Domains.

Recherche en texte intégral

La recherche en texte intégral dans SQL Server permet aux applications et aux utilisateurs d'exécuter des requêtes de texte intégral sur des données caractères dans des tables SQL Server. Lorsque la recherche en texte intégral est activée, vous pouvez effectuer des recherches sur les données texte qui sont améliorées grâce à des règles spécifiques à la langue sur les différentes formes d'un mot ou d'une expression. Vous pouvez également configurer des conditions de recherche, telles que la distance entre plusieurs termes, et utiliser des fonctions pour limiter les résultats retournés selon leur vraisemblance.

Étant donné que les requêtes de texte intégral sont une fonctionnalité fournie par le moteur SQL Server, vous pouvez créer des requêtes paramétrables et générer des jeux de données personnalisés ou des vecteurs de termes à l'aide des fonctionnalités de recherche en texte intégral sur une source de données de texte, puis utiliser ces sources dans l'exploration de données.

Pour plus d’informations sur les interactions entre les requêtes de texte intégral et l’index de recherche en texte intégral, consultez Exécuter une requête avec une recherche en texte intégral.

L'avantage d'utiliser les fonctionnalités de texte intégral de SQL Server est que vous pouvez tirer parti de l'intelligence linguistique contenue dans les analyseurs lexicaux et les générateurs de formes dérivées qui sont proposés pour toutes les langues dans SQL Server. À l'aide des analyseurs lexicaux et des générateurs de formes dérivées, vous pouvez vous assurer que les mots sont séparés à l'aide des caractères appropriés de chaque langue, et que les synonymes selon les signes diacritiques ou les variations orthographiques (par exemple, les différents formats de nombre en japonais) ne sont pas négligés.

En plus de l'intelligence linguistique qui régit les limites des mots, les générateurs de formes dérivées de chaque langue peuvent réduire les variantes d'un mot à un terme unique, selon les règles de conjugaison et les variations orthographiques de chaque langue. Les règles pour l'analyse linguistique varient en fonction de chaque langue et sont développées sur la base de recherches étendues effectuées sur des références concrètes.

Pour plus d’informations, consultez Configurer et gérer les analyseurs lexicaux et générateurs de formes dérivées pour la recherche.

La version d'un mot stocké après l'indexation de texte intégral est un jeton au format compressé. Les requêtes suivantes de l'index de recherche en texte intégral génèrent plusieurs formes flexionnelles d'un mot particulier selon les règles d'une langue donnée pour s'assurer que toutes les correspondances potentielles sont effectuées. Par exemple, bien que le jeton stocké puisse être « run », le moteur de requête recherche également les termes « running », « run » et « runner », car il s’agit de variantes morphologiques dérivées régulièrement du mot racine « run ».

Vous pouvez également créer et générer un dictionnaire des synonymes utilisateur pour stocker des synonymes et obtenir de meilleurs résultats de recherche ou un meilleur classement des termes. En développant un dictionnaire des synonymes adapté à vos données de texte intégral, vous pouvez élargir efficacement l'étendue des requêtes de texte intégral sur ces données. Pour plus d’informations, consultez Configurer et gérer les fichiers de dictionnaire des synonymes pour la recherche en texte intégral.

Les spécifications liées à l'utilisation de la recherche en texte intégral sont les suivantes :

  • L'administrateur de base de données doit créer un index de recherche en texte intégral sur la table.

  • Un seul index de recherche en texte intégral est autorisé par table.

  • Chaque colonne que vous indexez doit avoir une clé unique.

  • L'indexation de recherche en texte intégral n'est pris en charge que pour les colonnes avec les types de données suivants : char, varchar, nchar, nvarchar, text, ntext, image, xml, varbinary et varbinary(max). Si la colonne est varbinary, varbinary (max), image ou xml, vous devez spécifier l'extension de fichier du document indexable (.doc, .pdf, .xls, etc.) dans une colonne de type distincte.

Indexation sémantique

La recherche sémantique s'appuie sur les fonctionnalités de recherche en texte intégral existantes de SQL Server, mais utilise d'autres fonctions et statistiques pour permettre des scénarios tels que l'extraction automatique de mots clés et la détection de documents connexes. Par exemple, vous pouvez utiliser la recherche sémantique afin de générer une taxonomie simple pour une organisation ou classer un ensemble de documents. Vous pouvez également utiliser la combinaison des termes extraits et des scores de similarité des documents dans des modèles de clustering ou d'arbre de décision.

Après avoir activé la recherche sémantique et indexé vos colonnes de données, vous pouvez utiliser les fonctions fournies en mode natif avec l'indexation sémantique pour effectuer les opérations suivantes :

  • Retourner des phrases clés unitermes avec leur score.

  • Retourner des documents qui contiennent une phrase clé spécifiée.

  • Retourner des scores de similarité et les termes qui contribuent au score.

Pour plus d’informations, consultez Rechercher des expressions clés dans les documents avec la recherche sémantique et Rechercher des documents similaires ou connexes avec la recherche sémantique.

Pour plus d’informations sur les objets de base de données qui prennent en charge l’indexation sémantique, consultez Activer la recherche sémantique sur les tables et les colonnes.

Les spécifications liées à l'utilisation de la recherche sémantique sont les suivantes :

  • La recherche en texte intégral est également activée.

  • L'installation des composants de recherche sémantique crée également une base de données système spéciale, qui ne peut pas être renommée, modifiée, ni remplacée.

  • Les documents que vous indexez à l'aide du service doivent être stockés dans SQL Server, dans n'importe quel objet de base de données pris en charge pour l'indexation de texte intégral, notamment les tables et les vues indexées.

  • Les langues de texte intégral ne prennent pas toutes en charge l'indexation sémantique. Pour obtenir la liste des langues prises en charge, consultez sys.fulltext_semantic_languages (Transact-SQL).