Créer un dictionnaire personnalisé (SharePoint Server 2010)

 

S’applique à : SharePoint Server 2010

Dernière rubrique modifiée : 2015-07-06

Un dictionnaire personnalisé est un fichier qu’un administrateur crée pour spécifier des sèmes que l’outil de césure par mot d’une langue particulière doit traiter comme étant indivisibles au moment de l’indexation et au moment de l’exécution de la requête. Les fichiers de dictionnaire personnalisé ne sont pas fournis avec le produit. Vous devez créer un dictionnaire personnalisé distinct pour chaque langue pour laquelle vous souhaitez modifier le comportement d’un outil de césure par mot.

Notes

Un dictionnaire personnalisé pour une langue donnée s’applique à toutes les applications de service de recherche de la batterie de serveurs.

Dans cet article :

  • Motifs d’utilisation d’un dictionnaire personnalisé

  • Règles de création d’un dictionnaire personnalisé

  • Créer un dictionnaire personnalisé

  • Copier le dictionnaire personnalisé sur chaque serveur d’applications

  • Arrêter et redémarrer le service SharePoint Server Search 14

  • Effectuer une analyse complète

  • Langues prises en charge

Motifs d'utilisation d'un dictionnaire personnalisé

Pour savoir si vous devez disposer d’un dictionnaire personnalisé et quelles entrées il doit contenir, vous devez comprendre le comportement des outils de césure par mot. Le système d’indexation utilise les outils de césure par mot pour découper les sèmes lorsqu’il indexe le contenu analysé, et le processeur de requêtes utilise des outils de césure par mot dans les requêtes. Dans chaque cas, si un dictionnaire personnalisé existe prenant en charge la langue et le dialecte de l’outil de césure par mot utilisé, le système de recherche recherche le mot dans le dictionnaire personnalisé avant de déterminer s’il faut utiliser un outil de césure pour ce mot. Si le mot est absent du dictionnaire personnalisé, l’outil de césure par mot effectue ses opérations habituelles, qui peuvent entraîner le découpage d’un sème en plusieurs sèmes. Si le sème est présent dans le dictionnaire personnalisé, l’outil de césure par mot n’effectue aucune opération sur ce sème. Les deux exemples suivants décrivent le comportement habituel de l’outil de césure par mot et indiquent dans quelle mesure une entrée dans le dictionnaire personnalisé peut affecter ce comportement.

  • Un outil de césure par mot peut découper le sème « IT&T » immédiatement avant et après l’esperluette (&), avec pour conséquence la création des trois sèmes « IT », « & » et « T ». Toutefois, si le sème « IT&T » se trouve dans le dictionnaire personnalisé de la même langue que l’outil de césure par mot en cours d’utilisation, l’outil de césure par mot ne découpe pas le sème (au moment de l’analyse ou au moment de l’exécution de la requête). Si « IT&T » se trouve dans le dictionnaire personnalisé et qu’un document ne contient pas « IT » ou « T », mais « IT&T », une requête qui contient « IT » ou « T », mais pas « IT&T », ne retourne pas ce document dans le jeu de résultats.

  • Des termes comme les nombres de registre CAS peuvent être affectés par les outils de césure par mot. Par exemple, les outils de césure par mot fractionnent généralement les nombres qui s’affichent avant ou après un tiret ou un autre caractère spécial du reste du nombre. Par exemple, le nombre de registre CAS représentant l’oxygène est « 7782-44-7 ». Après le traitement par l’outil de césure par mot, ce nombre de registre CAS est découpé en trois parties : « 7782 », « 44 » et « 7 ». L’ajout de nombres de registre CAS figurant dans un corpus à un dictionnaire personnalisé amène le système de recherche à indexer chaque nombre sans le découper en plusieurs parties.

Normalisations et fichiers de thesaurus

Les normalisations des entités nommées, comme les normalisations des dates, ordinairement appliquées par les outils de césure par mot ne sont pas appliquées aux termes se trouvant dans des dictionnaires personnalisés. Au lieu de cela, tous les termes se trouvant dans des dictionnaires personnalisés sont traités comme des correspondances. Cela s’avère particulièrement important pour des mots ou des nombres apparaissant dans un fichier de thesaurus. Par exemple, si le nombre de registre CAS « 7782-44-7 » fait partie d’une série de nombres dans le thesaurus et que l’outil de césure par mot découpe ce nombre en trois nombres au niveau des tirets, la série de nombres à laquelle appartient ce nombre peut ne pas fonctionner de la manière escomptée. En pareil cas, l’ajout du nombre de registre CAS « 7782-44-7 » au dictionnaire personnalisé des langues correspondantes suffit à résoudre le problème. Pour plus d’informations sur l’utilisation des fichiers de thesaurus, voir Gérer les fichiers du dictionnaire de synonymes (SharePoint Server 2010).

Règles de création d’un dictionnaire personnalisé

Un dictionnaire personnalisé est un fichier Unicode. Chaque entrée doit apparaître sur une ligne distincte, séparée par un retour chariot ou un retour à la ligne. Lorsque vous ajoutez des entrées à un dictionnaire personnalisé, tenez compte des règles ci-dessous pour éviter d’obtenir des résultats inattendus :

  • Les entrées ne dépendent pas des minuscules/majuscules.

  • Le caractère « | » ne peut pas être utilisé.

  • Un espace vide ne peut être utilisé.

  • Le caractère « # » ne peut pas être utilisé au début d’une entrée, mais il peut l’être à l’intérieur ou à la fin d’une entrée.

  • À l’exception des caractères « | » et « # » et de l’espace vide mentionnés précédemment, tous les caractères alphanumériques, signes de ponctuation, symboles et caractères de césure sont valides.

  • La longueur maximale d'une entrée est de 128 caractères (Unicode).

Le tableau ci-dessous contient des exemples d'entrées prises en charge et non prises en charge.

Tableau 1 – Exemples d’entrées prises en charge et non prises en charge pour les fichiers de dictionnaire personnalisé

Pris en charge Non pris en charge

dogfood

dog food

3#

#3

For#sale

For|sale

ASP.NET

IT&T

(2-Methoxymethylethoxy)propanol

34590-97-8

C7H1603

Il n’existe pas de limite fixe quant au nombre d’entrées dans un dictionnaire personnalisé. Toutefois, il est recommandé de ne pas utiliser un dictionnaire personnalisé dont la taille dépasse 2 gigaoctets (Go). Dans la pratique, il est recommandé de limiter le nombre d’entrées à quelques milliers.

Créer un dictionnaire personnalisé

Procédez comme suit pour créer un dictionnaire personnalisé.

Pour créer un dictionnaire personnalisé

  1. Vérifiez que le compte d’utilisateur qui effectue cette procédure est un membre du groupe Administrateurs sur l’ordinateur local.

  2. Ouvrez une session sur un serveur d’analyse.

  3. Ouvrir un nouveau fichier dans un éditeur de texte.

    Tapez les mots de votre choix dans le dictionnaire personnalisé en suivant les règles énoncées dans la section Règles de création d’un dictionnaire personnalisé plus haut dans cet article.

  4. Dans le menu Fichier, cliquez sur Enregistrer sous.

  5. Dans la liste Type de fichier, sélectionnez Tous les fichiers.

  6. Dans la liste Codage, sélectionnez Unicode.

  7. Dans la zone Nom de fichier, tapez le nom du fichier au format suivant : CustomNNNN.lex, où « Custom » est une chaîne littérale, NNNN le code hexadécimal à quatre chiffres de la langue pour laquelle vous créez le dictionnaire personnalisé et lex l’extension du nom de fichier. Pour connaître la liste des noms de fichier valides pour les langues et les dialectes pris en charge, voir Langues prises en charge plus loin dans cet article.

  8. Dans la liste Enregistrer dans, recherchez le dossier qui contient les outils de césure par mot. Par défaut, il s’agit du dossier %ProgramFiles%\Microsoft Office Servers\14.0\Bin.

    Notes

    Les fichiers de dictionnaire personnel ne peuvent être utilisés que s’ils sont stockés dans ce dossier dans le système de fichiers local. Ils ne peuvent pas être utilisés s’ils sont uniquement stockés dans un site SharePoint, par exemple.

  9. Cliquez sur Enregistrer.

  10. S’il n’y a pas d’autres serveurs d’analyse ou serveurs de requête dans la batterie de serveurs, passez à Arrêter et redémarrer le service SharePoint Server Search 14. Sinon, passez à la procédure suivante, « Copier le dictionnaire personnalisé sur chaque serveur d’applications ».

Copier le dictionnaire personnalisé sur chaque serveur d’applications

Il doit y avoir une copie du dictionnaire personnalisé sur chaque serveur d’applications de la batterie de serveurs.

Pour copier le dictionnaire personnalisé sur chaque serveur d’applications

  1. Vérifiez que le compte d’utilisateur qui effectue cette procédure est membre du groupe Administrateurs sur chaque serveur d’applications de la batterie de serveurs (c’est-à-dire sur chaque serveur d’analyse ou un serveur de requête).

  2. Sur chaque serveur d’applications de la batterie de serveurs, copiez le nouveau fichier de dictionnaire personnalisé dans le dossier qui contient les outils de césure par mot. Par défaut, il s’agit du dossier %ProgramFiles%\Microsoft Office Servers\14.0\Bin.

    Notes

    Les fichiers de dictionnaire personnel ne peuvent être utilisés que s’ils sont stockés dans ce dossier dans le système de fichiers local. Ils ne peuvent pas être utilisés s’ils sont uniquement stockés dans un site SharePoint, par exemple.

Arrêter et redémarrer le service SharePoint Server Search 14 sur chaque serveur d’applications

Vous devez redémarrer le service SharePoint Server Search 14 sur chaque serveur d’applications de la batterie de serveurs.

Important

N’utilisez pas la page Services sur le serveur de l’Administration centrale pour arrêter et démarrer le service. Cela aurait pour effet de supprimer le service, l’index et la configuration associée. Au lieu de cela, procédez comme suit.

Pour arrêter et redémarrer le service SharePoint Server Search 14 sur chaque serveur d’applications

  1. Vérifiez que le compte d’utilisateur qui effectue cette procédure est un membre du groupe Administrateurs sur l’ordinateur local.

  2. Dans le menu Démarrer, pointez sur Tous les programmes, sur Outils d’administration, puis cliquez sur Services.

  3. Cliquez avec le bouton droit sur le service SharePoint Server Search 14, puis cliquez sur Propriétés. La boîte de dialogue Propriétés apparaît.

  4. Cliquez sur Arrêter. Une fois le service arrêté, cliquez sur Démarrer.

  5. Vérifiez que Type de démarrage n’a pas la valeur Désactivé.

  6. Répétez cette procédure pour chaque serveur d’applications (chaque serveur d’analyse et chaque serveur de requête) de la batterie de serveurs.

Effectuer une analyse complète

Pour appliquer le dictionnaire personnalisé à l’index du contenu, vous devez effectuer une analyse complète du contenu comportant les sèmes que vous avez ajoutés au dictionnaire personnalisé. Pour plus d’informations sur l’analyse complète, voir Gérer l’analyse (SharePoint Server 2010).

Langues prises en charge

Le tableau suivant indique les langues et dialectes pour lesquels SharePoint Server 2010 prend en charge les dictionnaires personnalisés. Vous ne pouvez pas créer un dictionnaire personnalisé pour l’outil de césure par mot indépendant de la langue. Le tableau comprend l’identificateur de code de langue (LCID) et le code hexadécimal de langue pour chaque langue et dialecte pris en charge. Les deux premiers chiffres du code hexadécimal représentent le dialecte et les deux derniers chiffres représentent la langue. Pour les langues qui n’utilisent pas un outil de césure par mot pour les dialectes distincts, les deux premiers chiffres du code hexadécimal de la langue sont toujours 00.

Tableau 2 - Langues prises en charge

Langue/Dialecte LCID Code hexadécimal de la langue

Arabe

1025

0001

Bengali

1093

0045

Bulgare

1026

0002

Catalan

1027

0003

Croate

1050

001a

Danois

1030

0006

Néerlandais

1043

0013

Anglais

1033

0009

Français

1036

000c

Allemand

1031

0007

Gujarati

1095

0047

Hébreu

1037

000d

Hindi

1081

0039

Islandais

1039

000f

Indonésien

1057

0021

Italien

1040

0010

Japonais

1041

0011

Kannada

1099

004b

Letton

1062

0026

Lituanien

1063

0027

Malais

1086

003e

Malayalam

1100

004c

Marathi

1102

004e

Norvégien (Bokmål)

1044

0414

Portugais

2070

0816

Portugais (Brésil)

1046

0416

Pendjabi

1094

0046

Roumain

1048

0018

Russe

1049

0019

Serbe (Cyrillique)

3098

0c1a

Serbe (Latin)

2074

081a

Slovaque

1051

001b

Slovène

1060

0024

Espagnol

3082

000a

Suédois

1053

001d

Tamoul

1097

0049

Télougou

1098

004a

Ukrainien

1058

0022

Ourdou

1056

0020

Vietnamien

1066

002a

See Also

Concepts

Gérer les fichiers du dictionnaire de synonymes (SharePoint Server 2010)