Creación de un diccionario personalizado (SharePoint Server 2010)

 

Se aplica a: SharePoint Server 2010

Última modificación del tema: 2015-07-06

Un diccionario personalizado es un archivo que un administrador crea para especificar los símbolos (tokens) que el separador de palabras de un idioma determinado debe tratar como indivisibles en tiempo de consulta e indización. Los archivos de diccionario personalizado no se proporcionan con este producto. Es necesario crear un diccionario personalizado independiente para cada uno de los idiomas para los que se desea modificar el comportamiento de un separador de palabras.

Nota

Un diccionario personalizado para un idioma determinado se aplica a todas la aplicaciones del servicio de búsqueda en el conjunto o granja de servidores.

En este artículo:

  • Motivos para usar un diccionario personalizado

  • Reglas para crear un diccionario personalizado

  • Creación de un diccionario personalizado

  • Copia del diccionario personalizado en cada servidor de aplicaciones

  • Procedimiento para detener y reiniciar el servicio de búsqueda de SharePoint Server 14

  • Rastreo completo

  • Idiomas admitidos

Motivos para usar un diccionario personalizado

Para determinar si debe tener un diccionario personalizado y las entradas que éste debería contener, es necesario comprender el comportamiento de los separadores de palabras. El sistema de indización usa separadores de palabras para separar las palabras en tokens, cuando el contenido rastreado está indizado, y el procesador de consultas usa separadores de palabras en las consultas. En ambos casos, si se ha creado un diccionario personalizado que es compatible con el idioma y el dialecto del separador de palabras que se está usando, el sistema de búsqueda comprueba si la palabra existe en el diccionario personalizado antes de determinar si usará el separador de palabras para esa palabra. Si la palabra no existe en el diccionario personalizado, el separador de palabras realizará sus acciones habituales, lo que podría provocar la separación de un token en varios tokens. Si la palabra existe en el diccionario personalizado, el separador de palabras no realizará ninguna acción con ese token. En los siguientes dos ejemplos se describe el comportamiento que normalmente tiene el separador de palabras y cómo una entrada en el diccionario personalizado puede afectar a ese comportamiento.

  • Un separador de palabras podría separar el token “IT&T” inmediatamente después del signo “&”, lo que daría como resultado tres tokens: “IT”, “&” y “T”. Si embargo, si el token “IT&T” se encuentra en el diccionario personalizado que corresponde al mismo idioma del separador de palabras que se está usando, el separador no separa el token (en tiempo de rastreo o tiempo de consulta). Si “IT&T” se encuentra en el diccionario personalizado y si un documento no contiene "IT" o "T", pero sí contiene "IT&T", una consulta que contenga "IT" o "T" pero no "IT&T" no devolverá ese documento en el conjunto de resultados.

  • Algunos términos, como los números de registro de Chemical Abstracts Service (CAS), pueden verse afectados por los separadores de palabras. Por ejemplo, los separadores de palabras suelen separar los números que aparecen antes o después de un guión u otro carácter especial del resto del número. Por ejemplo, el número de registro CAS para el oxígeno es 7782-44-7. Tras el procesamiento del separador de palabras, este número de registro CAS se divide en tres partes distintas: los números 7782, 44 y 7. Si se agregan los números de registro CAS que aparecen en un corpus al diccionario personalizado, el sistema de búsqueda podrá indizar cada número sin dividirlos en partes.

Normalizaciones y archivos del diccionario de sinónimos

Las normalizaciones de entidades con nombre, como las normalizaciones de fechas, que normalmente usan los separadores de palabras, no se aplican a los términos que aparecen en los diccionarios personalizados. Por el contrario, todos los términos que aparecen en los diccionarios personalizados se tratan como coincidencias. Esto resulta especialmente importante si tiene palabras o números en un archivo de sinónimos. Por ejemplo, si el número de registro CAS 7782-44-7 forma parte de un conjunto de expansión del diccionario de sinónimos y el separador de palabras divide ese número por los guiones para convertirlo en tres números distintos, el conjunto de expansión del que forma parte ese número podría no funcionar del modo esperado. En este caso, si se añade el número de registro CAS 7782-44-7 al diccionario personalizado del idioma adecuado, se resolverá el problema. Para obtener información acerca de cómo usar archivos de sinónimos, vea Administración de archivos de sinónimos (SharePoint Server 2010).

Reglas para crear un diccionario personalizado

Un diccionario personalizado es un archivo con formato Unicode. Cada entrada debe estar en una línea independiente separada por un retorno de carro y un avance de línea. Cuando se agregan entradas a un diccionario personalizado, deben tenerse en cuenta las siguientes reglas para evitar resultados inesperados:

  • Las entradas no distinguen entre mayúsculas y minúsculas.

  • El carácter de barra vertical (|) no se puede usar.

  • El espacio en blanco no se puede usar.

  • El carácter de signo de número (#) no se puede usar al principio de una entrada, pero se puede usar dentro o al final de una entrada.

  • Excepto los caracteres de barra vertical, de signo de número y de espacio en blanco mencionados previamente, todos los caracteres alfanuméricos, signos de puntuación, símbolos y caracteres de salto de línea son válidos.

  • La longitud máxima de una entrada es 128 caracteres (Unicode).

En la tabla siguiente se muestran ejemplos de entradas admitidas y no admitidas.

Tabla 1 – Ejemplos de entradas admitidas y no admitidas en archivos de diccionario personalizado

Compatible Incompatible

preventa

pre venta

3#

#3

En#venta

En|venta

ASP.NET

IT&T

(2-Metoximetiletoxi)propanol

34590-97-8

C7H1603

No hay ningún límite fijo para el número de entradas de un diccionario personalizado. Sin embargo, se recomienda que el tamaño total del archivo de un diccionario personalizado no supere los 2 gigabytes (GB). En la práctica, se recomienda limitar el número de entradas a unos pocos millares.

Creación de un diccionario personalizado

Use el siguiente procedimiento para crear un diccionario personalizado.

Para crear un diccionario personalizado

  1. Compruebe que la cuenta de usuario que realiza este procedimiento pertenece al grupo Administradores del equipo local.

  2. Inicie sesión en un servidor de rastreo.

  3. Abra un nuevo archivo en un editor de texto.

    Escriba las palabras que desea en el diccionario personalizado siguiendo las reglas indicadas anteriormente en este artículo, en Reglas para crear un diccionario personalizado.

  4. En el menú Archivo, haga clic en Guardar como.

  5. En la lista Guardar como tipo, seleccione Todos los archivos.

  6. En la lista Codificación, seleccione Unicode.

  7. En el cuadro Nombre de archivo, escriba el nombre de archivo en el siguiente formato: PersonalizadoNNNN. lex, donde "Personalizado" es una cadena literal, NNNN es el código hexadecimal de cuatro dígitos del idioma para el que va a crear el diccionario personalizado y lex es la extensión del nombre de archivo. Para obtener una lista de nombres de archivo válidos para idiomas y dialectos admitidos, vea Idiomas admitidos más adelante en este artículo.

  8. En la lista Guardar en:, vaya a la carpeta que contiene los separadores de palabras. De manera predeterminada, esta carpeta es %Archivos de programa%\Microsoft Office Servers\14.0\Bin.

    Nota

    Los archivos de diccionario personalizados solo se pueden usar si están almacenados en esta carpeta del sistema de archivos local. No se pueden usar si solo están almacenados en un sitio de SharePoint por ejemplo.

  9. Haga clic en Guardar.

  10. Si no hay otros servidores de rastreo o servidores de consultas en el conjunto o granja de servidores, vaya a Procedimiento para detener y reiniciar el servicio de búsqueda de SharePoint Server 14. De lo contrario, pase al siguiente procedimiento, “Copia de un diccionario personalizado en cada servidor de aplicaciones de la granja de servidores”.

Copia del diccionario personalizado en cada servidor de aplicaciones

Debe haber una copia del diccionario personalizado en cada servidor de aplicaciones de la granja de servidores.

Para copiar el diccionario personalizado en cada aplicación

  1. Compruebe que la cuenta de usuario que está llevando a cabo este procedimiento es un miembro del grupo Administradores en cada servidor de aplicaciones (es decir, cada servidor de rastreo o servidor de consultas) de la granja de servidores.

  2. En cada servidor de aplicaciones de la granja, copie el nuevo archivo de diccionario personalizado en la carpeta que contiene los separadores de palabras. De manera predeterminada, esta carpeta es %Archivos de programa%\Microsoft Office Servers\14.0\Bin.

    Nota

    Los archivos de diccionario personalizados solo se pueden usar si están almacenados en esta carpeta del sistema de archivos local. No se pueden usar si solo están almacenados en un sitio de SharePoint por ejemplo.

Procedimiento para detener y reiniciar el servicio de búsqueda de SharePoint Server 14

Debe reiniciar el servicio de búsqueda de SharePoint Server 14 en cada servidor de aplicaciones de la granja de servidores.

Importante

No use la página Servicios del servidor de Administración central para detener e iniciar el servicio. Si lo hace, se quitará el servicio y se eliminará el índice y la configuración asociada. En su lugar, realice los pasos que se indican a continuación.

Para detener y reiniciar el servicio de búsqueda de SharePoint Server 14 en cada servidor de aplicaciones

  1. Compruebe que la cuenta de usuario que realiza este procedimiento pertenece al grupo Administradores del equipo local.

  2. En el menú Inicio, señale Todos los programas, elija Herramientas administrativas y haga clic en Servicios.

  3. Haga clic con el botón secundario en el servicio Búsqueda de SharePoint Server 14 y, a continuación, haga clic en Propiedades. Aparecerá el cuadro de diálogo Propiedades.

  4. Haga clic en Detener. Cuando el servicio esté detenido, haga clic en Iniciar.

  5. Asegúrese de que el Tipo de inicio no esté establecido en Deshabilitado.

  6. Repita este procedimiento para cada servidor de aplicaciones (es decir, cada servidor de rastreo y cada servidor de consultas) de la granja de servidores.

Rastreo completo

Para aplicar el diccionario personalizado al índice de contenido, debe realizar un rastreo completo de todo el contenido que tiene los tokens que ha agregado al diccionario personalizado. Para obtener información acerca del procedimiento para realizar un rastreo completo, vea Administración del rastreo (SharePoint Server 2010).

Idiomas admitidos

La tabla siguiente indica los idiomas y dialectos para los que SharePoint Server 2010 admite diccionarios personalizados. No se puede crear un diccionario personalizado para el separador de palabras independiente del idioma. La tabla incluye el identificador de código de idioma (LCID) y el código hexadecimal de idioma para cada idioma y dialecto admitidos. Los dos primeros números en el código hexadecimal representan el dialecto y los dos últimos números representan el idioma. En el caso de idiomas que no tienen separadores de palabras independientes para dialectos independientes, los dos primeros números en el código de idioma hexadecimal son siempre ceros.

Tabla 2 - Idiomas admitidos

Idioma/Dialecto LCID Código hexadecimal de idioma

Árabe

1025

0001

Bengalí

1093

0045

Búlgaro

1026

0002

Catalán

1027

0003

Croata

1050

001a

Danés

1030

0006

Neerlandés

1043

0013

Inglés

1033

0009

Francés

1036

000c

Alemán

1031

0007

Gujarati

1095

0047

Hebreo

1037

000d

Hindi

1081

0039

Islandés

1039

000f

Indonesio

1057

0021

Italiano

1040

0010

Japonés

1041

0011

Canarés

1099

004b

Letón

1062

0026

Lituano

1063

0027

Malayo

1086

003e

Malayalam

1100

004c

Marathi

1102

004e

Noruego (Bokmaal)

1044

0414

Portugués

2070

0816

Portugués (Brasil)

1046

0416

Punyabí

1094

0046

Rumano

1048

0018

Ruso

1049

0019

Serbio (cirílico)

3098

0c1a

Serbio (latino)

2074

081a

Eslovaco

1051

001b

Esloveno

1060

0024

Español

3082

000a

Sueco

1053

001d

Tamil

1097

0049

Telugu

1098

004a

Ucraniano

1058

0022

Urdú

1056

0020

Vietnamita

1066

002a

See Also

Concepts

Administración de archivos de sinónimos (SharePoint Server 2010)