Creación de un diccionario personalizado (SharePoint Server 2010)
Se aplica a: SharePoint Server 2010
Última modificación del tema: 2015-07-06
Un diccionario personalizado es un archivo que un administrador crea para especificar los símbolos (tokens) que el separador de palabras de un idioma determinado debe tratar como indivisibles en tiempo de consulta e indización. Los archivos de diccionario personalizado no se proporcionan con este producto. Es necesario crear un diccionario personalizado independiente para cada uno de los idiomas para los que se desea modificar el comportamiento de un separador de palabras.
Nota
Un diccionario personalizado para un idioma determinado se aplica a todas la aplicaciones del servicio de búsqueda en el conjunto o granja de servidores.
En este artículo:
Motivos para usar un diccionario personalizado
Reglas para crear un diccionario personalizado
Creación de un diccionario personalizado
Copia del diccionario personalizado en cada servidor de aplicaciones
Procedimiento para detener y reiniciar el servicio de búsqueda de SharePoint Server 14
Rastreo completo
Idiomas admitidos
Motivos para usar un diccionario personalizado
Para determinar si debe tener un diccionario personalizado y las entradas que éste debería contener, es necesario comprender el comportamiento de los separadores de palabras. El sistema de indización usa separadores de palabras para separar las palabras en tokens, cuando el contenido rastreado está indizado, y el procesador de consultas usa separadores de palabras en las consultas. En ambos casos, si se ha creado un diccionario personalizado que es compatible con el idioma y el dialecto del separador de palabras que se está usando, el sistema de búsqueda comprueba si la palabra existe en el diccionario personalizado antes de determinar si usará el separador de palabras para esa palabra. Si la palabra no existe en el diccionario personalizado, el separador de palabras realizará sus acciones habituales, lo que podría provocar la separación de un token en varios tokens. Si la palabra existe en el diccionario personalizado, el separador de palabras no realizará ninguna acción con ese token. En los siguientes dos ejemplos se describe el comportamiento que normalmente tiene el separador de palabras y cómo una entrada en el diccionario personalizado puede afectar a ese comportamiento.
Un separador de palabras podría separar el token “IT&T” inmediatamente después del signo “&”, lo que daría como resultado tres tokens: “IT”, “&” y “T”. Si embargo, si el token “IT&T” se encuentra en el diccionario personalizado que corresponde al mismo idioma del separador de palabras que se está usando, el separador no separa el token (en tiempo de rastreo o tiempo de consulta). Si “IT&T” se encuentra en el diccionario personalizado y si un documento no contiene "IT" o "T", pero sí contiene "IT&T", una consulta que contenga "IT" o "T" pero no "IT&T" no devolverá ese documento en el conjunto de resultados.
Algunos términos, como los números de registro de Chemical Abstracts Service (CAS), pueden verse afectados por los separadores de palabras. Por ejemplo, los separadores de palabras suelen separar los números que aparecen antes o después de un guión u otro carácter especial del resto del número. Por ejemplo, el número de registro CAS para el oxígeno es 7782-44-7. Tras el procesamiento del separador de palabras, este número de registro CAS se divide en tres partes distintas: los números 7782, 44 y 7. Si se agregan los números de registro CAS que aparecen en un corpus al diccionario personalizado, el sistema de búsqueda podrá indizar cada número sin dividirlos en partes.
Normalizaciones y archivos del diccionario de sinónimos
Las normalizaciones de entidades con nombre, como las normalizaciones de fechas, que normalmente usan los separadores de palabras, no se aplican a los términos que aparecen en los diccionarios personalizados. Por el contrario, todos los términos que aparecen en los diccionarios personalizados se tratan como coincidencias. Esto resulta especialmente importante si tiene palabras o números en un archivo de sinónimos. Por ejemplo, si el número de registro CAS 7782-44-7 forma parte de un conjunto de expansión del diccionario de sinónimos y el separador de palabras divide ese número por los guiones para convertirlo en tres números distintos, el conjunto de expansión del que forma parte ese número podría no funcionar del modo esperado. En este caso, si se añade el número de registro CAS 7782-44-7 al diccionario personalizado del idioma adecuado, se resolverá el problema. Para obtener información acerca de cómo usar archivos de sinónimos, vea Administración de archivos de sinónimos (SharePoint Server 2010).
Reglas para crear un diccionario personalizado
Un diccionario personalizado es un archivo con formato Unicode. Cada entrada debe estar en una línea independiente separada por un retorno de carro y un avance de línea. Cuando se agregan entradas a un diccionario personalizado, deben tenerse en cuenta las siguientes reglas para evitar resultados inesperados:
Las entradas no distinguen entre mayúsculas y minúsculas.
El carácter de barra vertical (|) no se puede usar.
El espacio en blanco no se puede usar.
El carácter de signo de número (#) no se puede usar al principio de una entrada, pero se puede usar dentro o al final de una entrada.
Excepto los caracteres de barra vertical, de signo de número y de espacio en blanco mencionados previamente, todos los caracteres alfanuméricos, signos de puntuación, símbolos y caracteres de salto de línea son válidos.
La longitud máxima de una entrada es 128 caracteres (Unicode).
En la tabla siguiente se muestran ejemplos de entradas admitidas y no admitidas.
Tabla 1 – Ejemplos de entradas admitidas y no admitidas en archivos de diccionario personalizado
Compatible | Incompatible |
---|---|
preventa |
pre venta |
3# |
#3 |
En#venta |
En|venta |
ASP.NET |
|
IT&T |
|
(2-Metoximetiletoxi)propanol |
|
34590-97-8 |
|
C7H1603 |
No hay ningún límite fijo para el número de entradas de un diccionario personalizado. Sin embargo, se recomienda que el tamaño total del archivo de un diccionario personalizado no supere los 2 gigabytes (GB). En la práctica, se recomienda limitar el número de entradas a unos pocos millares.
Creación de un diccionario personalizado
Use el siguiente procedimiento para crear un diccionario personalizado.
Para crear un diccionario personalizado
Compruebe que la cuenta de usuario que realiza este procedimiento pertenece al grupo Administradores del equipo local.
Inicie sesión en un servidor de rastreo.
Abra un nuevo archivo en un editor de texto.
Escriba las palabras que desea en el diccionario personalizado siguiendo las reglas indicadas anteriormente en este artículo, en Reglas para crear un diccionario personalizado.
En el menú Archivo, haga clic en Guardar como.
En la lista Guardar como tipo, seleccione Todos los archivos.
En la lista Codificación, seleccione Unicode.
En el cuadro Nombre de archivo, escriba el nombre de archivo en el siguiente formato: PersonalizadoNNNN. lex, donde "Personalizado" es una cadena literal, NNNN es el código hexadecimal de cuatro dígitos del idioma para el que va a crear el diccionario personalizado y lex es la extensión del nombre de archivo. Para obtener una lista de nombres de archivo válidos para idiomas y dialectos admitidos, vea Idiomas admitidos más adelante en este artículo.
En la lista Guardar en:, vaya a la carpeta que contiene los separadores de palabras. De manera predeterminada, esta carpeta es %Archivos de programa%\Microsoft Office Servers\14.0\Bin.
Nota
Los archivos de diccionario personalizados solo se pueden usar si están almacenados en esta carpeta del sistema de archivos local. No se pueden usar si solo están almacenados en un sitio de SharePoint por ejemplo.
Haga clic en Guardar.
Si no hay otros servidores de rastreo o servidores de consultas en el conjunto o granja de servidores, vaya a Procedimiento para detener y reiniciar el servicio de búsqueda de SharePoint Server 14. De lo contrario, pase al siguiente procedimiento, “Copia de un diccionario personalizado en cada servidor de aplicaciones de la granja de servidores”.
Copia del diccionario personalizado en cada servidor de aplicaciones
Debe haber una copia del diccionario personalizado en cada servidor de aplicaciones de la granja de servidores.
Para copiar el diccionario personalizado en cada aplicación
Compruebe que la cuenta de usuario que está llevando a cabo este procedimiento es un miembro del grupo Administradores en cada servidor de aplicaciones (es decir, cada servidor de rastreo o servidor de consultas) de la granja de servidores.
En cada servidor de aplicaciones de la granja, copie el nuevo archivo de diccionario personalizado en la carpeta que contiene los separadores de palabras. De manera predeterminada, esta carpeta es %Archivos de programa%\Microsoft Office Servers\14.0\Bin.
Nota
Los archivos de diccionario personalizados solo se pueden usar si están almacenados en esta carpeta del sistema de archivos local. No se pueden usar si solo están almacenados en un sitio de SharePoint por ejemplo.
Procedimiento para detener y reiniciar el servicio de búsqueda de SharePoint Server 14
Debe reiniciar el servicio de búsqueda de SharePoint Server 14 en cada servidor de aplicaciones de la granja de servidores.
Importante
No use la página Servicios del servidor de Administración central para detener e iniciar el servicio. Si lo hace, se quitará el servicio y se eliminará el índice y la configuración asociada. En su lugar, realice los pasos que se indican a continuación.
Para detener y reiniciar el servicio de búsqueda de SharePoint Server 14 en cada servidor de aplicaciones
Compruebe que la cuenta de usuario que realiza este procedimiento pertenece al grupo Administradores del equipo local.
En el menú Inicio, señale Todos los programas, elija Herramientas administrativas y haga clic en Servicios.
Haga clic con el botón secundario en el servicio Búsqueda de SharePoint Server 14 y, a continuación, haga clic en Propiedades. Aparecerá el cuadro de diálogo Propiedades.
Haga clic en Detener. Cuando el servicio esté detenido, haga clic en Iniciar.
Asegúrese de que el Tipo de inicio no esté establecido en Deshabilitado.
Repita este procedimiento para cada servidor de aplicaciones (es decir, cada servidor de rastreo y cada servidor de consultas) de la granja de servidores.
Rastreo completo
Para aplicar el diccionario personalizado al índice de contenido, debe realizar un rastreo completo de todo el contenido que tiene los tokens que ha agregado al diccionario personalizado. Para obtener información acerca del procedimiento para realizar un rastreo completo, vea Administración del rastreo (SharePoint Server 2010).
Idiomas admitidos
La tabla siguiente indica los idiomas y dialectos para los que SharePoint Server 2010 admite diccionarios personalizados. No se puede crear un diccionario personalizado para el separador de palabras independiente del idioma. La tabla incluye el identificador de código de idioma (LCID) y el código hexadecimal de idioma para cada idioma y dialecto admitidos. Los dos primeros números en el código hexadecimal representan el dialecto y los dos últimos números representan el idioma. En el caso de idiomas que no tienen separadores de palabras independientes para dialectos independientes, los dos primeros números en el código de idioma hexadecimal son siempre ceros.
Tabla 2 - Idiomas admitidos
Idioma/Dialecto | LCID | Código hexadecimal de idioma |
---|---|---|
Árabe |
1025 |
0001 |
Bengalí |
1093 |
0045 |
Búlgaro |
1026 |
0002 |
Catalán |
1027 |
0003 |
Croata |
1050 |
001a |
Danés |
1030 |
0006 |
Neerlandés |
1043 |
0013 |
Inglés |
1033 |
0009 |
Francés |
1036 |
000c |
Alemán |
1031 |
0007 |
Gujarati |
1095 |
0047 |
Hebreo |
1037 |
000d |
Hindi |
1081 |
0039 |
Islandés |
1039 |
000f |
Indonesio |
1057 |
0021 |
Italiano |
1040 |
0010 |
Japonés |
1041 |
0011 |
Canarés |
1099 |
004b |
Letón |
1062 |
0026 |
Lituano |
1063 |
0027 |
Malayo |
1086 |
003e |
Malayalam |
1100 |
004c |
Marathi |
1102 |
004e |
Noruego (Bokmaal) |
1044 |
0414 |
Portugués |
2070 |
0816 |
Portugués (Brasil) |
1046 |
0416 |
Punyabí |
1094 |
0046 |
Rumano |
1048 |
0018 |
Ruso |
1049 |
0019 |
Serbio (cirílico) |
3098 |
0c1a |
Serbio (latino) |
2074 |
081a |
Eslovaco |
1051 |
001b |
Esloveno |
1060 |
0024 |
Español |
3082 |
000a |
Sueco |
1053 |
001d |
Tamil |
1097 |
0049 |
Telugu |
1098 |
004a |
Ucraniano |
1058 |
0022 |
Urdú |
1056 |
0020 |
Vietnamita |
1066 |
002a |
See Also
Concepts
Administración de archivos de sinónimos (SharePoint Server 2010)