Palabras irrelevantes y listas de palabras irrelevantes

Para evitar que un índice de texto completo se llene demasiado, SQL Server dispone de un mecanismo que descarta las cadenas más frecuentes que no ayudan en la búsqueda. Estas cadenas descartadas se denominan palabras irrelevantes. Durante la creación de índices, el motor de texto completo omite las palabras irrelevantes del índice de texto completo. Eso significa que las consultas de texto completo no buscarán las palabras irrelevantes.

Nota importanteImportante

En esta versión, sigue vigente el concepto de palabras irrelevantes de SQL Server 2005. Cuando una base de datos se actualiza a SQL Server 2008 a partir de una versión anterior, los archivos de palabras irrelevantes dejan de usarse en SQL Server 2008. Sin embargo, los archivos de palabras irrelevantes están almacenados en la carpeta FTDATA\ FTNoiseThesaurusBak y se pueden utilizar posteriormente al actualizar o generar las listas de palabras irrelevantes de SQL Server 2008 correspondientes. Para obtener información acerca de cómo actualizar los archivos de palabras irrelevantes a las listas de palabras irrelevantes, vea Actualización de la búsqueda de texto completo.

Una palabra irrelevante puede ser una palabra con significado en un idioma determinado o un token sin significado lingüístico. Por ejemplo, en inglés, las palabras como "a", "and", "is" y "the" se omiten en el índice de texto completo porque se ha determinado que no son útiles en una búsqueda.

Aunque omite la inclusión de palabras irrelevantes, el índice de texto completo tiene en cuenta la posición de las mismas.. Tomemos como ejemplo la frase en inglés "Instructions are applicable to these Adventure Works Cycles models ". La siguiente tabla muestra la posición de las palabras en la frase:

Word

Posición

Instructions

1

are

2

applicable

3

por

4

these

5

Adventure

6

Works

7

Cycles

8

modelos

9

Las palabras irrelevantes "are", "to" y "these" que se encuentran en las posiciones 2, 4 y 5 quedan excluidas del índice de texto completo. Sin embargo, se mantiene la información de su posición, de forma que no afecte a la posición de las demás palabras en la frase.

Listas de palabras irrelevantes

En SQL Server 2008, las palabras irrelevantes se administran en bases de datos mediante objetos denominados listas de palabras irrelevantes. Una lista de palabras irrelevantes es una lista de palabras que, cuando se asocia a un índice de texto completo, se aplica a las consultas de texto completo en ese índice.

Crear una lista de palabras irrelevantes

Puede crear una lista de palabras irrelevantes de cualquiera de las maneras siguientes:

  • Usar la lista de palabras irrelevantes proporcionada por el sistema en la base de datos. SQL Server se distribuye con una lista de palabras irrelevantes del sistema que contiene las palabras irrelevantes utilizadas normalmente para cada idioma compatible; es decir, para cada idioma que está asociado de forma predeterminada a ciertos separadores de palabras. La lista de palabras irrelevantes del sistema contiene palabras irrelevantes de uso común en todos los idiomas admitidos. Puede copiar la lista de palabras irrelevantes del sistema y personalizar la copia agregando y quitando palabras irrelevantes.

    La lista de palabras irrelevantes del sistema se instala en la base de datos de recursos.

  • Crear una lista propia de palabras irrelevantes y agregar a ella palabras irrelevantes para cualquier idioma que especifique. También puede quitar palabras de la lista de palabras irrelevantes cuando sea necesario.

  • Usar una lista de palabras irrelevantes personalizada de cualquier otra base de datos en la instancia del servidor actual, y agregar y quitar palabras cuando sea necesario.

Nota importanteImportante

CREATE FULLTEXT STOPLIST, ALTER FULLTEXT STOPLIST y DROP FULLTEXT STOPLIST sólo se admiten para un nivel de compatibilidad de 100. En niveles de compatibilidad de 80 y 90, estas instrucciones no se admiten. Sin embargo, en todos los niveles de compatibilidad, la lista de palabras irrelevantes del sistema se asocia automáticamente a los nuevos índices de texto completo.

Para crear una lista de palabras irrelevantes

Para agregar o quitar palabras irrelevantes de una lista de palabras irrelevantes

Para quitar una lista de palabras irrelevantes

Usar una lista de palabras irrelevantes en consultas

Para utilizar una lista de palabras irrelevantes en consultas, es necesario asociarla a un índice de texto completo. Puede asociar una lista de palabras irrelevantes a un índice de texto completo en el momento de crear el índice, o puede modificar el índice más adelante y agregarle una lista de palabras irrelevantes.

Para crear un índice de texto completo y asociarle una lista de palabras irrelevantes

Para asociar o desasociar una lista de palabras irrelevantes y un índice de texto completo existente

Para suprimir un mensaje de error si las palabras irrelevantes generan el error de una operación Booleana en una consulta de texto completo

Ver listas de palabras irrelevantes y sus metadatos

Para ver todas las palabras de una lista de palabras irrelevantes

Obtener información sobre todas las listas de palabras irrelevantes de la base de datos actual

Ver el resultado de la tokenización de una combinación entre un separador de palabras, un diccionario de sinónimos y una lista de palabras irrelevantes