Share via


Planeación del rastreo de contenido(Search Server 2008)

Actualizado: 2008-09-19

En este artículo:

  • Rastreo e indización del contenido

  • Identificación de los orígenes de contenido que se desean rastrear

  • Planeación de los orígenes de contenido

  • Planeación de la autenticación

  • Planeación de los controladores de protocolo

  • Planeación de la administración del impacto del rastreo

  • Planeación de las reglas de rastreo

  • Planeación de la configuración de búsqueda que se administra en el nivel de granja de servidores

  • Indización del contenido en idiomas diferentes

Nota

A menos que se especifique lo contrario, la información de este artículo se aplica a Microsoft Search Server 2008 y Microsoft Search Server 2008 Express.

El propósito de este artículo es orientar a los administradores de servicios de búsqueda en la planeación del rastreo de contenido, ayudándoles a comprender cómo rastrea e indiza contenido Microsoft Search Server 2008. Para obtener más información, vea Adición o eliminación de un administrador de servicios de búsqueda (Search Server 2008).

Para que los usuarios finales puedan aprovechar la funcionalidad del motor de búsqueda Enterprise Search en Search Server 2008, primero se debe rastrear el contenido en el que se ejecutarán las consultas.

En este artículo, el término "contenido" indica un elemento que se puede rastrear, como una página web, un documento de Microsoft Office Word o un archivo de mensaje de correo electrónico.

Cuando planee el rastreo de contenido, plantéese las preguntas siguientes:

  • ¿Dónde está ubicado físicamente?

  • ¿Se encuentra almacenado en orígenes diferentes, como recursos compartidos de archivos, sitios de SharePoint, sitios web u otros lugares?

  • ¿Desea rastrear todo el contenido almacenado en el origen o sólo una parte?

  • ¿Qué tipos de archivos desea rastrear?

  • ¿Cuándo y con qué frecuencia debería rastrear el contenido?

  • ¿Cómo se protege el contenido?

Use la información de este artículo para responder a estas preguntas y tomar las decisiones de planeación necesarias sobre el contenido que desea rastrear y cómo y cuándo desea rastrearlo.

Rastreo e indización del contenido

El rastreo y la indización del contenido es el proceso a través del cual el sistema tiene acceso y analiza el contenido y sus propiedades, a veces denominadas metadatos, para generar un índice de contenido a partir del cual se pueden resolver las consultas de búsqueda.

Si el contenido se rastrea correctamente, el rastreador tiene acceso a los archivos o fragmentos de contenido individuales y los lee. Las palabras clave y los metadatos de esos archivos se almacenan en el índice de contenido, que en ocasiones también se denomina índice. El índice está formado por las palabras clave que están almacenadas en el sistema de archivos del servidor de índices y los metadatos que se almacenan en la base de datos de búsqueda. El sistema mantiene una asignación entre las palabras clave, los metadatos y la dirección URL del origen desde el que se rastreó el contenido.

El servicio de búsqueda está asociado al proveedor de servicios compartidos (SSP) y está asignado a un servidor específico para indizar el contenido. A diferencia de los productos de servidor en la versión 2007 de Office, que puede tener varios SSP y, por ende, más de un índice de contenido, Search Server 2008 está limitado a un SSP y, por consiguiente, tiene un solo índice de contenido.

Nota

El rastreador no cambia los archivos en los servidores host. En su lugar, obtiene acceso a los archivos, los lee y, a continuación, envía el texto y los metadatos al servidor de índices. Algunos servidores host cambian la fecha de los archivos después de que el rastreador de datos haya tenido acceso a ellos. El rastreador no lo hace.

Identificación de los orígenes de contenido que se desean rastrear

En muchos casos es posible que las necesidades de la organización requieran que simplemente se rastree todo el contenido de los sitios de SharePoint de la granja de servidores de la organización. En ese caso, no sería necesario identificar los orígenes de contenido que se desean rastrear, ya que todas las colecciones de sitios de una granja de servidores se pueden rastrear con el origen de contenido predeterminado. Para obtener más información acerca del origen de contenido predeterminado, vea Planeación de los orígenes de contenido más adelante en este artículo.

Muchas organizaciones también necesitan rastrear contenido externo a la granja de servidores, como recursos compartidos de archivos o sitios web de Internet. Search Server 2008 puede rastrear e indizar contenido que está hospedado en otras granjas de servidores de Windows SharePoint Services, sitios web, recursos compartidos de archivos, carpetas públicas de Microsoft Exchange y servidores IBM Lotus Notes. Esto aumenta en gran medida la cantidad de contenido disponible para las consultas de búsqueda.

Sin embargo, en muchos casos es posible que no se desee rastrear todas las colecciones de sitios de la granja de servidores, ya que el contenido almacenado en algunas colecciones de sitios podría no ser relevante en los resultados de búsqueda. En este caso, debe realizar una de estas acciones, o ambas:

  • Tome nota de las direcciones URL que no desea rastrear. Si decide usar el origen de contenido predeterminado, debe asegurarse de que las direcciones de inicio de las colecciones de sitios que no desea rastrear no aparecen en el origen de contenido predeterminado.

  • Tome nota de cada una de las direcciones de inicio de las colecciones de sitios que no desea rastrear. Si decide crear orígenes de contenido adicionales para usarlos para rastrear este contenido, necesita saber las direcciones de inicio. Dispone de información sobre cuándo se debe usar uno o más orígenes de contenido en la sección Planeación de los orígenes de contenido de este artículo.

TipSugerencia:

Con Search Server, hay dos formas de procesar las consultas de búsqueda para devolver los resultados de la búsqueda a los usuarios. Puede consultar el índice de contenido de Search Server o puede usar la búsqueda federada. Cada método tiene sus ventajas. Para obtener una comparativa de estos dos métodos para procesar las consultas de búsqueda, vea el artículo acerca de la introducción a la búsqueda federada (en inglés) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0xC0A) (en inglés). Para obtener una lista y una breve descripción de los artículos de Servidor de búsqueda acerca de la información y el uso de la federación, vea Trabajo con la federación (Search Server 2008).

Planeación de los orígenes de contenido

Para poder rastrear contenido, antes debe determinar dónde se encuentra y en qué tipos de servidores se hospeda. Una vez recopilada esta información, un administrador de servicios de búsqueda puede crear uno o varios orígenes de contenido. Estos orígenes de contenido proporcionan la información siguiente al rastreador:

  • Tipo de contenido que se desea rastrear (por ejemplo, un sitio de SharePoint o un recurso compartido de archivos).

  • Dirección de inicio de la que parte el rastreo.

  • Comportamiento que se usará en el rastreo (por ejemplo, hasta qué profundidad se rastreará desde la dirección de inicio o cuántos saltos de servidor se permitirán).

  • Frecuencia de rastreo.

Nota

En ocasiones, rastrear contenido con un origen de contenido concreto se denomina "rastrear el origen de contenido".

Esta sección ayuda a planear los orígenes de contenido que requiere la organización.

El origen de contenido predeterminado se denomina Sitios locales de Office SharePoint Server. Los administradores de servicios de búsqueda pueden usar este origen de contenido para rastrear e indizar todo el contenido de la granja de servidores. De forma predeterminada, Search Server 2008 agrega la dirección de inicio (en este caso, una dirección URL) del sitio de nivel superior de cada colección de sitios de la granja de servidores al origen de contenido predeterminado.

Para algunas organizaciones, el simple uso del origen de contenido predeterminado para rastrear todos los sitios de las colecciones de sitios satisface sus requisitos de búsqueda, pero muchas organizaciones necesitan orígenes de contenido adicionales.

En ocasiones es necesario crear orígenes de contenido adicionales para:

  • Rastrear distintos tipos de contenido.

  • Rastrear contenido según una programación diferente a la de otro contenido.

  • Limitar o aumentar la cantidad de contenido que se rastrea.

Los administradores de servicios de búsqueda pueden crear hasta 500 orígenes de contenido y cada uno de estos orígenes de contenido puede incluir hasta 500 direcciones de inicio. Para que la administración sea lo más sencilla posible, debe crear sólo los orígenes de contenido que necesite.

Rastreo de distintos tipos de contenido

Sólo se puede rastrear un tipo de contenido por origen de contenido. Dicho de otro modo, se puede crear un origen de contenido que incluya direcciones URL para sitios de SharePoint y otro que incluya direcciones URL para recursos compartidos de archivos, pero no se puede crear un solo origen de contenido que incluya direcciones URL para sitios de SharePoint y recursos compartidos de archivos. En la tabla siguiente se enumeran los tipos de orígenes de contenido que se pueden configurar.

Este tipo de origen de contenido Incluye este tipo de contenido

Sitios de SharePoint

Sitios de SharePoint de la misma granja de servidores o de granjas de servidores de Office SharePoint Server 2007, Windows SharePoint Services 3.0 o Search Server 2008 diferentes

  • Sitios de SharePoint de Microsoft Office SharePoint Portal Server 2003 o Windows SharePoint Services 2.0

    NoteNota:
    A diferencia de lo que sucede cuando se rastrean sitios de SharePoint en Office SharePoint Server 2007, Windows SharePoint Services 3.0 o Search Server 2008, el rastreador no puede rastrear automáticamente todos los subsitios de una colección de sitios de versiones anteriores de Tecnologías y Productos de SharePoint. Por lo tanto, al rastrear sitios de SharePoint de versiones anteriores, se debe especificar la dirección URL de cada sitio de nivel superior y cada subsitio que se desee rastrear. Los sitios incluidos en el Directorio de sitios de granjas de servidores de Microsoft Office SharePoint Portal Server 2003 se rastrean cuando se rastrea el sitio del portal. Para obtener más información acerca del Directorio de sitios, vea el artículo acerca del Directorio de sitios (en inglés) (https://go.microsoft.com/fwlink/?linkid=88227&clcid=0xC0A) (en inglés).

Sitios web

  • Otro contenido web de la organización que no se encuentra en sitios de SharePoint

  • Contenido en sitios web de Internet

Recursos compartidos de archivos

Contenido en recursos compartidos de archivos de la organización

Lotus Notes

Mensajes de correo electrónico almacenados en bases de datos de Lotus Notes

NoteNota:
A diferencia de los demás tipos de orígenes de contenido, la opción de origen de contenido Lotus Notes no aparece en la interfaz de usuario hasta que se hayan instalado y configurado los requisitos previos de software correspondientes. Para obtener más información, vea Configuración del servidor de búsqueda para el rastreo de Lotus Notes (Search Server 2008).

Carpetas públicas de Exchange

Contenido de Exchange Server

Rastreo de contenido según programaciones diferentes

Los administradores de servicios de búsqueda a menudo deben decidir si un contenido se rastrea más frecuentemente que otro. Cuanto mayor sea el volumen de contenido que se rastrea, existen más probabilidades de que se rastree contenido de orígenes diferentes, que podrían ser o no ser del mismo tipo y estar hospedados en servidores de velocidad diferente.

Estos factores aumentan las posibilidades de que se requieran orígenes de contenido adicionales para rastrear el contenido diferente en momentos diferentes.

Entre las razones principales por las que el contenido se deba rastrear según programaciones diferentes, se pueden citar las siguientes:

  • Para admitir los períodos de inactividad y de uso máximo.

  • Para rastrear con más frecuencia el contenido que se actualiza más a menudo.

  • Para rastrear el contenido hospedado en servidores host más lentos en un proceso independiente del contenido de servidores host más rápidos.

En muchos casos no es posible conocer toda esta información hasta después de implementar Search Server 2008 y usarlo durante algún tiempo. Algunas de estas decisiones se toman durante la fase de operaciones. Sin embargo, recomendamos tener en cuenta estos factores durante la planeación para anticipar las programaciones de rastreo según la información que esté disponible.

En las dos secciones siguientes se proporciona más información sobre el rastreo de contenido según programaciones diferentes.

Períodos de inactividad y de uso máximo

Tenga en cuenta los períodos de inactividad y de uso máximo de los servidores que hospedan el contenido que desea rastrear. Por ejemplo, si va a rastrear contenido hospedado en muchos servidores diferentes fuera de la granja de servidores, es probable que las copias de seguridad de estos servidores se realicen según programaciones diferentes y tengan distintos períodos de uso máximo. Lo normal es que no pueda controlar la administración de los servidores que no pertenecen a su granja de servidores, por lo que es recomendable que coordine las operaciones de rastreo con los administradores de los servidores que hospedan el contenido que desea rastrear para asegurarse de que no intenta rastrear contenido en sus servidores durante períodos de inactividad o de uso máximo.

Es habitual que el contenido que se encuentra fuera del control de su organización esté relacionado con el contenido de los sitios de SharePoint. Puede agregar las direcciones de inicio de este contenido a un origen de contenido existente o crear un nuevo origen de contenido para el contenido externo. Como la disponibilidad de los sitios externos varía considerablemente, resulta útil agregar orígenes de contenido independientes para el contenido externo diferente. De esta forma, los orígenes del contenido externo se pueden rastrear en un momento distinto al de los demás orígenes de contenido. Después, puede actualizar el contenido externo según una programación de rastreo que tenga en cuenta la disponibilidad de cada sitio.

Contenido que se actualiza con frecuencia

Cuando planee las programaciones de rastreo, tenga en cuenta que algunos orígenes de contenido suelen actualizarse con más frecuencia que otros. Por ejemplo, si sabe que el contenido de algunas colecciones de sitios u orígenes externos se actualiza solamente los viernes, malgastaría recursos si rastrease el contenido más de una vez a la semana. Sin embargo, es posible que la granja de servidores contenga otras colecciones de sitios que se actualizan continuamente de lunes a viernes, pero no los sábados o los domingos. En este caso, podría ser conveniente realizar el rastreo varias veces al día, pero solamente una o dos veces los fines de semana.

La manera en que se almacena el contenido en las colecciones de sitios del entorno puede servirle de guía para crear orígenes de contenido adicionales para cada colección de sitios de cada aplicación web. Por ejemplo, si una colección de sitios almacena solamente información archivada, posiblemente no necesite rastrear ese contenido con tanta frecuencia como una colección de sitios que almacene contenido que se actualiza a menudo. En este caso, rastrearía las dos colecciones de sitios con orígenes de contenido diferentes para poder usar distintas programaciones y no tener que rastrear los sitios de información archivada con tanta frecuencia como el resto del contenido.

Programaciones de rastreo completas e incrementales

Los administradores de servicios de búsqueda pueden configurar las programaciones de rastreo de manera independiente para cada origen de contenido. Pueden especificar, para cada origen de contenido, una hora para realizar rastreos completos y otra hora para realizar rastreos incrementales. Recuerde que es necesario realizar primero un rastreo completo de un origen de contenido dado para poder realizar uno incremental. Si elige realizar un rastreo incremental de contenido que todavía no se ha rastreado, el sistema realizará un rastreo completo.

Se recomienda planear las programaciones de rastreo teniendo en cuenta la disponibilidad, el rendimiento y el ancho de banda de los servidores en los que se ejecuta el servicio de búsqueda y los servidores que hospedan el contenido rastreado.

Cuando planee las programaciones de rastreo, tenga presentes los siguientes procedimientos recomendados:

  • Agrupe las direcciones de inicio de los orígenes de contenido según una disponibilidad similar y con un uso de recursos generales aceptable para los servidores que hospedan el contenido.

  • Programe rastreos incrementales de cada origen de contenido durante períodos en los que los servidores que hospedan el contenido estén disponibles y cuando la demanda de recursos del servidor sea baja.

  • Escalone las programaciones de rastreo para que la carga en los servidores de la granja de servidores se distribuya en el tiempo.

  • Programe rastreos completos sólo cuando sea necesario, por las razones expuestas en la sección siguiente. Se recomienda programar rastreos completos con menor frecuencia que los incrementales.

  • Programe los cambios de administración que requieran un rastreo completo de forma que tengan lugar poco antes de la programación de rastreos completos que ha planeado. Por ejemplo, es recomendable que intente programar la creación de la regla de rastreo antes del siguiente rastreo completo programado de forma que no sea necesario realizar otro rastreo completo.

  • Programe los rastreos simultáneos según la capacidad que tenga el servidor de índices. La recomendación es que escalone las programaciones de rastreo de forma que el servidor de índices no rastree usando varios orígenes de contenido al mismo tiempo. Para que el rendimiento sea óptimo, es conveniente que escalone las programaciones de rastreo de los orígenes de contenido. El rendimiento del servidor de índices y de los servidores que hospedan el contenido determina hasta qué punto se pueden superponer los rastreos. Con el tiempo, según se vaya familiarizando con lo que suelen durar los rastreos para cada origen de contenido, estará preparado para desarrollar una estrategia de programación.

Razones para realizar un rastreo completo

Entre los motivos para que un administrador de servicios compartidos realice un rastreo completo se incluyen:

  • Se instalaron uno o varios Service Pack o revisiones en servidores de la granja de servidores. Para obtener más información, vea las instrucciones de la revisión o Service Pack.

  • Un administrador de servicios compartidos ha agregado una nueva propiedad administrada.

  • Para volver a indizar páginas ASPX en sitios de Windows SharePoint Services 3.0.

    Nota

    El rastreador no puede detectar cuándo han cambiado las páginas ASPX en los sitios de Windows SharePoint Services 3.0. Por ello, en los rastreos incrementales no se vuelven a indizar las vistas o páginas principales cuando se eliminan elementos de lista individuales. Se recomienda realizar periódicamente rastreos completos de los sitios que contengan archivos ASPX para asegurarse de que estas páginas se vuelven a indizar.

  • Para detectar los cambios de seguridad que se realizaron en un recurso compartido de archivos tras el último rastreo completo del recurso compartido de archivos.

  • Para solucionar errores consecutivos en los rastreos incrementales. En algunos casos aislados, si un rastreo incremental genera un error cientos de veces seguidas en cualquier nivel de un repositorio, el servidor de índices quita el contenido afectado del índice.

  • Se han agregado, eliminado o modificado reglas de rastreo.

  • Para reparar un índice dañado.

  • El administrador de los servicios de búsqueda ha creado una o más asignaciones de nombres de servidor.

  • La cuenta asignada a la regla de rastreo o cuenta de acceso a contenido predeterminado ha cambiado.

El sistema realiza un rastreo completo cuando se solicita un rastreo incremental en las siguientes circunstancias:

  • Un administrador de servicios compartidos ha detenido el rastreo anterior.

  • Se restauró una base de datos de contenido.

    Nota

    Si está ejecutando la Actualización de infraestructura para servidores de Microsoft Office, puede usar la operación de restauración de la herramienta de línea de comandos Stsadm para cambiar si una restauración de base de datos de contenido causa un rastreo completo.

  • Un administrador de granja de servidores ha separado y vuelto a adjuntar una base de datos de contenido.

  • Nunca se ha realizado un rastreo completo del sitio.

  • El registro de cambios no contiene entradas para las direcciones que se están rastreando. Sin entradas en el registro de cambios de los elementos que se están rastreando, no se pueden realizar rastreos incrementales.

  • La cuenta asignada a la regla de rastreo o cuenta de acceso a contenido predeterminado ha cambiado.

  • Para reparar un índice dañado.

    En función de la gravedad del daño, el sistema puede intentar realizar un rastreo completo si se detecta que el índice está dañado.

Puede ajustar las programaciones después de la implementación inicial basándose en el rendimiento y la capacidad de los servidores de la granja de servidores y los servidores que hospedan el contenido.

Limitación o aumento de la cantidad de contenido que se rastrea

Es posible seleccionar el grado de rastreo de las direcciones de inicio de cada origen de contenido. También se especifica el comportamiento de rastreo, lo que a veces se conoce como configuración de rastreo. Las opciones que se pueden elegir para un origen de contenido concreto varían en función del tipo de origen de contenido que se seleccione. No obstante, la mayoría de las opciones determinan la profundidad de la jerarquía que se rastrea a partir de cada dirección de inicio enumerada en el origen de contenido. Tenga en cuenta que este comportamiento se aplica a todas las direcciones de inicio de un origen de contenido determinado. Si es necesario rastrear algunos sitios en mayor profundidad, se pueden crear orígenes de contenido adicionales que abarquen esos sitios.

Las opciones disponibles en las propiedades de cada origen de contenido varían en función del tipo de origen de contenido que se seleccione. En la tabla siguiente se describen las opciones de configuración del rastreo para cada tipo de origen de contenido.

Tipo de origen de contenido Opciones de configuración del rastreo

Sitios de SharePoint

  • Todo lo que se encuentre bajo el nombre de host de cada dirección de inicio

  • Sólo el sitio de SharePoint de cada dirección de inicio

Sitios web

  • Sólo en el servidor de cada dirección de inicio

  • Sólo la primera página de cada dirección de inicio

  • Personalizado (se especifica la profundidad de página y el número de saltos de servidor).

    NoteNota:
    El valor predeterminado de esta opción es una profundidad de página y un número de saltos de servidor ilimitados.

Recursos compartidos de archivos

  • La carpeta y todas las subcarpetas de cada dirección de inicio

  • Sólo la carpeta de cada dirección de inicio

Carpetas públicas de Exchange

  • La carpeta y todas las subcarpetas de cada dirección de inicio

  • Sólo la carpeta de cada dirección de inicio

Como demuestra la tabla anterior, los administradores de servicios de búsqueda pueden usar opciones de configuración de rastreo para limitar o aumentar la cantidad de contenido que se rastrea.

En la tabla siguiente se describen los procedimientos recomendados para definir las opciones de configuración del rastreo.

Para este tipo de origen de contenido En estas circunstancias Use esta opción de configuración de rastreo

Sitios de SharePoint

Debe incluir el contenido del propio sitio.

O bien,

No desea incluir el contenido disponible en los subsitios o desea rastrearlos según una programación diferente.

Rastrear sólo el sitio de SharePoint de cada dirección de inicio

Sitios de SharePoint

Debe incluir el contenido del propio sitio.

O bien,

Desea rastrear todo el contenido situado bajo la dirección de inicio según la misma programación.

Rastrear todo lo que se encuentre bajo el nombre de host de cada dirección de inicio

Sitios web

El contenido del propio sitio es relevante.

O bien,

El contenido disponible en los sitios vinculados seguramente no sea relevante.

Rastrear sólo en el servidor de cada dirección de inicio

Sitios web

El contenido relevante se encuentra solamente en la primera página.

Rastrear sólo la primera página de cada dirección de inicio

Sitios web

Desea limitar la profundidad de rastreo de los vínculos en las direcciones de inicio.

Personalizado (especifique el número de niveles de páginas y el número de saltos de servidor que se deben rastrear)

NoteNota:
Se recomienda comenzar con un número pequeño en un sitio con muchas conexiones, ya que, si especifica una profundidad de más de tres páginas o más de tres saltos de servidor, se podría rastrear todo Internet.

Recursos compartidos de archivos

Carpetas públicas de Exchange

El contenido disponible en las subcarpetas seguramente no sea relevante.

Rastrear sólo la carpeta de cada dirección de inicio

Recursos compartidos de archivos

Carpetas públicas de Exchange

El contenido de las subcarpetas seguramente sea relevante.

Rastrear la carpeta y subcarpeta de cada dirección de inicio

Planeación de los tipos de archivos incluidos e IFilters

El contenido se rastrea sólo si la extensión de nombre de archivo correspondiente forma parte de la lista de tipos de archivo incluidos y se ha instalado en el servidor de índices un IFilter que sea compatible con ellos. Durante la instalación inicial se incluyen automáticamente varios tipos de archivo. Cuando planee los orígenes de contenido en la implementación inicial, determine si el contenido que desea rastrear usa tipos de archivos que no están incluidos. En ese caso, deberá agregarlos en la página Administrar tipos de archivo durante la implementación y asegurarse de que se ha instalado un IFilter y se ha registrado para que sea compatible con ese tipo de archivo.

Search Server 2008 proporciona varios IFilter y se pueden obtener más de Microsoft y de otros proveedores. Para obtener más información sobre el procedimiento de instalación y registro de los IFilter adicionales que están disponibles en Microsoft, vea el artículo acerca del procedimiento para registrar Microsoft Filter Pack de Microsoft con SharePoint Server 2007 y Search Server 2008. Si es necesario, los programadores de software pueden crear varios IFilter para nuevos tipos de archivo.

Por otra parte, si desea excluir del rastreo algunos tipos de archivo, puede eliminar la extensión de nombre de archivo correspondiente de la lista de tipos de archivo incluidos. De esta forma, no se rastrearán los nombres de archivo que tengan esa extensión.

En la tabla siguiente se enumeran los tipos de archivo admitidos por los IFilters que se instalan de manera predeterminada y los tipos de archivo que están habilitados en la página Administrar tipos de archivo de manera predeterminada.

Extensión de nombre de archivo Compatible con IFilter de manera predeterminada Tipo de archivo incluido de manera predeterminada

ascx

asm

No

asp

aspx

bat

No

c

No

cmd

No

cpp

No

css

No

cxx

No

def

No

dic

No

doc

docm

docx

dot

eml

exch

No

h

No

hhc

No

hht

No

hpp

No

hta

No

htm

html

htw

No

htx

No

jhtml

No

jsp

No

lnk

No

mht

mhtml

mpx

No

msg

mspx

No

nsf

No

odc

one

No

No

php

No

pot

No

pps

No

ppt

pptm

pptx

pub

stm

No

tif

tiff

No

trf

No

txt

url

No

vdx

No

vsd

No

vss

No

vst

No

vsx

No

vtx

No

xlb

No

xlc

No

xls

xlsm

xlsx

xlt

No

xml

IFilters y Microsoft Office OneNote

No se proporciona un IFilter para la extensión de nombre de archivo .one usada por Microsoft Office OneNote. Si desea que los usuarios puedan buscar contenido en archivos de Office OneNote, deberá instalar un IFilter para OneNote. Para hacerlo, debe realizar una de las acciones siguientes:

  • Instalar la aplicación cliente de Microsoft Office OneNote 2007 en el servidor de índices.

    El IFilter proporcionado por Office OneNote 2007 sirve para rastrear archivos tanto de Office OneNote 2003 como de Office OneNote 2007. El IFilter instalado por Office OneNote 2003 puede rastrear sólo archivos de Office OneNote 2003.

  • Instalación y registro de Microsoft Filter Pack.

    El paquete de filtros que proporciona IFilter de OneNote puede usarse para rastrear sólo los archivos de Office OneNote 2007. Para obtener más información, vea el tema que trata sobre el registro de Microsoft Filter Pack con SharePoint Server 2007 y Search Server 2008.

Limitación o exclusión de contenido mediante reglas de rastreo

Si agrega una dirección de inicio a un origen de contenido y acepta el comportamiento predeterminado, se rastrearán todos los subsitios o carpetas que se encuentren debajo de dicha dirección a menos que los excluya mediante una o varias reglas de rastreo.

Para obtener más información sobre las reglas de rastreo, vea Planeación de las reglas de rastreo más adelante en este artículo.

Otras consideraciones al planear orígenes de contenido

No puede rastrear las mismas direcciones mediante varios orígenes de contenido. Por ejemplo, si usa un origen de contenido determinado para rastrear una colección de sitios y todos sus subsitios, no podrá usar un origen de contenido diferente para rastrear uno de dichos subsitios por separado en otra programación. Para incluir esta restricción, es recomendable que rastree algunos de estos sitios por separados. Considere el escenario siguiente:

Un administrador de Contoso desea rastrear http://contoso, que contiene los subsitios http://contoso/sites/site1 y http://contoso/sites/site2. El administrador desea rastrear http://contoso/sites/site2 en una programación diferente que los demás sitios. Para ello, el administrador agrega las direcciones http://contoso y http://contoso/sites/site1 a un origen de contenido y selecciona la opción denominada Rastrear sólo el sitio de SharePoint de cada dirección de inicio. A continuación, el subsitio http://contoso/sites/site2 se agrega a un origen de contenido independiente con una programación de rastreo diferente.

Además de las programaciones de rastreo, existen otras cuestiones que deben tenerse en cuenta a la hora de planear orígenes de contenido. Por ejemplo, la agrupación de direcciones de inicio en un solo origen de contenido o la creación de orígenes de contenido adicionales para rastrear las direcciones de inicio dependen principalmente de consideraciones administrativas. Con frecuencia, los administradores realizan cambios que requieren una actualización completa de un origen de contenido determinado. Los cambios realizados en un origen de contenido requieren un rastreo completo de dicho origen de contenido. Para facilitar la administración, organice los orígenes de contenido para facilitar a los administradores las operaciones de actualizar orígenes de contenido y reglas de rastreo, y rastrear contenido.

Resumen de orígenes de contenido

Tenga en cuenta lo siguiente a la hora de planear orígenes de contenido:

  • Un origen de contenido determinado se puede usar para rastrear sólo uno de los siguientes tipos de contenido: sitios de SharePoint, sitios web que no sean sitios de SharePoint, recursos compartidos de archivos, carpetas públicas de Exchange y bases de datos de Lotus Notes.

  • Los administradores de servicios de búsqueda pueden crear hasta 500 orígenes de contenido y cada uno de estos orígenes de contenido puede incluir hasta 500 direcciones de inicio. Para que la administración sea lo más sencilla posible, debe crear sólo los orígenes de contenido que realmente necesite.

  • Cada dirección URL de un origen de contenido determinado debe ser del mismo tipo de origen de contenido.

  • En el caso de un origen de contenido determinado, puede elegir el alcance del rastreo desde las direcciones de inicio. Estas opciones de configuración se aplican a todas las direcciones de inicio del origen de contenido. Las opciones disponibles del alcance según el cual se pueden rastrear las direcciones de inicio varían según el tipo de origen de contenido que se seleccione.

  • Puede programar el momento en que se realizará un rastreo completo o incremental para todo el origen de contenido. Para obtener más información acerca de la programación de rastreos, vea la sección Planeación de reglas de rastreo más adelante en este artículo.

  • Los administradores de los servicios de búsqueda pueden modificar el origen de contenido predeterminado, crear orígenes de contenido adicionales para el rastreo de otro contenido o bien pueden llevar a cabo ambas acciones. Por ejemplo, pueden configurar el origen de contenido predeterminado para rastrear también contenido en otra granja de servidores o pueden crear origen de contenido nuevo para rastrear otro contenido.

  • Para rastrear de forma eficaz todo el contenido necesario para la organización, use tantos orígenes de contenido como crea necesario para los tipos de orígenes que desee rastrear, así como para la frecuencia según la cual desea planear el rastreo de los mismos.

Planeación de la autenticación

Cuando el rastreador tenga acceso a las direcciones de inicio que aparecen en los orígenes de contenido, los servidores que hospedan dicho contenido deberá autenticar y conceder acceso al rastreador. Esto significa que la cuenta de dominio usada por el rastreador debe tener al menos el permiso de lectura para el contenido.

La cuenta predeterminada de acceso al contenido es la cuenta que se usa de forma predeterminada a la hora de rastrear orígenes de contenido. El administrador de los servicios de búsqueda se encarga de especificar esta cuenta. Como alternativa, puede usar las reglas de rastreo para especificar otra cuenta de acceso al contenido para usarla al rastrear un contenido determinado. Independientemente de si usa la cuenta predeterminada de acceso al contenido u otra cuenta de acceso al contenido especificado por una regla de rastreo, la cuenta de acceso al contenido que use deberá tener acceso de lectura para todo el contenido que se rastree. En caso contrario, el contenido no se rastreará y no estará disponible para las consultas.

Es recomendable que seleccione una cuenta predeterminada de acceso al contenido que tenga el acceso más amplio a la mayoría del contenido rastreado y sólo usar las demás cuentas de acceso al contenido cuando las consideraciones de seguridad requieran cuentas de acceso al contenido independientes. Para obtener más información sobre la creación de cuentas de acceso al contenido independientes para rastrear contenido que no puede leerse mediante la cuenta predeterminada de acceso al contenido, vea el apartado Planeación de las reglas de rastreo más adelante en este artículo.

Para cada origen de contenido que planee, identifique las direcciones de inicio a las que la cuenta predeterminada de acceso al contenido no puede tener acceso y planee agregar reglas de rastreo para los patrones de direcciones URL que abarquen dichas direcciones de inicio.

Nota

Asegúrese de que la cuenta de dominio usada para la cuenta predeterminada de acceso al contenido o cualquier otra cuenta de acceso al contenido no sea la misma cuenta de dominio usada por un grupo de aplicaciones asociado con la aplicación web que se rastrea. Al hacerlo, podría hacer que se rastreara e indexara contenido no publicado de sitios de SharePoint y versiones secundarias de archivos (historial) de los sitios de SharePoint.

Para obtener más información sobre las consideraciones relativas a la planeación de cuentas de acceso al contenido, vea la sección Planeación de las reglas de rastreo más adelante en este artículo.

Otra consideración importante es que el rastreador debe usar el mismo modo de autenticación que el servidor host. De forma predeterminada, el rastreador se intenta autenticar mediante la autenticación NTLM. Puede configurar el rastreador para que use otro método de autenticación en caso necesario. Para obtener más información, vea "Requisitos de autenticación para el rastreo de contenido" de la sección Planeación de métodos de autenticación (Office SharePoint Server). Este artículo también se refiere a Search Server 2008.

Planeación de controladores de protocolo

Todo el contenido que se rastrea requiere el uso de un controlador de protocolo para obtener acceso a dicho contenido. Search Server 2008 proporciona controladores de protocolo para todos los protocolos de Internet comunes. Sin embargo, si desea rastrear contenido que requiera un controlador de protocolo no instalado con Search Server 2008, deberá instalar un controlador de protocolo de terceros o personalizado para poder rastrear dicho contenido.

En la siguiente tabla se muestran los controladores de protocolo que se instalan de forma predeterminada.

Controlador de protocolo Se usa para rastrear

File

Recursos compartidos de archivos

http

Sitios web

https

Sitios web a través de la Capa de sockets seguros (SSL)

Notas

Bases de datos de Lotus Notes

Rb

Carpetas públicas de Exchange

Rbs

Carpetas públicas de Exchange a través de SSL

Sps

Perfiles personales de granjas de servidores de Windows SharePoint Services 2.0

Sps3

Rastreos de perfiles personales sólo de granjas de servidores de Windows SharePoint Services 3.0

Sps3s

Rastreos de perfiles personales sólo de granjas de servidores de Windows SharePoint Services 3.0 a través de SSL

Spsimport

Importación de perfiles personales

Spss

Importación de perfiles personales de granjas de servidores de Windows SharePoint Services 2.0 a través de SSL

Sts

Direcciones URL raíz de Windows SharePoint Services 3.0 (protocolo interno)

Sts2

Sitios de Windows SharePoint Services 2.0

Sts2s

Sitios de Windows SharePoint Services 2.0 a través de SSL

Sts3

Sitios de Windows SharePoint Services 3.0

Sts3s

Sitios de Windows SharePoint Services 3.0 a través de SSL

Planeación para administrar el impacto del rastreo

El rastreo de contenido puede reducir significativamente el rendimiento de los servidores que hospedan el contenido. El impacto que esto tiene en un servidor determinado varía en función de la carga que soporte el servidor host y si el servidor dispone de suficientes recursos (particularmente CPU y RAM) para mantener los acuerdos de nivel de servicio durante condiciones de uso normales o de mayor actividad.

Las reglas de impacto del rastreador permiten a los administradores de granjas gestionar el impacto que el rastreador tiene en los servidores que se rastrean. Para cada regla de impacto del rastreador, puede especificar una sola dirección URL o usar caracteres comodín en la dirección URL para incluir un bloque de direcciones URL al cual se aplica la regla. A continuación, puede especificar el número de solicitudes simultáneas para páginas realizadas para la dirección URL especificada u optar por solicitar sólo un documento cada vez y esperar el intervalo en segundos que elija entre las solicitudes.

Las reglas de impacto del rastreador reducen o incrementan la velocidad a la que el rastreador solicita contenido de una dirección de inicio o de un intervalo de direcciones de inicio determinados (a veces denominado nombre de sitio), independientemente del origen de contenido usado para rastrear dichas direcciones. En la tabla siguiente, se muestran los caracteres comodín que se pueden usar en el nombre del sitio al agregar una regla.

Comodín a usar Resultado

* como el nombre del sitio

Aplica la regla a todos los sitios.

*.* como el nombre del sitio

Aplica la regla a los sitios con puntos en el nombre.

*.nombre_sitio.com como nombre del sitio

Aplica la regla a todos los sitios del dominio nombre_sitio.com (por ejemplo, *.adventure-works.com).

*.nombre_dominio_nivel_superior como nombre del sitio

Aplica la regla a todos los sitios que finalizan con un nombre de dominio de nivel superior específico, por ejemplo *.com o *.net.

?

Reemplaza un único carácter en una regla. Por ejemplo, *.adventure-works?.com se aplicará a todos los sitios de los dominios adventure-works1.com, adventure-works2.com, etc.

Puede crear una regla de impacto del rastreador que se aplique a todos los sitios de un dominio de nivel superior determinado. Por ejemplo, *.com se aplica a todos los sitios de Internet con direcciones que acaban en .com. Y, por ejemplo, un administrador de un sitio del portal puede agregar un origen de contenido para example.microsoft.com. La regla de *.com se aplicará a este sitio a menos que agregue una regla de impacto del rastreador específicamente para example.microsoft.com.

Solicitar demasiado contenido en servidores externos o realizar consultas con demasiada frecuencia puede ocasionar que los administradores de dichos sitios limiten su acceso futuro si los rastreos están usando demasiados recursos o demasiado ancho de banda. Por lo tanto, el procedimiento recomendado es realizar un rastreo más lentamente. De este modo, puede mitigar el riesgo de perder acceso para rastrear el contenido en cuestión.

Durante la implementación inicial, establezca las reglas de impacto del rastreador de modo que ejerzan el menor impacto posible en otros servidores mientras se sigue rastreando con frecuencia el suficiente contenido para garantizar la validez del contenido rastreado.

Durante la fase de operaciones, puede ajustar las reglas de impacto del rastreador basándose en sus experiencias y en los datos de los registros de rastreo.

Planeación de las reglas de rastreo

Las reglas de rastreo se aplican a una dirección URL o a un conjunto de direcciones URL determinado representado mediante comodines (también conocido como la ruta de acceso a la que se aplica la regla). Puede usar reglas de rastreo para llevar a cabo las operaciones siguientes:

  • Evite rastrear contenido irrelevante excluyendo una o varias direcciones URL. Esto también ayuda a reducir el uso de recursos del servidor y el tráfico de red, así como a incrementar la relevancia de los resultados de la búsqueda.

  • El rastreo se vincula a la dirección URL sin rastrear la dirección URL en sí. Esta opción es útil en aquellos sitios con vínculos de contenido pertinente cuando la página que contiene los vínculos no contiene información relevante.

  • Permitir que se rastreen las direcciones URL complejas. Esta opción rastrear las direcciones URL que contienen un parámetro de consulta especificado con un signo interrogativo. En función del sitio, estas direcciones URL pueden o no incluir contenido relevante. Puesto que las direcciones URL complejas con frecuencia pueden redireccionar a sitios no relevantes, es una buena idea habilitar únicamente esta opción en sitios donde se sepa que el contenido disponible de las direcciones URL complejas es relevante.

  • Permitir que el contenido en sitios de SharePoint se rastree como páginas HTTP. Esta opción permite al servidor de índices rastrear sitios de SharePoint que se encuentra detrás de un firewall o en escenarios en los que el sitio que se está rastreando restringe el acceso al servicio web usado por el rastreador.

  • Especifique si se debe usar la cuenta predeterminada de acceso al contenido, una cuenta de acceso al contenido diferente o un certificado de cliente para rastrear la dirección URL especificada.

Nota

Las reglas de rastreo se aplican simultáneamente a todos los orígenes de contenido.

Con frecuencia, la mayoría del contenido de una dirección de un sitio determinado es pertinente, pero no un subsitio ni un intervalo de sitios bajo esa dirección de sitio. Al seleccionar una combinación más específica de direcciones URL para las cuales deben crearse reglas de rastreo que excluyan elementos innecesarios, los administradores de servicios de búsqueda pueden maximizar la relevancia del contenido en el índice a la vez que minimizan el impacto en el rendimiento del rastreo y el tamaño de las bases de datos de búsqueda. La creación de reglas de rastreo para excluir direcciones URL es particularmente útil a la hora de planear direcciones de inicio para contenido externo, cuyo impacto en el uso de los recursos no está bajo el control del personal de la organización.

Al crear una regla de rastreo, puede usar los caracteres comodín estándar en la ruta de acceso. Por ejemplo:

  • http://servidor1/carpeta* contiene todos los recursos web con una dirección URL que comienza por http://servidor1/carpeta.

  • *://*.txt incluye cada documento con la extensión de nombre de archivo .txt.

Como el contenido de rastreo consume recursos y ancho de banda, es mejor incluir menos cantidad de contenido que sepa que es importante que una cantidad mayor de contenido que pueda ser no importante. Después de la implementación inicial, puede revisar los registros de consulta y de rastreo y ajustar los orígenes de contenido y las reglas de rastreo para que sean más importantes e incluyan más contenido.

Especificación de una cuenta de acceso al contenido diferente

En el caso de las reglas de rastreo que incluyen contenido, los administradores tienen la opción de cambiar la cuenta de acceso al contenido para la regla. Se usa la cuenta predeterminada de acceso al contenido a no ser que se especifique otra cuenta en una regla de rastreo. La razón principal para usar una cuenta de acceso al contenido distinta para una regla de rastreo es que la cuenta predeterminada de acceso al contenido no tenga acceso a todas las direcciones de inicio. En el caso de dichas direcciones de inicio, puede crear una regla de rastreo y especificar una cuenta que no tenga acceso.

Nota

Asegúrese de que la cuenta de dominio usada para la cuenta predeterminada de acceso al contenido o cualquier otra cuenta de acceso al contenido no sea la misma cuenta de dominio usada por un grupo de aplicaciones asociado con la aplicación web que se rastrea. Al hacerlo, podría hacer que se rastreara e indexara contenido no publicado de sitios de SharePoint y versiones secundarias de archivos (historial) de los sitios de SharePoint.

Planeación de la configuración de búsqueda que se administra en el nivel de granja de servidores

Además de las opciones que se configuran a nivel de la Administración de búsquedas, existen varias opciones que se administran a nivel de granja que afectan al modo en que se rastrea el contenido. Considere las siguientes opciones de configuración de búsqueda a nivel de granja de servidores a la hora de planear el rastreo:

Dirección de correo electrónico de contacto: el rastreo de contenido afecta a los recursos de los servidores que se están rastreando. Para poder rastrear contenido, primero deberá especificar, en las opciones de configuración, la dirección de correo electrónico de la persona de la organización con la que deben ponerse en contacto los administradores en el caso de que el rastreo afecte negativamente a los servidores. Esta dirección de correo electrónico aparece en los registros de los administradores de los servidores que se están rastreando de modo que dichos administradores puedan ponerse en contacto con alguna persona si el impacto del rastreo en su rendimiento o ancho de banda es demasiado alto o si se producen otros problemas.

La dirección de correo electrónico de contacto debe pertenecer a una persona que tenga la experiencia y la disponibilidad necesarias para responder rápidamente a las solicitudes. Como alternativa, puede usar un alias de una lista de distribución supervisada rigurosamente como dirección de correo electrónico de contacto. Con independencia de si el contenido rastreado se almacena internamente en la organización o no, es importante que el tiempo de respuesta sea rápido.

Configuración del servidor proxy: puede elegir si usará un servidor proxy al rastrear contenido. El servidor proxy que use dependerá de la topología de la implementación de Search Server 2008 y la arquitectura de otros servidores de la organización.

  • Configuración de tiempo de espera: la configuración del tiempo de espera se usa para limitar el tiempo que espera el servidor de búsqueda mientras se conecta a otros servicios.

  • Configuración de SSL: la configuración de la capa de sockets seguros (SSL) determina si el certificado SSL debe coincidir exactamente para rastrear contenido.

Indización de contenido en idiomas diferentes

Cuando se rastrea contenido, el rastreador determina cada palabra individual en el contenido que encuentra. Los idiomas que tienen palabras separadas por espacios en blanco simplifican la tarea del rastreador de distinguir cada palabra. En otros idiomas, la búsqueda del límite entre las palabras puede ser más compleja.

Search Server 2008 proporciona separadores de palabras y analizadores lingüísticos de manera predeterminada para ayudar a rastrear e indizar contenido en muchos idiomas. Los separadores de palabras encuentran los límites de las palabras en los datos de texto indizado, mientras los analizadores lingüísticos conjugan verbos.

Si se rastrea alguno de los idiomas de la tabla que se muestra a continuación, Search Server 2008 usará de forma automática el separador de palabras y el analizador lingüístico adecuado para dicho idioma. Un asterisco (*) indica que la característica de análisis lingüístico está activa de forma predeterminada.

Idioma admitido de forma predeterminada Idioma admitido de forma predeterminada

Árabe

Lituano*

Bengalí

Malayo

Búlgaro*

Malayalam*

Catalán

Marathi

Croata

Noruego (Bokmaal)

Checo*

Polaco*

Danés

Portugués

Neerlandés

Portugués (Brasil)

Inglés

Punyabí

Finés*

Rumano*

Francés*

Ruso*

Alemán*

Serbio (cirílico)*

Griego*

Serbio (latino)*

Gujarati

Eslovaco*

Hebreo

Esloveno*

Hindi

Español*

Húngaro*

Sueco

Islandés*

Tamil*

Indonesio

Telugu*

Italiano

Tailandés

Japonés

Turco*

Kannada*

Ucraniano*

Coreano

Urdú*

Letón*

Vietnamita

Cuando el rastreador indiza el contenido de un idioma que no está admitido, se usa el separador neutro. Si el separador neutro no proporciona los resultados esperados, puede intentar soluciones de terceros que funcionan con Search Server 2008.

Vea también

Trabajo con la federación (Search Server 2008)