Planeación de rastreo y federación (SharePoint Server 2010)

 

Se aplica a: SharePoint Server 2010

Última modificación del tema: 2016-11-30

Para que los usuarios finales puedan usar la funcionalidad del motor de búsqueda Enterprise Search en Microsoft SharePoint Server 2010, debe rastrear o federar el contenido que desea que esté disponible para que los usuarios puedan buscar. La planeación del rastreo o la federación incluye las siguientes tareas:

  • Planeación de los orígenes de contenido

  • Planeación de las inclusiones de tipos de archivo e IFilters

  • Planeación de la autenticación

  • Planeación de los conectores

  • Planeación de la administración del impacto del rastreo

  • Planeación de las reglas de rastreo

  • Planeación de la configuración de búsqueda administrada a nivel de granja de servidores

  • Planeación de la federación

Planeación de los orígenes de contenido

Un origen de contenido es un conjunto de opciones que se puede usar para especificar el tipo de contenido que se desea rastrear, las direcciones URL que se van a rastrear, la profundidad del rastreo y el momento en que se realizará. El origen de contenido predeterminado es Sitios locales de SharePoint. Puede usarlo para especificar cómo rastrear todo el contenido de todas las aplicaciones web asociadas con una aplicación de servicio de búsqueda en particular. De forma predeterminada, por cada aplicación web que usa una aplicación de servicio de búsqueda específica, SharePoint Server 2010 agrega la dirección de inicio del sitio de nivel superior de cada colección de sitios al origen de contenido predeterminado.

Algunas organizaciones pueden usar el origen de contenido predeterminado para satisfacer sus requisitos de búsqueda. Sin embargo, muchas otras deben contar con orígenes de contenido adicionales. Planee los orígenes de contenido adicionales cuando tenga que realizar las siguientes tareas:

  • Rastrear distintos tipos de contenido; por ejemplo, sitios de SharePoint, recursos compartidos de archivos y datos profesionales.

  • Rastrear contenido que se encuentra en programaciones diferentes a otros contenidos.

  • Limitar o aumentar la cantidad de contenido rastreado.

  • Establecer prioridades diferentes para rastrear sitios distintos.

Puede crear hasta 500 orígenes de contenido en cada aplicación de servicio de búsqueda. Además, cada origen de contenido puede tener un máximo de 500 direcciones de inicio. Para que la administración sea lo más sencilla posible, se recomienda limitar el número de orígenes de contenido que va a crear.

Planeación del rastreo de distintos tipos de contenido

Solo puede rastrear un tipo de contenido por origen. Es decir, puede crear un origen de contenido con direcciones de inicio para sitios de SharePoint y otro con direcciones de inicio para recursos compartidos de archivos. Sin embargo, no puede crear un solo origen de contenido con direcciones de inicio para sitios de SharePoint y para recursos compartidos de archivos. En la siguiente tabla se enumeran los tipos de orígenes de contenido que puede configurar.

Use este tipo de origen de contenido Para este contenido

Sitios de SharePoint

Sitios de SharePoint de la misma granja de servidores o de diferentes granjas de servidores de Microsoft SharePoint Server 2010, Microsoft SharePoint Foundation 2010 o Microsoft Search Server 2010.

Sitios de SharePoint de la misma granja de servidores o de diferentes granjas de servidores de Microsoft Office SharePoint Server 2007, Windows SharePoint Services 3,0 o Microsoft Search Server 2008.

Sitios de SharePoint de granjas de servidores de Microsoft Office SharePoint Portal Server 2003 o Windows SharePoint Services 2.0

Nota

A diferencia del rastreo de sitios de SharePoint en SharePoint Server 2010, SharePoint Foundation 2010 o Search Server 2010, el rastreador (crawler) no puede rastrear automáticamente todos los subsitios de una colección de sitios de versiones anteriores de Productos y Tecnologías de SharePoint. Por lo tanto, cuando rastree sitios de SharePoint de versiones anteriores, debe especificar la dirección de inicio de cada sitio de nivel superior y la dirección URL de cada subsitio que desee rastrear.

Sitios web

Otro contenido web de la organización que no está ubicado en sitios de SharePoint

Contenido de sitios web en Internet

Recursos compartidos de archivos

Contenido de recursos compartidos de archivos de la organización

Carpetas públicas de Exchange

Contenido de Microsoft Exchange Server

Lotus Notes

Mensajes de correo electrónico almacenados en bases de datos de Lotus Notes

Nota

A diferencia de todos los demás tipos de orígenes de contenido, la opción de origen de contenido de Lotus Notes no aparecerá en la interfaz de usuario hasta que se haya instalado y configurado el software de requisitos previos adecuado. Para obtener más información, vea Configuración y uso del conector de Lotus Notes (SharePoint Server 2010).

Datos profesionales

Datos profesionales almacenados en aplicaciones de línea de negocio

Planeación de los orígenes de contenido de datos profesionales

Los orígenes de contenido de datos profesionales necesitan que las aplicaciones que hospedan el contenido se especifiquen en un modelo de aplicaciones de una aplicación de Servicio de conectividad a datos empresariales. Puede crear un origen de contenido para rastrear todas las aplicaciones registradas en el Servicio de conectividad a datos empresariales o crear orígenes de contenido independientes para rastrear aplicaciones individuales.

A menudo, quienes planean la integración de datos profesionales en las colecciones de sitios no son los mismos que se ocupan del proceso general de planeación de contenido. Por lo tanto, debe incluir administradores de la aplicación empresarial en equipos de planeación de contenido, para que puedan explicar cómo integrar datos de aplicaciones empresariales al contenido y cómo presentarlo de forma eficaz en las colecciones de sitios.

Rastreo de contenido en distintas programaciones

Debe decidir si desea rastrear una parte del contenido con más frecuencia que otras. Cuanto mayor sea el volumen de contenido que rastrea, será más probable que rastree contenido de distintos repositorios. Es posible que el contenido no sea del mismo tipo y esté ubicado en servidores con diferente capacidad. Esto hace que sea probable que tenga que agregar orígenes de contenido para rastrear los distintos repositorios de contenido en distintas programaciones.

A continuación se enumeran las razones principales para que el contenido se rastree en distintas programaciones:

  • Para abarcar tiempos de inactividad y períodos de uso máximo.

  • Para rastrear con mayor frecuencia el contenido que se actualiza con mayor frecuencia.

  • Para rastrear contenido ubicado en servidores más lentos de forma independiente del contenido ubicado en servidores más rápidos.

En muchos casos, no se conoce esta información hasta después de que SharePoint Server 2010 se implementa y se ejecuta durante algún tiempo. Cuando esto ocurre, debe especificar las programaciones de rastreo después de que la granja de servidores esté en producción. Sin embargo, se recomienda que tenga en cuenta estos factores durante la planeación, de modo que pueda planear las programaciones de rastreo en función de la información que tenga.

Las dos secciones siguientes proporcionan más información acerca del rastreo de contenido en distintas programaciones.

Consideraciones sobre la planeación de programaciones de rastreo

Puede configurar programaciones de rastreo de forma independiente para cada origen de contenido. Para cada uno de ellos, puede especificar una hora para realizar rastreos completos y otra para rastreos incrementales. Tenga en cuenta que debe ejecutar un rastreo completo para un origen de contenido determinado antes de poder realizar un rastreo incremental. Incluso si especifica un rastreo incremental para contenido que aun no ha sido rastreado, el sistema realizará un rastreo completo.

Nota

Dado que un rastreo completo rastrea todo el contenido que el rastreador (crawler) detecta y para el cual tiene al menos acceso de lectura, independientemente del contenido rastreado previamente, los rastreos completos tardan bastante más en completarse que los rastreos incrementales.

Se recomienda planear programaciones de rastreo en función de las consideraciones de disponibilidad, rendimiento y ancho de banda de los servidores de rastreo y consultas.

Al planear programaciones de rastreo, tenga en cuenta los siguientes procedimientos recomendados:

  • Agrupar direcciones de inicio en orígenes de contenido en función de una disponibilidad similar y con un uso de recursos general aceptable para los servidores que hospedan el contenido.

  • Programar rastreos incrementales para cada origen de contenido durante los momentos en que los servidores que hospedan el contenido están disponibles y cuando la demanda de los recursos del servidor sea baja.

  • Escalonar las programaciones de rastreo, de modo que la carga de los servidores de la granja se distribuya a lo largo del tiempo.

  • Programar rastreos completos solo cuando sea necesario, debido a los motivos enumerados en la sección siguiente. Se recomienda ejecutar rastreos completos con menor frecuencia que rastreos incrementales.

  • Programar cambios de administración que requieran un rastreo completo para que tengan lugar poco tiempo antes que la programación planeada para rastreos completos. Por ejemplo, se recomienda programar la creación de la regla de rastreo antes de la próxima programación de un rastreo completo, de modo que no sea necesario realizar un rastreo completo adicional.

  • Basar rastreos simultáneos en la capacidad disponible. Para obtener el mejor rendimiento, se recomienda escalonar las programaciones de rastreo de los orígenes de contenido. Podrá optimizar las programaciones de rastreo con el tiempo, a medida que conozca mejor las duraciones típicas de los rastreos de cada origen de contenido.

Motivos para realizar un rastreo completo

Los motivos para que un administrador de aplicación de servicio de búsqueda realice un rastreo completo son los siguientes:

  • Se instaló una actualización de software o un Service Pack en los servidores de la granja. Para obtener más información, vea las instrucciones sobre la actualización de software o Service Pack.

  • Un administrador de servicios compartidos de Microsoft Office SharePoint Server 2007 o un administrador de aplicación de servicio de búsqueda de SharePoint Server 2010 agregó una nueva propiedad administrada. Se requiere un rastreo completo para que la nueva propiedad administrada sea efectiva inmediatamente. Si no desea que la propiedad administrada surta efecto de inmediato, no necesita un rastreo completo.

  • Desea volver a indizar las páginas ASPX en los sitios de Windows SharePoint Services 3,0 o Microsoft Office SharePoint Server 2007.

    Nota

    El rastreador (crawler) no puede detectar los cambios en las páginas ASPX de los sitios de Windows SharePoint Services 3,0 o Office SharePoint Server 2007. Por esta razón, los rastreos incrementales no vuelven a indizar las vistas o páginas principales cuando se eliminan elementos de lista individuales. Se recomienda realizar periódicamente rastreos completos de los sitios que contienen archivos ASPX para asegurarse de que estas páginas se vuelvan a indizar.

  • Desea resolver errores consecutivos del rastreo incremental. Si un rastreo incremental genera un error cien veces consecutivas en cualquier nivel de un repositorio, el sistema quita el contenido afectado del índice.

  • Se agregaron, eliminaron o modificaron reglas de rastreo.

  • Desea reparar un índice dañado.

  • El administrador de aplicación de servicio de búsqueda creó una o más asignaciones de nombre de servidor.

  • Se produjo un cambio en las credenciales para la cuenta de usuario asignada a la cuenta predeterminada de acceso al contenido o en una regla de rastreo.

En las siguientes circunstancias, el sistema realiza un rastreo completo aun cuando se solicita un rastreo incremental:

  • Un administrador de búsquedas detuvo el rastreo anterior.

  • Se restauró una base de datos de contenido o un administrador de la granja de servidores desasoció y volvió a asociar una base de datos de contenido.

    Nota

    Si ejecuta Office SharePoint Server 2007 con la Actualización de infraestructura para servidores de Microsoft Office o SharePoint Server 2010, puede usar la operación de restauración de la herramienta de la línea de comandos Stsadm para decidir si la restauración de la base de datos de contenido ocasiona un rastreo completo.

  • Nunca se realizó un rastreo completo del sitio desde esta aplicación de servicio de búsqueda.

  • El registro de cambios no contiene entradas para las direcciones que se van a rastrear. Sin ellas, no se pueden realizar rastreos incrementales.

Puede ajustar las programaciones después de la implementación inicial en función del rendimiento y la capacidad de los servidores de la granja y los servidores que hospedan el contenido.

Limitación o aumento de la cantidad de contenido rastreado

Para cada origen de contenido, puede especificar el alcance del rastreo de las direcciones de inicio. También puede especificar el comportamiento del rastreo mediante la modificación de su configuración. Las opciones disponibles para un origen de contenido en particular varían según el tipo de origen de contenido que seleccione. Sin embargo, la mayoría de las opciones de rastreo especifican la cantidad de niveles de profundidad que se deben rastrear en la jerarquía de cada dirección de inicio. Tenga en cuenta que este comportamiento se aplica a todas las direcciones de inicio de un origen de contenido específico. Si debe rastrear algunos sitios a niveles más profundos, puede crear otros orígenes de contenido que incluyan esos sitios.

Puede usar las opciones de configuración del rastreo para limitar o aumentar la cantidad de contenido que se rastrea. Las opciones disponibles en las propiedades de cada origen de contenido varían en función del tipo de origen de contenido que se seleccione. En la siguiente tabla se describen los procedimientos recomendados para la configuración de las opciones del rastreo.

Para este tipo de origen de contenido Si esto ocurre Use esta opción de configuración del rastreo

Sitios de SharePoint

Desea incluir el contenido que se encuentra en el propio sitio y no quiere incluir el contenido de los subsitios, o desea rastrear el contenido de los subsitios en una programación distinta.

Rastrear sólo el sitio de SharePoint de cada dirección de inicio

Sitios de SharePoint

Desea incluir el contenido del propio sitio.

O bien,

Desea rastrear todo el contenido bajo la dirección de inicio de la misma programación.

Rastrear todo lo que se encuentre bajo el nombre de host de cada dirección de inicio

Sitios web

Es poco probable que el contenido disponible en los sitios vinculados sea relevante.

Rastrear sólo dentro del servidor de cada dirección de inicio

Sitios web

El contenido relevante se encuentra solo en la primera página.

Rastrear sólo la primera página de cada dirección de inicio

Sitios web

Desea limitar la profundidad del rastreo de los vínculos de la dirección de inicio.

Personalizado - especifique la profundidad de páginas y los saltos de servidor

Nota

Para un sitio fuertemente conectado, se recomienda iniciar con un número bajo; si especifica más de tres páginas de profundidad o más de tres saltos de servidor, se podría rastrear todo Internet.

Recursos compartidos de archivos

Carpetas públicas de Exchange

Es poco probable que el contenido disponible en las subcarpetas sea relevante.

Rastrear sólo la carpeta de cada dirección de inicio

Recursos compartidos de archivos

Carpetas públicas de Exchange

Es probable que el contenido de las subcarpetas sea relevante.

Rastrear la carpeta de cada dirección de inicio y todas sus subcarpetas

Datos profesionales

Todas las aplicaciones registradas en el repositorio de metadatos de BDC contienen contenido relevante.

Rastrear todo el repositorio de metadatos de BDC

Datos profesionales

No todas las aplicaciones registradas en el repositorio de metadatos de BDC contienen contenido relevante.

O bien,

Desea rastrear algunas aplicaciones en una programación diferente.

Rastrear las aplicaciones seleccionadas

Otras consideraciones sobre la planeación de orígenes de contenido

No puede rastrear las mismas direcciones de inicio mediante varios orígenes de contenido de la misma aplicación de servicio de búsqueda. Por ejemplo, si usa un origen de contenido determinado para rastrear una colección de sitios y todos sus subsitios, no puede usar un origen de contenido distinto para rastrear uno de esos subsitios de manera independiente en una programación distinta.

Además de tener en cuenta las programaciones de rastreo, la decisión sobre la agrupación de direcciones de inicio en un solo origen de contenido o la creación de orígenes de contenido adicionales depende en gran medida de las consideraciones de administración. A menudo, los administradores realizan cambios que actualizan un origen de contenido determinado. El cambio de un origen de contenido requiere un rastreo completo del repositorio de contenido especificado en ese origen de contenido. Para facilitar la administración, organice los orígenes de contenido de tal forma que la actualización de orígenes de contenido, reglas de rastreo y programaciones de rastreo sea conveniente para los administradores.

Planeación de las inclusiones de tipos de archivo e IFilters

El contenido solo se rastrea si la extensión de nombre de archivo relevante se incluye en la lista de inclusiones de tipos de archivo y hay un IFilter instalado en el servidor de rastreo que admite esos tipos de archivo. De forma automática, se incluyen varios tipos de archivo e IFilters durante la instalación. Al planear los orígenes de contenido durante la implementación inicial, determine si el contenido que desea rastrear usa tipos de archivo que no están incluidos. Si los tipos de archivo no están incluidos, debe agregarlos a la página Administrar tipos de archivo durante la implementación. También debe asegurarse de que se registre e instale un IFilter para admitir ese tipo de archivo.

Si desea excluir ciertos tipos de archivo del rastreo, puede eliminar la extensión de nombre de archivo que corresponde a ese tipo de archivo de la lista de inclusiones de tipos de archivo. Para obtener una lista de los tipos de archivo e IFilters instalados de forma predeterminada, vea File types and IFilters reference (SharePoint Server 2010).

Planeación de la autenticación

Cuando el rastreador (crawler) obtiene acceso a las direcciones de inicio enumeradas en los orígenes de contenido, debe ser autenticado por y se le debe conceder acceso a los servidores que hospedan el contenido. Esto significa que la cuenta de dominio que usa el rastreador (crawler) debe tener al menos permisos de lectura para el contenido.

De forma predeterminada, el sistema usa la cuenta predeterminada de acceso al contenido. Opcionalmente, puede usar las reglas de rastreo para especificar una cuenta de acceso al contenido distinta para usar cuando se rastrea contenido específico. Independientemente de si usa la cuenta predeterminada de acceso al contenido o una distinta que especifica la regla de rastreo, la cuenta de acceso al contenido que use debe tener permisos de lectura para todo el contenido rastreado. De lo contrario, el contenido no se rastrea, no se indiza y, por lo tanto, no está disponible para las consultas.

Se recomienda que la cuenta que especifique como la cuenta predeterminada de acceso al contenido tenga acceso a la mayor parte del contenido rastreado. Use otras cuentas de acceso al contenido solo cuando las consideraciones de seguridad requieran cuentas de acceso al contenido independientes.

Para cada origen de contenido que planee, determine las direcciones de inicio a las que no podrá acceder la cuenta predeterminada de acceso al contenido. A continuación, planee agregar reglas de rastreo para esas direcciones de inicio.

Importante

Asegúrese de que la cuenta de dominio que se usa para la cuenta predeterminada de acceso al contenido o cualquier otra cuenta de acceso al contenido no sea la misma cuenta de dominio que usa un grupo de aplicaciones asociado a una de las aplicaciones web que se rastrean. Si esto ocurre, es posible que se indice y rastree contenido no publicado y versiones secundarias de archivos (es decir, el historial) de sitios de SharePoint.

Otra consideración importante es que el rastreador (crawler) debe usar el mismo protocolo de autenticación que el servidor host. De forma predeterminada, el rastreador (crawler) autentica mediante NTLM. Puede configurar el rastreador para que use un protocolo de autenticación distinto, si es necesario.

Si usa autenticación basada en notificaciones, asegúrese de que la autenticación de Windows esté habilitada en todas las aplicaciones web que se van a rastrear.

Planeación de los conectores

Todo el contenido que se rastrea requiere el uso de un conector (conocido con un controlador de protocolo en versiones anteriores) para obtener acceso al contenido. SharePoint Server 2010 proporciona conectores para todos los protocolos de Internet comunes. Sin embargo, si desea rastrear contenido que requiere un conector que no está instalado con SharePoint Server 2010, debe instalar el conector de terceros o personalizado para poder rastrear el contenido. Para obtener una lista de los conectores instalados de manera predeterminada, vea Default connectors (SharePoint Server 2010). Para obtener más información acerca de los conectores, vea Instalación de conectores (SharePoint Server 2010).

Planeación de la administración del impacto del rastreo

El rastreo de contenido puede disminuir considerablemente el rendimiento de los servidores que hospedan el contenido. El impacto que esto tiene en un servidor en particular varía según la carga que experimente el servidor y de acuerdo a si el servidor tiene recursos suficientes (especialmente CPU y RAM) para mantener los contratos de nivel de servicio durante el uso normal o máximo.

Los administradores de búsquedas pueden usar las reglas de impacto del rastreador para administrar el impacto que tiene el rastreador (crawler) en los servidores que se rastrean. Para cada regla de impacto del rastreador, puede especificar una sola dirección URL o usar caracteres comodín en la ruta de acceso de la dirección URL para incluir un bloque de direcciones URL al que se van a aplicar las reglas. A continuación, puede especificar la cantidad de solicitudes simultáneas de páginas que se realizan a la dirección URL específica o decidir consultar solo un documento por vez y esperar la cantidad de segundos que elija entre una solicitud y otra.

Las reglas de impacto del rastreador especifican la velocidad a la que el rastreador (crawler) solicita contenido de una dirección de inicio determinada o un rango de direcciones de inicio (también conocido como nombre del sitio). Estas reglas se aplican a todos los orígenes de contenido de la aplicación de servicio de búsqueda y las frecuencias de solicitud se aplican por componente de rastreo. En la siguiente tabla se muestran los caracteres comodín que puede usar en el nombre del sitio al agregar o editar una regla de impacto del rastreador.

Este carácter comodín Tiene este resultado

* como el nombre del sitio

La regla se aplica a todos los sitios.

*.* como el nombre del sitio

La regla se aplica a sitios que tienen puntos en el nombre.

*.nombre_del_sitio.com como el nombre del sitio

La regla se aplica a todos los sitios del dominio nombre_del_sitio.com (por ejemplo, *.adventure-works.com).

*.nombre_de_dominio_de_nivel_superior como el nombre del sitio

La regla se aplica a todos los sitios que terminan con un nombre de dominio de nivel superior específico; por ejemplo, *.com o *.net.

?

Reemplaza un solo carácter de una regla. Por ejemplo, *.adventure-works?.com se aplica a todos los sitios de los dominios adventure-works1.com, adventure-works2.com y así sucesivamente.

Puede crear una regla de impacto del rastreador que se aplique a todos los sitios de un dominio de nivel superior en particular. Por ejemplo, *.com se aplica a todos los sitios de Internet que tengan direcciones terminadas en .com. Por ejemplo, un administrador de un sitio de portal podría agregar un origen de contenido para samples.microsoft.com. La regla para *.com se aplica a este sitio a menos que agregue una regla de impacto del rastreador específicamente para samples.microsoft.com.

Puede coordinar con los administradores de sistemas de búsqueda que rastrean el contenido de la organización para establecer reglas de impacto del rastreador basadas en el rendimiento y la capacidad de los servidores. Para la mayoría de los sitios externos, esta coordinación no es posible. Si se solicita demasiado contenido de los servidores externos o se realizan solicitudes muy frecuentemente, los administradores de esos sitios podrían limitar el acceso si los rastreos usan demasiados recursos. Durante la implementación inicial, establezca las reglas de impacto del rastreador para que tengan el menor impacto posible en los servidores, a la vez que rastrean contenido suficiente con una frecuencia adecuada, de modo que se asegure que la actualización del índice satisfaga el contrato de nivel de servicio. Una vez que la granja de servidores está en producción, puede ajustar las reglas de impacto del rastreador según los datos de los registros de rastreo.

Planeación de las reglas de rastreo

Las reglas de rastreo se aplican a todos los orígenes de contenido de la aplicación de servicio de búsqueda. Puede aplicar reglas de rastreo a una dirección URL determinada o a un conjunto de direcciones URL para realizar las siguientes tareas:

  • Evitar el rastreo de contenido irrelevante mediante la exclusión de una o más direcciones URL. Esto también ayuda a reducir el uso de recursos de servidor y tráfico de red, además de incrementar la relevancia de los resultados de la búsqueda.

  • Rastrear los vínculos de la dirección URL sin rastrear la propia dirección URL. Esta opción es útil para los sitios que tienen vínculos de contenido relevante cuando la página que contiene los vínculos no cuenta con información relevante.

  • Permitir que se rastreen direcciones URL complejas. Esta opción indica al sistema que debe rastrear direcciones URL que contengan un parámetro de consulta especificado con un signo de interrogación. Dependiendo del sitio, estas direcciones URL podrían no incluir contenido relevante. Debido a que las direcciones URL complejas a menudo redirigen a sitios irrelevantes, se recomienda habilitar esta opción solo en sitios en los que sabe que el contenido disponible de direcciones URL complejas es relevante.

  • Permitir que el contenido de los sitios de SharePoint se rastree como páginas HTTP. Esta opción permite que el sistema rastree sitios de SharePoint que están detrás de un firewall o en escenarios en los que el sitio que se va a rastrear restringe el acceso al servicio web que usa el rastreador (crawler).

  • Especificar si desea usar la cuenta predeterminada de acceso al contenido, una cuenta de acceso al contenido distinta o un certificado de cliente para rastrear la URL especificada.

Debido a que el rastreo de contenido consume recursos y ancho de banda, es mejor incluir una cantidad de contenido menor que sepa que es relevante, en lugar de incluir una cantidad mayor que podría no serlo. Después de la implementación inicial, puede revisar los registros de consultas y rastreo para ajustar los orígenes de contenido y las reglas de rastreo, de modo que sean más relevantes e incluyan más contenido.

Planeación de la configuración de búsqueda administrada a nivel de granja de servidores

Varias de las configuraciones que se administran a nivel de granja de servidores afectan al modo en que se rastrea el contenido. Tenga en cuenta la siguiente configuración de nivel de granja de servidores al planear el rastreo:

  • Dirección de correo electrónico de contacto: el rastreo de contenido afecta a los recursos de los servidores que se rastrean. Para poder rastrear contenido, debe proporcionar en la configuración la dirección de correo electrónico de la persona de la organización con quien los administradores pueden ponerse en contacto si el rastreo afecta a los servidores de manera negativa. Esta dirección de correo electrónico aparece en los registros para que los administradores de los servidores que se rastrean puedan ponerse en contacto con una persona si el impacto del rastreo en el rendimiento y ancho de banda es muy grande o si surgen otros problemas.

    La dirección de correo electrónico de contacto debe pertenecer a una persona que tenga la habilidad profesional y disponibilidad necesarias para responder rápidamente a las solicitudes. Como alternativa, puede usar un alias de lista de distribución supervisado de cerca como la dirección de correo electrónico de contacto. Independientemente de si el contenido que se rastrea se almacena internamente en la organización o no, es importante obtener una respuesta rápida.

  • Configuración del servidor proxy: puede optar por usar un servidor proxy cuando rastrea contenido. El servidor proxy que se va a usar depende de la topología de la implementación de SharePoint Server 2010 y la arquitectura de los demás servidores de la organización. Es probable que deba usar un servidor proxy cuando rastree contenido de Internet. Para obtener más información acerca de cómo configurar el servidor proxy, vea Configuración de las opciones de un servidor proxy de nivel de granja o conjunto de servidores (SharePoint Server 2010) y Configuración del servidor proxy para búsqueda (SharePoint Server 2010).

  • Configuración de tiempo de espera: la configuración del tiempo de espera se usa para limitar el tiempo que el sistema de búsqueda debe esperar mientras se conecta con otros servicios.

  • Configuración de SSL: la configuración de Capa de sockets seguros (SSL) determina si el certificado SSL debe coincidir exactamente para rastrear el contenido.

Planeación de la federación

La búsqueda federada es la consulta simultánea de varios recursos o bases de datos web para generar una única página de resultados de la búsqueda para los usuarios finales. Cuando agrega una ubicación federada, los usuarios finales pueden buscar y recuperar contenido que no han rastreado los servidores en el sistema local. Las ubicaciones federadas permiten que se envíen consultas a motores de búsqueda y fuentes remotos. De la misma manera, el sistema presenta los resultados para los usuarios finales como si el contenido federado fuera parte del contenido rastreado.

SharePoint Server 2010 admite los siguientes tipos de ubicaciones federadas:

  • Índice de búsqueda en este servidor. Puede usar cualquier sitio local o remoto de la organización que tenga un servidor que ejecute SharePoint Server 2010 como una ubicación federada. Por ejemplo, imagine que un sitio de SharePoint de un servidor de recursos humanos de la empresa es el único origen de información de contacto de los empleados. Incluso si el sitio no es parte del ámbito de rastreo, puede configurar una ubicación federaba para él, de modo que los usuarios que inicien una búsqueda desde el sitio Centro de búsqueda puedan recuperar información de contacto de los empleados que estén autorizados a ver. Se aplican las condiciones siguientes:

    1. La ubicación está establecida en Índice de búsqueda en este servidor.

    2. No se requiere una plantilla de consulta. SharePoint Server 2010 usa el modelo de objetos para consultar una ubicación.

    3. Se usa la autenticación de servidor predeterminada.

    4. No se admiten consultas de búsqueda avanzada.

  • OpenSearch 1.0 o 1.1. Puede usar cualquier sitio web público que admita el estándar OpenSearch como una ubicación federada. Un ejemplo de dicha ubicación es un motor de búsqueda de Internet, como Bing, o una página de resultados de la búsqueda que admita protocolos RSS o Atom. Por ejemplo, imagine que desea que los usuarios que buscan en sus sitios internos para realizar investigaciones técnicas de propiedad también vean información de investigación relacionada de sitios web públicos. Mediante la configuración de una ubicación federada para una consulta de búsqueda de Bing, los resultados de la búsqueda web se incluirán de forma automática para los usuarios. Se aplican las condiciones siguientes:

    1. Se pueden enviar consultas a un motor de búsqueda como una dirección URL, como http://www.example.com/search.aspx?q=TEST.

    2. Los resultados de la búsqueda se devuelven en RSS, Atom u otro formato XML estructurado.

    3. Las funciones de ubicación, plantillas de consulta y elementos de respuesta son parte de un archivo de descripción OpenSearch (.osdx) asociado con la ubicación.

    4. Las extensiones de OpenSearch específicas de SharePoint Server 2010 admiten la capacidad para incluir desencadenadores y para asociar código XSL con los resultados de la búsqueda.

    5. La elección de los metadatos que se van a mostrar en los resultados de la búsqueda la determina la ubicación de OpenSearch.

    Para obtener más información acerca de OpenSearch, visite https://www.opensearch.org/home.

Cuando se envía una consulta de búsqueda a una ubicación federada, se la envía como parámetros de dirección URL en un formato llamado plantilla de consulta. A continuación, el sistema da formato y presenta los resultados como XML para los usuarios del sitio Centro de búsqueda. El XML se muestra en un elemento web en los resultados de la búsqueda como texto que se puede leer. Puede agregar y configurar elementos web en la página de resultados de la búsqueda como un elemento web de resultados de búsqueda federada, elemento web Principales resultados federados o elemento web Resultados principales. De forma predeterminada, la página de resultados de la búsqueda contiene tres elementos web de resultados de búsqueda federada.

Tenga en cuenta las siguientes preguntas al determinar si desea mostrar los resultados de la búsqueda federada a los usuarios:

  1. ¿Desea mostrar resultados personalizados para determinadas búsquedas? Para asegurar que la ubicación federada devuelva resultados que coincidan con consultas específicas, puede usar reglas de desencadenamiento. Cuando crea una de estas reglas para una ubicación federada, el elemento web que está asociado con esa ubicación muestra resultados solo para las consultas del usuario que coinciden con el patrón o prefijo que especifique.

  2. ¿Puede usar una dirección URL para especificar qué resultados desea recuperar para una consulta? Para crear una ubicación federada, debe especificar una plantilla de consulta, que es la combinación de la dirección URL y los parámetros necesarios para enviar una consulta de búsqueda y devolver los resultados como XML. Al agregar esta información al campo Plantilla de consulta de la página Agregar ubicación federada, debe dar formato a la cadena correctamente (como se muestra en el ejemplo de adición de una página de ubicación federada); de lo contrario, el proveedor de resultados de la búsqueda no devolverá ningún resultado.

  3. ¿Los usuarios pueden obtener acceso a los vínculos que proporciona la ubicación federada? Si la organización solo concede acceso limitado a los recursos de Internet, el uso de un motor de búsqueda de Internet como una ubicación federada podría frustrar a los usuarios, porque no podrán ver algunos resultados de la búsqueda.

  4. ¿Se necesita autenticación? Si la ubicación federada necesita autenticación, debe proporcionar las credenciales correctas. Muchas ubicaciones federadas, como los motores de búsqueda de Internet, no requieren credenciales.

Planeación de los tipos de autenticación para federación

Hay varios tipos de autenticación de usuario, por usuario y credenciales comunes, disponibles para búsqueda federada. Sin embargo, tenga en cuenta que la recolección de credenciales requiere una extensión de elemento web para los tipos de autenticación que no son Kerberos en la autenticación por usuario. En la sección de información sobre autenticación y credenciales de la definición de ubicación, debe especificar el tipo de autenticación para la ubicación federada. El tipo de autenticación puede ser uno de los siguientes:

  • Anónima

    No se requieren credenciales para conectarse con la ubicación federada.

  • Común

    Cada conexión usa el mismo conjunto de credenciales para conectarse con la ubicación federada.

  • Por usuario

    Las credenciales del usuario que envió la consulta de búsqueda se usan para conectarse con la ubicación federada.

Para los tipos de autenticación común y por usuario, debe especificar también uno de los siguientes protocolos de autenticación:

  • Básica

    La autenticación básica también es parte de la especificación HTTP y la admite la mayoría de los exploradores.

    Nota de seguridadSecurity Note
    Los exploradores web que usan autenticación básica transmiten contraseñas que no están cifradas. Al supervisar las comunicaciones en la red, un usuario malintencionado puede usar herramientas disponibles públicamente para interceptar y descodificar las contraseñas. Por lo tanto, no se recomienda la autenticación básica a menos que confíe en que la conexión es segura, de la misma manera que con una línea dedicada o una conexión de Capa de sockets seguros (SSL).
  • Implícita

    La autenticación implícita se basa en el protocolo HTTP 1.1, como se define en la especificación RFC 2617 del sitio web de World Wide Web Consortium (W3C). Debido a que la autenticación implícita requiere admisión de HTTP 1.1, algunos exploradores no son compatibles con ella. Si un explorador que no es compatible con HTTP 1.1 solicita un archivo cuando la autenticación explícita está habilitada, la solicitud se rechaza debido a que el cliente no admite la autenticación implícita. Este tipo de autenticación se puede usar solo en dominios de Windows. La autenticación implícita funciona solo con cuentas de dominio de Windows Server 2008, Windows Server 2003 y Microsoft Windows 2000 Server, y podría requerir que las cuentas almacenen contraseñas como texto sin formato cifrado.

  • NTLM

    Los registros del usuario se almacenan en la base de datos del Administrador de cuentas de seguridad (SAM) o en la base de datos de Active Directory. Cada cuenta de usuario está asociada con dos contraseñas: la contraseña compatible con LAN Manager y la contraseña de Windows. Cada contraseña se cifra y almacena en la base de datos SAM o la de Active Directory.

  • Kerberos (solo tipo de autenticación por usuario)

    Mediante el protocolo Kerberos, un usuario de cada extremo de la conexión de red puede comprobar que el usuario del otro extremo es la entidad que dice ser. Aunque NTLM permite que los servidores comprueben las identidades de sus clientes, no permite que los clientes comprueben la identidad de un servidor, ni que un servidor compruebe la identidad de otro. La autenticación NTLM está diseñada para un entorno de red en el que se asume que los servidores son de confianza.

  • Basadas en formularios

    Una cookie de autenticación basada en formularios no es más que el contenedor de un vale de autenticación. Cada consulta pasa el vale como el valor de la cookie. A continuación, el vale se usa en el servidor para identificar un usuario autenticado. Sin embargo, la autenticación basada en formularios sin cookies pasa un vale en la dirección URL en un formato cifrado. La autenticación basada en formularios sin cookies se usa porque los exploradores de cliente podrían bloquear las cookies. Esta característica se presenta en Microsoft .NET Framework 2.0.

Si usa autenticación basada en notificaciones en el entorno, asegúrese de que la autenticación de Windows esté habilitada en todos los orígenes de contenido que se van a rastrear. Para obtener más información acerca de los métodos de autenticación de SharePoint Server 2010, vea Planeación de los métodos de autenticación (SharePoint Server 2010).

See Also

Concepts

Recopilación de información acerca del entorno de búsqueda actual (SharePoint Server 2010)
Determinación del equipo de búsqueda empresarial y las partes interesadas (SharePoint Server 2010)