Artigo
04/01/2012

Assistente de Mineração de Dados (Analysis Services - Mineração de dados)

O Assistente de Mineração de Dados no Microsoft SQL Server Analysis Services inicia toda vez que você adiciona uma nova estrutura de mineração a um projeto de mineração de dados. O assistente ajuda-o a definir novas estruturas de mineração e seleciona fontes de dados que serão usadas para a mineração de dados. O assistente também pode dividir os dados na estrutura de mineração em conjuntos de treinamento e teste e ajudá-lo a adicionar um modelo de mineração inicial para cada estrutura.

O conteúdo de uma estrutura de mineração é derivado de uma exibição da fonte de dados ou um cubo existente. É possível escolher as colunas que se quer incluir na estrutura de mineração. Todos os modelos que são baseados naquela estrutura podem usar essas colunas. É possível habilitar usuários de um modelo de mineração de dados para efetuar uma busca detalhada nos resultados do modelo de mineração para exibir colunas adicionais na estrutura de mineração que não foram incluídas no próprio modelo de mineração.

Você precisa tomar as seguintes decisões quando cria uma estrutura e modelo de mineração de dados utilizando o Assistente de Mineração de Dados:

Se criará a estrutura e os modelos de mineração a partir de um banco de dados relacional ou a partir de um cubo existente em um banco de dados OLAP.
Quantos dados usar em treinamento e quantos reservar para teste. Quando você divide uma estrutura de mineração em conjuntos de dados de treinamento e teste, todos os modelos que são baseados nessa estrutura podem usar esse conjunto de teste.
Quais colunas ou atributos usar para previsão e quais colunas ou atributos usar como entrada para análise. Cada estrutura também deve conter uma chave que identifica de forma exclusiva um registro de caso.
Qual algoritmo usar. Os algoritmos fornecidos no SQL Server Analysis Services possuem características diferentes e produzem resultados diferentes. É possível criar vários modelos usando algoritmos diferentes ou modificar parâmetros para que os algoritmos criem modelos diferentes. .

O Assistente de Mineração de Dados oferece funcionalidade para ajudá-lo a tomar estas decisões:

Páginas do Assistente nas quais você define o conjunto de casos. Você pode selecionar tabelas de casos e tabelas aninhadas de uma fonte de dados relacional, ou escolher uma fonte de dados OLAP e depois selecionar uma chave do caso e colunas de nível de caso e, opcionalmente, definir filtros no cubo.
Caixas de diálogo que analisam os dados nas colunas e recomendam o uso para as colunas.
Detecção automática de coluna, conteúdo da coluna e tipos de dados.
Divisão automática do cubo, se o seu modelo de mineração tiver como base uma fonte de dados OLAP.

Após concluir o Assistente de Mineração de Dados, utilize o Designer de Mineração de Dados para modificar a estrutura de mineração e os modelos para exibir a precisão do modelo, as características da estrutura e dos modelos ou fazer previsões utilizando os modelos.

Para obter mais informações:Designer de mineração de dados

Usando o assistente de mineração de dados

Para iniciar o Assistente de Mineração de Dados, adicione uma nova estrutura de mineração para um projeto Analysis Services usando o Gerenciador de Soluções ou o menu Projeto no Business Intelligence Development Studio.

O Assistente de Mineração de Dados tem duas ramificações, dependendo se sua fonte de dados é relacional ou em um cubo:

Modelos de mineração relacional
Modelos de mineração OLAP

Observação
Você não precisa ter um cubo ou um banco de dados OLAP para fazer mineração de dados. A menos que seus dados já estejam armazenados em um cubo ou você queira explorar dimensões OLAP ou resultados de cálculos ou agregações OLAP, recomendamos que você use uma fonte de dados ou tabela relacional para mineração de dados.

Modelos de mineração relacional

Ao criar um modelo de mineração a partir de uma fonte de dados relacional no Analysis Services, você primeiro especifica no Assistente de Mineração de Dados que deseja usar um banco de dados relacional existente para definir a estrutura do modelo. Você também tem a opção de criar somente a estrutura de mineração, ou criar a estrutura de mineração e um modelo associado de mineração de dados. Se você optar por criar um modelo de mineração, deverá especificar a técnica de mineração de dados a ser utilizada, selecionando o algoritmo mais apropriado para o tipo de análise de mineração de dados desejado.

Para obter mais informações:Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)

Especificando a exibição de fonte de dados e tipos de tabela

As próximas etapas no assistente são para selecionar a exibição específica de fonte de dados que você quer usar para definir a estrutura de mineração e especificar uma tabela de casos. A tabela de casos será usada para treinar o modelo de mineração de dados e opcionalmente para testá-lo também. É possível também especificar uma tabela aninhada.

Selecionar a tabela de casos é uma decisão importante. A tabela de casos deve conter as entidades que você quer analisar: por exemplo, clientes e as respectivas informações demográficas. A tabela aninhada normalmente contém informações adicionais sobre as entidades da tabela de casos, como as transações conduzidas pelo cliente ou os atributos que têm um relacionamento muitos-para-um com a entidade. Por exemplo, tabelas aninhadas unidas à tabela de casos de Clientes podem incluir uma lista de produtos adquiridos ou de passatempos para cada cliente. Para obter mais informações:Tabelas aninhadas (Analysis Services - Mineração de Dados)

Especificando o uso da coluna

Após especificar a tabela de casos e as tabelas aninhadas, você determina o tipo de uso para cada coluna das tabelas que irá incluir na estrutura de mineração. Se você não especificar um tipo de uso para uma coluna, ela não será incluída na estrutura de mineração.

Colunas de mineração de dados podem ser de um destes quatro tipos: chave, entrada, previsível ou uma combinação de entrada e previsível. Colunas chave contêm um identificador exclusivo para cada linha em uma tabela. Alguns modelos de mineração, como aquele com base no cluster de sequência ou em algoritmos de série temporal, podem conter várias colunas de chave. Porém, estas chaves múltiplas não são chaves compostas no sentido relacional, mas devem ser selecionadas de modo a fornecer suporte para séries temporais e análise de cluster de sequência. Para obter mais informações, consulte Algoritmo MTS ou Algoritmo MSC.

As colunas de entrada fornecem as informações das quais as previsões são feitas. As colunas previsíveis contêm as informações que você tenta prever no modelo de mineração.

Por exemplo, uma série de tabelas pode conter IDs de clientes, informações demográficas e quanto dinheiro cada cliente gasta em uma determinada loja. O identificador do cliente identifica exclusivamente o cliente e também relaciona a tabela de casos com as tabelas aninhadas; portanto, você deve usá-lo como coluna de chave. Você pode usar uma seleção de colunas de informações demográficas como colunas de entrada e a coluna que descreve quanto dinheiro cada cliente gasta como uma coluna previsível. Pode-se então criar um modelo de mineração que relaciona dados demográficos com quanto dinheiro um cliente gasta em uma loja. Você pode usar este modelo como base para marketing direcionado.

O Assistente de Mineração de Dados fornece o recurso Sugerir, que é habilitado quando você seleciona uma coluna previsível. Os conjuntos de dados frequentemente contêm mais colunas do que você precisa para construir um modelo de mineração. O recurso Sugerir calcula uma pontuação numérica, de 0 a 1, que descreve o relacionamento entre cada coluna no conjunto de dados e a coluna previsível. Com base nesta pontuação, o recurso sugere quais colunas usar como entrada para o modelo de mineração. Ao usar o recurso Sugerir, você pode utilizar as colunas sugeridas, modificar as seleções de acordo com suas necessidades ou ignorar as sugestões.

Especificando o conteúdo e tipos de dados

Após selecionar uma ou mais colunas previsíveis e colunas de entrada, você pode especificar o conteúdo e tipos de dados para cada coluna.

Para obter mais informações:Tipos de dados (Mineração de Dados), Tipos de conteúdo (mineração de dados)

Dividir dados em conjuntos de treinamento e teste

A etapa final, antes de você completar o assistente, é dividir seus dados em conjuntos de treinamento e teste. A habilidade de controle de uma porção dos dados para teste é nova no SQL Server 2008 e fornece um mecanismo fácil de usar para assegurar que um consistente conjunto de dados de teste está disponível para uso com todos os modelos de mineração associados com a nova estrutura de mineração.

É possível especificar que uma certa porcentagem dos dados seja usada para teste e todo o restante para treinamento. Você também pode especificar o número de casos que deverão ser usados para teste. A definição da divisão é gravada junto com a estrutura de mineração, de modo que sempre que você cria um novo modelo baseado na estrutura, o conjunto de dados de teste estará disponível para avaliar a precisão do modelo.

Para obter mais informações:Validando modelos de mineração de dados [Analysis Services - Mineração de Dados], Particionando dados em conjuntos de treinamento e teste (Analysis Services - Mineração de dados)

Concluindo o assistente

Para obter mais informações:Usando a análise nos modelos de mineração e nas estruturas de mineração (Analysis Services – Mineração de dados)

Voltar ao início

Modelos de mineração OLAP

Ao criar um modelo de mineração multidimensional a partir de uma fonte de dados OLAP no Analysis Services, você primeiro especifica no Assistente de Mineração de Dados que deseja usar um cubo existente para definir a estrutura do modelo. Você tem a opção de criar somente a estrutura de mineração ou criar a estrutura de mineração mais um modelo associado de mineração de dados. Se você escolher para criar um modelo de mineração, deve especificar a técnica de mineração de dados a ser utilizada, selecionando o algoritmo mais apropriado para o seu problema de negócios.

Para obter mais informações:Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)

Especificando a fonte de dados e a chave do caso

Em seguida, você seleciona a dimensão do cubo para usar como a fonte de dados para definir a estrutura de mineração. Selecione um atributo para usar como a chave, ou chave do caso, do modelo de mineração.

Observação
O modelo de mineração OLAP que você está criando e o cubo de origem que você usa para criar o modelo, devem estar contidos no mesmo banco de dados Analysis Services.

Especificando colunas de nível de caso e uso de colunas

Depois de selecionar uma chave do caso, os atributos e medidas que estão associados com esta chave são mostrados em um modo de exibição de árvore na página seguinte do assistente. Nesta lista, você seleciona os atributos e medidas para serem usados como as colunas da estrutura. Estas colunas são conhecidas como colunas de nível do caso. Assim como em um modelo relacional, você deve também especificar como cada coluna deve ser usada na estrutura, o que poderá fazer na página seguinte do assistente. As colunas podem ser chave, entrada, previsível, entrada e previsível, ou não selecionada.

Adicionando tabelas aninhadas

A ramificação OLAP do Assistente de Mineração de Dados inclui a opção de adicionar tabelas aninhadas para a estrutura do modelo de mineração. Na página do assistente Especificar o Uso de Coluna do Modelo de Mineração, clique em Adicionar Tabelas Aninhadas para abrir uma caixa de diálogo separada que irá guiá-lo através das etapas para adicionar as tabelas. São exibidos somente os grupos de medidas que se aplicam à dimensão. Selecione um grupo de medidas que contém a chave estrangeira da dimensão do caso. Em seguida, especifique o uso para cada coluna no grupo de medidas, ou entrada ou previsível. O assistente então acrescenta a tabela aninhada à tabela de caso. O nome padrão para a tabela aninhada é o nome da dimensão aninhada, mas você pode alterar o nome da tabela aninhada e de suas colunas. Para obter mais informações:Tabelas aninhadas (Analysis Services - Mineração de Dados)

Especificando o conteúdo e tipos de dados

Após selecionar uma ou mais colunas previsíveis e colunas de entrada, você pode especificar o conteúdo e tipos de dados para cada coluna.

Para obter mais informações:Tipos de dados (Mineração de Dados), Tipos de conteúdo (mineração de dados)

Dividindo o cubo de origem

Na ramificação OLAP do assistente, você pode limitar o escopo do seu modelo de mineração dividindo o cubo de origem antes de treinar o modelo de mineração. Dividir o cubo é semelhante a acrescentar uma cláusula WHERE a um comando SQL. Por exemplo, se um cubo contém informações sobre a compra de produtos, você pode limitar um atributo de idade para maior que 30, uma coluna de sexo para somente feminino e uma data de compra para não anterior a março de 2000. Desta maneira, você pode limitar o modelo para cobrir o escopo de uma mulher com mais de 30 anos e que comprou um produto após março de 2000.

Dividir dados em conjuntos de treinamento e teste

A etapa final antes de você completar o assistente é dividir os dados que estão disponíveis no cubo em conjuntos de treinamento e teste. A definição da divisão é gravada junto com a estrutura de mineração, de modo que sempre que você cria um novo modelo baseado na estrutura, o conjunto de dados de teste estará disponível para avaliar a precisão do modelo.

Concluindo o assistente

A última etapa no assistente é nomear a estrutura de mineração e o modelo de mineração associado. Se você seleciona Permitir detalhar, a funcionalidade detalhar é habilitada no modelo. Isso permite que usuários que têm permissões apropriadas explorem os dados de origem que são usados para criar o modelo. É possível também especificar se você deseja adicionar uma nova dimensão para o cubo de origem com base no modelo de mineração ou criar um novo cubo do modelo de mineração.

Para obter mais informações:Usando a análise nos modelos de mineração e nas estruturas de mineração (Analysis Services – Mineração de dados)

Voltar ao início