Compreendendo os requisitos para um modelo de série temporal (Tutorial de mineração de dados intermediário)

 

Aplicável a: SQL Server 2016 Preview

Quando for preparar os dados para usá-los em um modelo de previsão, você deverá garantir que eles contenham uma coluna que possa ser usada na identificação das etapas da série temporal. Essa coluna será designada como o Key Time coluna. Como é uma chave, a coluna deve conter valores numéricos exclusivos.

Escolher a unidade certa para o Key Time coluna é uma parte importante da análise. Por exemplo, suponha que seus dados de vendas sejam atualizados a cada minuto. Você não precisa necessariamente usar minutos como a unidade para a série temporal; você pode achar mais significativo acumular os dados de vendas por dia, semana ou mês. Se você não tiver certeza sobre qual unidade de tempo usar, poderá criar uma nova exibição da fonte de dados para cada agregação e criar modelos relacionados, para ver se tendências diferentes emergem a cada nível de agregação.

Neste tutorial, os dados de vendas são coletados diariamente no banco de dados de vendas transacional, mas para a mineração de dados, os dados foram pré-agregados por mês, usando uma exibição.

Além disso, é recomendável para a análise que os dados tenham o mínimo possível de lacunas. Se você planeja analisar várias séries de dados, todas as séries devem iniciar ou terminar preferencialmente na mesma data. Se houver lacunas nos dados, mas não no início ou no final de uma série, você poderá usar o parâmetro MISSING_VALUE_SUBSTITUTION para preenchê-la. Analysis Services também fornece várias opções para substituir dados ausentes por valores, como uso de médias ou constantes.

Aviso


As ferramentas Gráfico Dinâmico e Tabela Dinâmica que eram fornecidas em versões anteriores do designer de exibição da fonte de dados não são mais fornecidas. Recomendamos que você identifique as lacunas nos dados de série temporal de antemão, usando ferramentas como o Criador de Perfil de Dados fornecidas no Integration Services.

Para identificar a chave de tempo para o modelo de previsão

  1. No painel de salesbyregion. DSV [Design], com o botão direito na tabela vTimeSeries e selecione explorar dados.

    Uma nova guia será aberta, chamada explorar tabela vTimeSeries.

  2. Sobre o tabela guia, examine os dados que são usados nas colunas TimeIndex e Reporting Date.

    Ambos são sequências com valores exclusivos e podem ser usados como a chave de série temporal; porém, os tipos de dados das colunas são diferentes. O algoritmo MTS não requer um datetime tipo de dados, apenas que os valores sejam distintos e ordenados. Dessa forma, cada coluna pode ser usada como a chave de tempo para o modelo de previsão.

  3. Na superfície de design do modo de exibição de fonte dados, selecione a coluna Reporting Date e selecione propriedades. Em seguida, clique na coluna TimeIndex e selecione propriedades.

    O campo TimeIndex tem os tipo de dados System. Int32, enquanto o campo Reporting Date tem os tipo de dados datetime. Muitos data warehouses convertem valores de data/hora em inteiros e usam a coluna de inteiros como chave, para melhorar desempenho da indexação. No entanto, se você usar essa coluna, o algoritmo MTS fará previsões usando valores futuros como 201014, 201014 e assim sucessivamente. Como você deseja representar os dados de vendas de previsão usando datas do calendário, você usará a coluna Reporting Date como o identificador de série exclusivo.

Para definir a chave na exibição da fonte de dados.

  1. No painel de Salesbyregion, selecione a tabela vTimeSeries.

  2. A coluna Reporting Date e selecione Definir chave primária lógica.

Manipulando dados ausentes (opcional)

Se qualquer série tiver dados ausentes, talvez você obtenha um erro ao tentar processar o modelo. Existem diversas maneiras de contornar dados ausentes:

  • Você pode deixar que o Analysis Services preencha os valores ausentes, por meio do cálculo de uma média ou usando um valor anterior. Você faz isso ao definir o parâmetro MISSING_VALUE_SUBSTITUTION no modelo de mineração. Para obter mais informações sobre esse parâmetro, consulte referência técnica do algoritmo Microsoft tempo série. Para obter informações sobre como alterar os parâmetros de um modelo de mineração existente, consulte Exibir ou alterar parâmetros do algoritmo.

  • Você pode alterar a fonte de dados ou filtrar a exibição subjacente para eliminar a série irregular ou substituir valores. Você pode fazer isso na fonte de dados relacional ou pode modificar a exibição da fonte de dados criando consultas nomeadas ou cálculos nomeados personalizados. Para obter mais informações, consulte Exibições de fontes de dados em modelos multidimensionais. Uma tarefa posterior nesta lição oferecerá um exemplo de como construir uma consulta nomeada e um cálculo personalizado.

Para este cenário, alguns dados estão faltando no início de uma série: ou seja, não há dados para a linha de produto T1000 até julho de 2007. Caso contrário, todas as séries terminariam na mesma data e não haveria valores ausentes.

O requisito do algoritmo MTS é que qualquer série incluída em um único modelo deverá ter o mesmo final ponto. Como o modelo de bicicleta T1000 foi apresentado em 2007, os dados dessa série começam depois de outros modelos de bicicleta, mas a série termina na mesma data e, portanto, os dados são usáveis.

Para fechar o designer da exibição da fonte de dados

  • Clique na guia explorar tabela vTimeSeries, e selecione Fechar.

Próxima tarefa da lição

Criando uma estrutura de previsão e modelo &40; Tutorial de mineração de dados intermediário &41;

Consulte também

Algoritmo MTS