k-significa Clustering-Example

na faixa de Opções XLMiner, na guia aplicando seu modelo, selecione Help-Examples, depois exemplos de previsão / mineração de dados e abra o arquivo de exemplo Wine.xlsx. Conforme mostrado na figura abaixo, cada linha neste conjunto de dados de exemplo representa uma amostra de vinho retirada de uma das três vinícolas (A, B ou C). Neste exemplo, a variável de tipo que representa a vinícola é ignorada e o agrupamento é realizado simplesmente com base nas propriedades das amostras de vinho (as variáveis restantes).

 Vinho.xlsx Exemplo de conjunto de dados

Selecione uma célula dentro do conjunto de dados e, em seguida, no XLMiner faixa de opções, a partir da Análise de Dados guia, selecione XLMiner – Cluster k-means Clustering para abrir o k-means Clustering Passo 1 de 3 de diálogo.

na lista de variáveis, Selecione Todas as variáveis, exceto o tipo, e clique no botão > para mover as variáveis selecionadas para a lista de variáveis selecionadas.

k-significa Clustering Passo 1 de 3 diálogo

clique em Avançar para a Etapa 2 de 3 diálogo.

k-significa Clustering Passo 3 de 3 diálogo

em # Clusters, digite 8. Este é o parâmetro k no algoritmo de agrupamento k-means. O número de clusters deve ser pelo menos 1 e, no máximo, o número de observações -1 no intervalo de dados. Defina k para vários valores diferentes e avalie a saída de cada um.

deixe # iterações na configuração padrão de 10. O valor para esta opção determina quantas vezes o programa começará com uma partição inicial e completará o algoritmo de agrupamento. A configuração de clusters (e separação de dados) pode diferir de uma partição inicial para outra. O programa passará pelo número especificado de iterações e selecionará a configuração do cluster que minimiza a medida de distância.

definir Aleatório começa a 5. Quando esta opção é selecionada, o algoritmo começa a construir o modelo a partir de qualquer ponto aleatório. XLMiner gera cinco conjuntos de cluster e gera a saída com base no melhor cluster.

set seed é selecionado por padrão. Esta opção inicializa o gerador de números aleatórios que é usado para calcular OS centróides iniciais do cluster. Definir a semente de número aleatório para um valor diferente de zero (padrão 12345) garante que a mesma sequência de números aleatórios seja usada cada vez que os centróides iniciais do cluster são calculados. Quando a semente é zero, o gerador de números aleatórios é inicializado a partir do relógio do sistema, de modo que a sequência de números aleatórios é diferente cada vez que os centróides são inicializados. Defina a semente para ver as execuções sucessivas do método de agrupamento como comparáveis.

selecione a opção normalizar dados de entrada para normalizar os dados. Neste exemplo, os dados não serão normalizados. Selecione ao lado para abrir a caixa de diálogo Etapa 3 de 3.

selecione Mostrar resumo de dados (padrão) e mostrar distâncias de cada centro de cluster (padrão) e clique em Concluir.

 K-significa Clustering Etapa 3 de 3 diálogo

o método de Clustering k-Means começa com K clusters iniciais conforme especificado. Em cada iteração, os registros são atribuídos ao cluster com o centroid mais próximo, ou centro. Após cada iteração, a distância de cada registro para o centro do cluster é calculada. Essas duas etapas são repetidas (a atribuição do registro e o cálculo da distância) até que a redistribuição de um registro resulte em um valor de distância aumentado.

quando um início aleatório é especificado, o algoritmo gera os centros de cluster K aleatoriamente e se encaixa nos pontos de dados nesses clusters. Este processo é repetido para todos os começos aleatórios especificados. A saída é baseada nos clusters que exibem o melhor ajuste.

a planilha KM_Output1 é inserida imediatamente à direita da planilha de dados. Na seção superior da planilha de saída, as opções selecionadas são listadas.

K-significa agrupar dados de saída resumo

na seção intermediária da planilha de saída, XLMiner calculou a soma das distâncias quadradas e determinou o início com a menor soma de distância quadrada como o melhor Início (#5). Depois que o melhor começo é determinado, XLMiner gera a saída restante usando o melhor começo como o ponto de partida.

 Random Starts Summary

na parte inferior da planilha de saída, XLMiner listou os Centros de Cluster (mostrados abaixo). A caixa superior mostra os valores variáveis nos centros de Cluster. O Cluster 8 tem o maior teor médio de álcool, Total_fenóis, Flavanóides, Proantocianinas, Color_Intensity, Hue e prolina. Compare este cluster com o Cluster 2, que tem a maior média de Ash_Alcalinity e Nonflavanoid_Phenols.

a caixa inferior mostra a distância entre os Centros de Cluster. A partir dos valores desta tabela, é determinado que o Cluster 3 é muito diferente do Cluster 8 devido ao valor de alta distância de 1.176, 59, e o Cluster 7 está próximo do Cluster 3 com um valor de baixa distância de 89,73.

 K-significa agrupar Centros de Cluster de saída

o resumo de dados (abaixo) exibe o número de registros (observações) incluídos em cada cluster e a distância média dos membros do cluster ao centro de cada cluster. O Cluster 6 tem a maior distância média de 42,79 e inclui 24 registros. Compare este cluster com o Cluster 2, que tem a menor distância média de 29,66 e inclui 26 membros.

 K-significa agrupar dados de saída resumo

clique na planilha KM_Clusters1. Esta planilha exibe o cluster ao qual cada registro é atribuído e a distância para cada um dos clusters. Para o primeiro registro, a distância para o Cluster 6 é a distância mínima de 23.205, portanto, esse primeiro registro é atribuído ao Cluster 6.

Deixe uma resposta

O seu endereço de email não será publicado.