Clusters de dados

  • Clusters são coleções de dados semelhantes
  • Clustering é um tipo de aprendizado não supervisionado
  • O Coeficiente de Correlação descreve a força de um relacionamento.

Agrupamentos

Clusters são coleções de dados baseados em similaridade.

Os pontos de dados agrupados em um gráfico geralmente podem ser classificados em agrupamentos.

No gráfico abaixo podemos distinguir 3 clusters diferentes:


Identificando clusters

Os clusters podem conter muitas informações valiosas, mas os clusters vêm em todos os tipos de formas, então como podemos reconhecê-los?

Os dois métodos principais são:

  • Usando a visualização
  • Usando um algoritmo de clustering

Agrupamento

Clustering é um tipo de Aprendizado Não Supervisionado .

O clustering está tentando:

  • Colete dados semelhantes em grupos
  • Colete dados diferentes em outros grupos

Métodos de agrupamento

  • Método de densidade
  • Método Hierárquico
  • Método de particionamento
  • Método baseado em grade

O Método da Densidade considera pontos em uma região densa como tendo mais semelhanças e diferenças do que pontos em uma região menos densa. O método de densidade tem uma boa precisão. Ele também tem a capacidade de mesclar clusters.
Dois algoritmos comuns são DBSCAN e OPTICS.

O Método Hierárquico forma os clusters em uma estrutura do tipo árvore. Novos clusters são formados usando clusters previamente formados.
Dois algoritmos comuns são CURE e BIRCH.

O método baseado em grade formula os dados em um número finito de células que formam uma estrutura semelhante a uma grade.
Dois algoritmos comuns são CLIQUE e STING

O Método de Particionamento particiona os objetos em k clusters e cada partição forma um cluster.
Um algoritmo comum é o CLARANS.


Coeficiente de correlação

O Coeficiente de Correlação (r) descreve a força e direção de uma relação linear e variáveis ​​x/y em um gráfico de dispersão.

O valor de r está sempre entre -1 e +1:

-1,00Descida perfeitaRelação linear negativa.
-0,70Descida forteRelação linear negativa.
-0,50Descida moderadaRelação linear negativa.
-0,30Descida fracaRelação linear negativa.
0Nenhuma relação linear.
+0,30subida fracaRelação linear positiva.
+0,50Subida moderadaRelação linear positiva.
+0,70Forte subidaRelação linear positiva.
+1,00Subida perfeitaRelação linear positiva.

Subida Perfeita +1,00 :

Descida perfeita -1,00 :

'

Subida forte +0,61 :

Sem Relação :