Clusters de dados
- Clusters são coleções de dados semelhantes
- Clustering é um tipo de aprendizado não supervisionado
- O Coeficiente de Correlação descreve a força de um relacionamento.
Agrupamentos
Clusters são coleções de dados baseados em similaridade.
Os pontos de dados agrupados em um gráfico geralmente podem ser classificados em agrupamentos.
No gráfico abaixo podemos distinguir 3 clusters diferentes:
Identificando clusters
Os clusters podem conter muitas informações valiosas, mas os clusters vêm em todos os tipos de formas, então como podemos reconhecê-los?
Os dois métodos principais são:
- Usando a visualização
- Usando um algoritmo de clustering
Agrupamento
Clustering é um tipo de Aprendizado Não Supervisionado .
O clustering está tentando:
- Colete dados semelhantes em grupos
- Colete dados diferentes em outros grupos
Métodos de agrupamento
- Método de densidade
- Método Hierárquico
- Método de particionamento
- Método baseado em grade
O Método da Densidade considera pontos em uma região densa como tendo mais semelhanças e diferenças do que pontos em uma região menos densa. O método de densidade tem uma boa precisão. Ele também tem a capacidade de mesclar clusters.
Dois algoritmos comuns são DBSCAN e OPTICS.
O Método Hierárquico forma os clusters em uma estrutura do tipo árvore. Novos clusters são formados usando clusters previamente formados.
Dois algoritmos comuns são CURE e BIRCH.
O método baseado em grade formula os dados em um número finito de células que formam uma estrutura semelhante a uma grade.
Dois algoritmos comuns são CLIQUE e STING
O Método de Particionamento particiona os objetos em k clusters e cada partição forma um cluster.
Um algoritmo comum é o CLARANS.
Coeficiente de correlação
O Coeficiente de Correlação (r) descreve a força e direção de uma relação linear e variáveis x/y em um gráfico de dispersão.
O valor de r está sempre entre -1 e +1:
-1,00 | Descida perfeita | Relação linear negativa. |
-0,70 | Descida forte | Relação linear negativa. |
-0,50 | Descida moderada | Relação linear negativa. |
-0,30 | Descida fraca | Relação linear negativa. |
0 | Nenhuma relação linear. | |
+0,30 | subida fraca | Relação linear positiva. |
+0,50 | Subida moderada | Relação linear positiva. |
+0,70 | Forte subida | Relação linear positiva. |
+1,00 | Subida perfeita | Relação linear positiva. |
Subida Perfeita +1,00 :
Descida perfeita -1,00 :
Subida forte +0,61 :
Sem Relação :