top of page

Scegliere l'algoritmo di clustering giusto per i tuoi dati

Applicare un algoritmo di clustering è molto più semplice di selezionare quello migliore. Ogni tipo offre vantaggi e svantaggi che devono essere considerati se stai cercando una struttura di cluster ordinata. In questo articolo ti spiegheremo come scegliere l'algoritmo di clustering giusto per i tuoi dati.


Il clustering dei dati è un passaggio essenziale nella predisposizione di un modello di dati corretto e completo. Per completare un'analisi, il volume delle informazioni dovrebbe essere ordinato in base ai punti in comune. La domanda principale è quale parametro di comunanza fornisce i migliori risultati e cosa è implicato nella definizione di "migliore"

Scegliere l'algoritmo di clustering giusto per i tuoi dati
Scegliere l'algoritmo di clustering giusto per i tuoi dati


Introduzione sulla scelta dell'algoritmo di clustering giusto per i tuoi dati

Questo articolo dovrebbe essere utile per i data scientist alle prime armi o per gli esperti che desiderano rinfrescare la propria memoria sull'argomento. Include gli algoritmi di clustering più diffusi e la loro revisione approfondita. A seconda delle particolarità di ciascun metodo, vengono fornite le raccomandazioni che considerano la loro applicazione.



Che cosa sono gli algoritmi di clustering?

Gli algoritmi di clustering vengono utilizzati per raggruppare i dati in gruppi di elementi simili. I cluster sono utili perché consentono di trovare modelli e tendenze nei dati. Sono disponibili molti diversi algoritmi di clustering tra cui scegliere. Il miglior algoritmo di clustering da utilizzare dipenderà dal tuo set di dati specifico. Dipenderà anche da cosa stai cercando di ottenere con il tuo set di dati.


Vantaggio degli algoritmi di clustering

Gli algoritmi di clustering sono un ottimo modo per raggruppare punti dati simili in un set di dati. Un algoritmo di clustering è uno strumento matematico che fornisce un modo per raggruppare dati simili. Ciò è utile perché quando si raggruppano dati simili, è possibile trovare facilmente schemi nei dati. Puoi utilizzare algoritmi di clustering per fare molte cose, come trovare modelli nei dati, identificare valori anomali o trovare dati simili ai dati che hai. Gli algoritmi di clustering sono utilizzati in una varietà di campi, come la biologia e l'astronomia. Vengono utilizzati anche per trovare elementi simili in un set di dati. Ad esempio, un algoritmo di clustering può essere utilizzato per trovare articoli simili in un set di dati di abbigliamento per proporre unj nuovo acquisto al cliente. Gli algoritmi di clustering sono davvero utili e sono disponibili in una varietà di forme diverse,



Come scegliere l'algoritmo di clustering giusto?

Quattro algoritmi di base e come sceglierne uno

A seconda dei modelli di clusterizzazione, si differenziano quattro classi comuni di algoritmi. Ci sono non meno di 100 algoritmi in generale, ma la loro popolarità è piuttosto moderata, così come il loro campo di applicazione.


Come scegliere l'algoritmo di clustering giusto

1. Clustering basato sulla connettività

La clusterizzazione, basata sul calcolo delle distanze tra gli oggetti dell'intero set di dati, è chiamata basata sulla connettività o gerarchica. A seconda della "direzione" dell'algoritmo, può unire o, inversamente, dividere l'array di informazioni: i nomi agglomerati e divisivi sono apparsi da questa esatta variazione. Il tipo più diffuso e ragionevole è quello agglomerato, dove si inizia inserendo il numero di punti dati, che poi vengono uniti in cluster sempre più grandi, fino al raggiungimento del limite.


L'esempio più importante di clusterizzazione basata sulla connettività è la classificazione delle piante. L '"albero" del set di dati inizia con una specie particolare e termina con alcuni regni di piante, ciascuno costituito da ammassi ancora più piccoli (phyla, classi, ordini, ecc.)

Dopo aver applicato uno degli algoritmi basati sulla connettività, ricevi un dendrogramma di dati, che ti presenta la struttura delle informazioni piuttosto che la sua distinta separazione sui cluster. Tale caratteristica può avere sia il vantaggio che il danno: la complessità dell'algoritmo può risultare eccessiva o semplicemente inapplicabile per set di dati con una gerarchia minima o nulla.


Mostra anche scarse prestazioni: a causa dell'abbondanza di iterazioni, l'elaborazione completa richiederà una quantità di tempo irragionevole. Inoltre, non otterrai una struttura precisa usando l'algoritmo gerarchico.


Scegliere l'algoritmo di clustering giusto per i tuoi dati
Scegliere l'algoritmo di clustering giusto per i tuoi dati

Allo stesso tempo, i dati in ingresso richiesti dal contatore si riducono al numero di punti dati, che non influenza sostanzialmente il risultato finale, o alla metrica di distanza preimpostata, che è anche grossolana e approssimativa.



Come scegliere l'algoritmo di clustering giusto

2. Clustering basato su centroide

Il clustering basato su centroide, dalla mia esperienza, è il modello più frequente grazie alla sua semplicità comparativa. Il modello ha lo scopo di classificare ogni oggetto del set di dati in un particolare cluster. Il numero di cluster ( k ) è scelto casualmente, che è probabilmente la più grande “debolezza” del metodo. Questo algoritmo k - mean è particolarmente popolare nell'apprendimento automatico grazie alla somiglianza con il metodo k-nearest neighbors (kNN).

Scegliere l'algoritmo di clustering giusto per i tuoi dati
Scegliere l'algoritmo di clustering giusto per i tuoi dati


Il processo di calcolo consiste in più passaggi. In primo luogo, vengono scelti i dati in entrata, che è il numero approssimativo dei cluster in cui dovrebbe essere suddiviso il set di dati. I centri dei cluster dovrebbero essere situati il ​​più lontano possibile l'uno dall'altro, ciò aumenterà l'accuratezza del risultato.


In secondo luogo, l'algoritmo trova le distanze tra ogni oggetto del set di dati e ogni cluster. La coordinata più piccola (se stiamo parlando di rappresentazione grafica) determina in quale cluster viene spostato l'oggetto. Successivamente, il centro del cluster viene ricalcolato in base alla media delle coordinate di tutti gli oggetti. Il primo passaggio dell'algoritmo si ripete, ma con un nuovo centro del cluster che è stato ricalcolato. Tali iterazioni continuano a meno che non vengano raggiunte determinate condizioni. Ad esempio, l'algoritmo potrebbe terminare quando il centro del cluster non si è spostato o si è spostato in modo insignificante rispetto all'iterazione precedente.


Nonostante la semplicità, sia matematica che di codifica, k-means ha alcuni inconvenienti che non mi consentono di usarlo ovunque possibile. Quello include:

  • un bordo negligente di ogni cluster, perché le priorità sono fissate al centro del cluster, non ai suoi confini;

  • l'impossibilità di creare una struttura di un set di dati con oggetti che possono essere classificati in più cluster in egual misura;

  • la necessità di indovinare il numero k ottimale o la necessità di eseguire calcoli preliminari per specificare questo indicatore.


Esempio Python:


Come scegliere l'algoritmo di clustering giusto

3. Clustering di massimizzazione delle aspettative

L'algoritmo di massimizzazione delle aspettative , allo stesso tempo, consente di evitare tali complicazioni fornendo un livello di accuratezza ancora più elevato. In poche parole, calcola la probabilità di relazione di ciascun punto del set di dati con tutti i cluster che abbiamo specificato. Il principale "strumento" utilizzato per questo modello di clusterizzazione è il Gaussian Mixture Models (GMM) , il presupposto che i punti del set di dati generalmente seguano la distribuzione gaussiana .


L'algoritmo k-mean è, fondamentalmente, una versione semplificata del principio EM. Entrambi richiedono l'immissione manuale del numero dei cluster e questa è la principale complessità dei metodi. A parte questo, i principi del calcolo (o per GMM o k-mean) sono semplici: l'intervallo approssimativo del cluster viene specificato gradualmente ad ogni nuova iterazione.


A differenza dei modelli basati sul centroide, l'algoritmo EM consente di classificare i punti per due o più cluster: ti presenta semplicemente la possibilità di ciascun evento, utilizzando il quale puoi condurre ulteriori analisi. Inoltre, i bordi di ogni ammasso compongono ellissoidi di misure diverse a differenza delle k-medie, dove l'ammasso è rappresentato visivamente come un cerchio. Tuttavia, l'algoritmo semplicemente non funzionerebbe per set di dati in cui gli oggetti non seguono la distribuzione gaussiana. Questo è il principale svantaggio del metodo: è più applicabile a problemi teorici piuttosto che alle misurazioni o osservazioni effettive.



Come scegliere l'algoritmo di clustering giusto

4. Clustering basato sulla densità

Infine, arriva il clustering basato sulla densità , il preferito non ufficiale dei cuori degli scienziati dei dati . Il nome comprende il punto principale del modello: per dividere il set di dati in cluster, il contatore immette il parametro ε, la distanza di "quartiere". Se l'oggetto si trova all'interno del cerchio (sfera) del raggio ε, quindi si riferisce all'ammasso.


Scegliere l'algoritmo di clustering giusto per i tuoi dati
Scegliere l'algoritmo di clustering giusto per i tuoi dati


Passo dopo passo, l'algoritmo DBSCAN (Density-Based Spatial Clustering of Applications with Noise) controlla ogni oggetto, cambia il suo stato in "visualizzato", lo classifica nel cluster OR noise, fino a quando l'intero set di dati non viene elaborato. I cluster determinati con DBSCAN possono avere forme arbitrarie, quindi sono estremamente accurati. Inoltre, l'algoritmo non ti fa calcolare il numero di cluster: viene determinato automaticamente.

Tuttavia, anche un capolavoro come DBSCAN ha uno svantaggio. Se il set di dati è costituito da cluster a densità variabile, il metodo mostra scarsi risultati. Potrebbe anche non essere una tua scelta se il posizionamento degli oggetti è troppo vicino e il parametro ε non può essere stimato facilmente.


Conclusione sulla scelta l'algoritmo di clustering giusto per i tuoi dati

Riassumendo, non esiste un algoritmo scelto male: alcuni di essi sono semplicemente più adatti per le particolari strutture del set di dati. Per scegliere sempre l'algoritmo migliore (leggi - più adatto), è necessario avere una comprensione completa dei loro vantaggi, svantaggi e peculiarità.


Alcuni algoritmi potrebbero essere esclusi fin dall'inizio se, ad esempio, non corrispondono alle specifiche del set di dati. Per evitare lavori strani, puoi dedicare un po' di tempo a memorizzare le informazioni invece di scegliere il percorso per tentativi ed errori e imparare dai tuoi stessi errori.


Ti auguriamo di scegliere sempre il miglior algoritmo all'inizio.



PCR (5).gif
PCR (4).gif
PCR.gif
PCR.gif
PCR.gif
PCR.gif
PCR (5).gif
3.gif
Vediamo se riesci a cliccarmi ! Nascondo una Sorpresa... (2).png

Ciao 

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Correlazione Alta

Correlazione Media

Correlazione Bassa

Iscriviti

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

più di 150 lezioni online

Dataset Gratis

più di 150o dataset

Ebook Gratis

più di 10 libri da leggere

Editor Gratis

un editor python online

Progetti Gratis

più di 25 progetti python

App Gratis

4 servizi web con I.A.

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Tutto ciò che riguarda l'intelligenza Artificiale, in unico posto, in italiano e gratis.

MEGLIO DI COSI' NON SI PUO' FARE

Dopo l'iscrizione riceverai diversi Regali

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

Grazie

bottom of page