Introduzione agli algoritmi di clustering

Un'introduzione agli algoritmi di clustering

Una guida completa a 10 algoritmi di clustering comunemente utilizzati per il clustering gerarchico, partizionale e basato sulla densità

Foto di Rod Long su Unsplash

Introduzione

Gli algoritmi di clustering svolgono un ruolo importante nell’analisi dei dati. Questi strumenti di analisi dei dati esplorativi e non supervisionati forniscono sistemi per la scoperta di conoscenza mediante la categorizzazione dei punti dati in gruppi distinti in base alle caratteristiche comuni. Ciò consente di identificare relazioni e tendenze che potrebbero essere difficili da individuare nei dati grezzi. Favoriscono la presa di decisioni più informate aggiungendo sistematicamente una maggiore comprensione ai dataset complessi e intricati.

In questo articolo, tratteremo le basi di tre tipi di algoritmi di clustering: clustering gerarchico, partizionale e basato sulla densità. Inizieremo definendo ciascuna di queste categorie. Successivamente, approfondiremo 10 diversi algoritmi di clustering, fornendo definizioni, collegamenti agli articoli di ricerca originali o interessanti, punti di forza degli algoritmi e frammenti di codice Python per ciascuno.

Indice

Algoritmi di clustering gerarchico

Algoritmi di clustering partizionale

Algoritmi di clustering basati sulla densità

Algoritmi di clustering gerarchico

Definizione: Il clustering gerarchico è un metodo di analisi dei cluster che costruisce una gerarchia di cluster. Può essere visualizzato come una struttura ad albero (dendrogramma) in cui le foglie rappresentano i singoli punti dati e la radice rappresenta un singolo cluster contenente tutti i punti dati.

Casi d’uso:

  • Problemi di tassonomia.
  • Quando le relazioni verticali sono importanti nei dati.

Punti di forza:

  • Fornisce una struttura gerarchica dei cluster.