Cluster är organiseringen av datapunkter i kluster, där datapunkter i ett kluster är mer lika varandra än datapunkter i andra kluster. Den allmänna tanken bakom klustring är att liknande dataobjekt ska grupperas tillsammans. Dataklustring är oövervakad inlärning, vilket innebär att den inte kräver märkt data.
Klustring kan vara fördelaktigt för att förstå strukturen för en datauppsättning, hitta likheter mellan dataobjekt, identifiera extremvärden och minska dimensionaliteten hos data. Det används ofta inom olika områden som maskininlärning, datautvinning, bioinformatik och bildbehandling.
Steg:
1. Databeredning
2. Välja ett avståndsmått
3. Välja antal kluster
4. Klustring
5. Utvärdera klustringen