Klusteranalys (datavetenskap)

Inom datavetenskap och statistik innebär klusteranalys gruppering av datamängder i delmängder som kallas kluster. Klusteranalys refererar inte till en enskild algoritm, utan är ett samlingsnamn för analysmetoden. Klustring är en typ av maskininlärning, vilket är vanligt inom statistik, informationsutvinning, mönsterigenkänning, bildanalys, informationssökning och bioinformatik. Tekniken skiljer sig från klassificering genom att klasserna inte är kända på förhand.

Klusteranalys av data som resulterat i tre kluster på ett euklidiskt plan.

Klusteranalys genomförs genom att man definierar en avståndsfunktion, utifrån de särdrag som beskriver ett element. Därefter beräknas avstånden, vilket möjliggör visualisering i exempelvis 2D eller 3D. På så vis uppvisar elementen i ett kluster likheter baserat på särdrag. Genom att kombinera modern beräkningskapacitet och det mänskliga ögats förmåga att upptäcka avvikande element innebär klusteranalys ett kraftfullt analysverktyg.