Die Clusteranalyse wird eingesetzt, um Objekte zu Gruppen (=Clustern) zusammen zu fassen. Die Objekte in einem Cluster sollen sich dabei ähneln. Die Objekte in verschiedenen Clustern sollen unterschiedlich sein.

Die Clusteranalyse ist ein exploratives Verfahren. Das heißt, hier darf mit den Daten und dem Verfahren „gespielt“ werden. Verschiedene Methoden dürfen ausprobiert werden und die Ergebnisse verglichen und gegeneinander abgewogen werden. In diesem Blogartikel gebe ich Dir einen Überblick über die verschiedenen Methoden und Einstellungsmöglichkeiten.

Ziel der Clusteranalyse ist es meist, eine inhaltlich sinnvolle Clusterlösung zu finden. Oft wird im Anschluss mit dieser Clusterlösung als Gruppierung weiter gearbeitet.

Verschiedene Cluster-Algorithmen

Es gibt fusionierende und partionierende Cluster-Algorithmen.

Ein fusionierender Algorithmus ist z.B. die hierarchische Clusteranalyse. Hier sind zu Beginn alle Objekte einzelne Cluster. Schritt für Schritt werden die Cluster dann zu größeren Clustern zusammen gefasst. Diese schrittweise Zusammenfassung lässt sich in einem Dendrogramm veranschaulichen. Das Dendrogramm kann dazu genutzt werden, eine passende Clusterlösung auszuwählen.

Die K-Means-Clusteranalyse ist ein partitonierendes Verfahren. Hier wird zunächst die Anzahl der Cluster vom Anwender vorgegeben. Der Algorithmus startet dann mit einer (zufälligen) Zuordnung der Objekte zu diesen Clustern. Schritt für Schritt werden die Objekte dann anderen Clustern zugeordnet und so versucht, die Clusterlösung zu optimieren.

Du willst mehr Durchblick im Statistik-Dschungel?

Verschiedene Distanzen und Fusionierungsverfahren

In der hierarchischen Clusteranalyse kannst Du verschiedene Distanzmetriken und verschiedene Fusionierungsverfahren einsetzen. So ist eine Vielzahl von unterschiedlichen Methoden und damit auch unterschiedlichen Ergebnissen möglich.

Häufig verwendete Distanzmetrik für metrische Variablen ist die Euklidische Distanz. Bei dichotomen Kriterien wird z.B. der Jaccard-Koeffizient verwendet. Aber auch andere Maße sind gängig.

Als Fusionierungskriterien hat sich Ward bewährt. Vor allem dann, wenn es keine Ausreißer gibt und die Cluster ungefährt gleich groß sein sollen. Zu ähnlichen Ergebnissen kommt oft Complete Linkage. Single Linkage führt als Fusionierungskriterium oft zu einzelnen kleinen Clustern oder kann gut zur Identifikation von Ausreißern eingesetzt werden.

Das solltest Du bei der Clusteranalyse noch beachten

Neben der Auswahl der passenden Methode mit Distanzmaß und Fusionierungskriterium sind noch andere Punkte bei der Clusteranalyse zu beachten. Diese fünf Punkte will ich Dir hier noch nennen:

  1. Wähle die Merkmale, anhand derer Du clusterst, inhaltlich sinnvoll aus.
  2. Standardisiere metrische Merkmale, wenn sie nicht alle auf der gleichen Skala gemessen wurden.
  3. Bereinige Ausreißer.
  4. Wähle die Anzahl der Cluster nach inhaltlichen Gesichtspunkten aus.
  5. Robustheitscheck: Rechne mehrere Clusteranalysen mit unterschiedlichen Methoden (hierarchisch, K-Means, verschiedene Distanzmaße, verschiedene Fusionierungskriterien) und vergleiche die Ergebnisse.

Du willst mehr Durchblick im Statistik-Dschungel?

Referenz und Literaturempfehlung:
Backhaus K, Erichson B, Plinke W, Weiber R (2011) Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 13. Auflage. Berlin: Springer.