Die Clusteranalyse ist ein Verfahren, mit dem man Fälle (Personen, Objekte) anhand von vorgegebenen Kriterien gruppieren kann. Die so gefundenen Gruppen – auch Cluster genannt – enthalten dann jeweils Fälle, die sich ähnlich sind. Die Fälle in verschiedenen Clustern unterscheiden sich dagegen mehr.

Als Kriterien für die Ähnlichkeit kann man verschiedene Parameter verwenden, je nach Forschungsfrage und Studiendesign. Man könnte zum Beispiel verschiedene Persönlichkeitsmerkmale an Probanden erheben und mit einer Clusteranalyse versuchen, verschiedene Persönlichkeitstypen zu ermitteln, in dem man Personen mit ähnlichem Persönlichkeitsmuster zusammen in einen Cluster packt.

Die gefundenen Cluster wären dann die verschiedenen Persönlichkeitstypen. Wenn man sich die Persönlichkeitsmerkmale innerhalb eines Clusters ansieht, kann man damit den Persönlichkeitstyp beschreiben.

Die Clusteranalyse ist ein exploratives Verfahren, das heißt, es wird dort keine Hypothese geprüft, sondern es wird mit den Daten „gespielt“ und versucht, Strukturen aufzudecken. Deshalb gibt es auch viele verschiedene Methoden, mit denen man Clusteranalysen durchführen kann. Und es ist auch erlaubt – im Rahmen von gewissen Voraussetzungen – mehrere Methoden auszuprobieren, die Ergebnisse zu betrachten und dann sich für ein gut passendes Ergebnis zu entscheiden. Wichtig dabei ist, dass man am Ende das Vorgehen transparent berichtet.

Drei verschiedene Clusteranalysen, die es in vielen Software-Paketen (so auch in SPSS oder R) gibt, will ich Dir hier kurz mit den Vor- und Nachteilen vorstellen:

Die K-Means-Clusteranalyse

Die K-Means-Clusteranalyse hat eigentlich nur Nachteile, die ich Dir berichten kann. Der einzige Vorteil ist vielleicht, dass sie rechnerisch einfach ist und deshalb in vielen Softwarepaketen implementiert ist. Die Nachteile sind:

  • Du kannst nur metrische Variablen verwenden (diese solltest Du standardisieren).
  • Du musst die Anzahl der Cluster vorab festlegen.
  • Das Ergebnis wird von möglichen Ausreißern beeinflusst (also vorher prüfen!)
  • Das Ergebnis kann von der Reihenfolge der Daten abhängen (das kannst Du umgehen, wenn Du die Reihenfolge zufällig änderst und die Analyse so mehrmals durchführst und die Ergebnisse vergleichst.)

Du willst mehr Durchblick im Statistik-Dschungel?

Die Hierarchische Clusteranalyse

Dendrogram

Das Schöne an der hierarchischen Clusteranalyse ist, dass Du ein Dendrogramm bekommst (ähnlich wie ein Baumdiagramm) und dort direkt an den Daten die Clusterung auf verschiedenen Stufen betrachten kannst.

Ein weiterer Vorteil ist, dass Du anhand dieses Dendrogramms die passende Anzahl an Clustern aussuchen kannst. Außerdem wählst Du selbst aus, mit welcher Methode geclustert und die Abstände berechnet werden, Du hast also auch innerhalb der hierarchischen Clusteranalyse noch etwas methodischen Spielraum. Ein paar Nachteile habe ich dennoch gefunden:

  • Bei großen Fallzahlen ist die Arbeit mit den Dendrogramm zu unübersichtlich.
  • Du kannst nur entweder mit metrischen oder mit kategorialen Parametern arbeiten. Mischen ist nicht möglich. (Metrische wieder standardisieren!)

Die Two-Step-Clusteranalyse

Die Two-Step-Clusteranalyse ist die komplexeste der hier vorgestellten Methoden, die aber dafür auch mit einigen der Nachteilen der anderen Methoden aufräumt:

  • Sie ist gut auch auf sehr großen Datensätzen anwendbar.
  • Du kannst Parameter mit unterschiedlichem Messniveau verwenden, also auch metrsich und kategorial gemischt.

Ein Nachteil ist vielleicht, dass sie streng genommen Voraussetzungen an die Verteilung der Parameter stellt (Multinomialverteilung der kategorialen Parameter und Normalverteilung der metrischen Parameter). Allerdings weiß man, dass sie robust auf Abweichungen davon reagiert. Die Two-Step-Clusteranalyse ist z.B. in SPSS implementiert.

Deshalb meine Empfehlung:

  • Wenn Du kleine Datenmengen hast und kein gemischtes Messniveau, dann verwende die Hierarchische Clusteranalyse.
  • Wenn Du große Datenmengen hast und/oder gemischtes Messniveau, dann verwende die Two-Step-Clusteranalyse.

Bildquelle: pixabay.de