Der Boxplot ist mein Lieblingsmittel zur Darstellung der Lage und Streuung von Daten. Er beschreibt die Daten ohne eine Schiefe oder Ausreißer zu verstecken. Gruppenvergleiche sind leicht auf den ersten Blick zu interpretieren, wenn man einmal weiß, was der Boxplot macht. Deshalb hier eine kurze Beschreibung:
Du willst mehr Durchblick im Statistik-Dschungel?
Der Boxplot besteht aus einer Box und aus zwei Strichen, jeweils nach oben und unten. Die Box enthält die 50% mittleren Beobachtungen der Daten (25%- bis 75%-Quantil). In der Box markiert der Querstrich die mittlere Beobachtung, also den Median (50%-Quantil). Die Striche nach oben und unten sind maximal 1,5-mal so lang wie die Länge der Box und enden an einem Datenpunkt. Datenpunkte, die außerhalb der Striche liegen, sind so genannte Ausreißer und werden als Punkte gesondert markiert.
Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.
Hallo Frau Keller,
ich bin gerade auf meiner Recherche für meine Abschlussarbeit hier gelandet. Sie erklären die Art und Weise wie man ein Boxplot lesen muss hier sehr schön.
Aber eine Frage habe ich doch noch. Was mache ich mit einem Ausreißer? Angenommen ich rechne bei einem n von 220 eine mehrfaktorielle VA (fünf Faktoren) und ich bemerke, dass der Levene-Test mit Ausreißer signifikant und ohne nicht signifikant wird?
Kann ich die (wenigen) Ausreißer guten Gewissens ausschließen und meine VA normal rechnen? Ich stoße häufig auf das Thema „Datenmanipulation“ und „Willkür“. Aber sind Extremwerte (z.B. 1000€ bei Ausgaben für Klamotten in einem Einkaufszentrum, wenn das Mittel bei 120 € liegt) eh nicht wirklich repräsentativ und daher sowieso irgendwie eher „störend“, gerade wenn es um Mittelwerte geht?
Vielleicht finden Sie ja die Zeit für eine Antwort
Viele Grüße
Jan
Hallo Jan,
Ausreißer sollten nur dann ausgeschlossen werden, wenn es dafür gute Gründe gibt, also wenn wie in dem Beispiel der Wert 1000 Euro tatsächlich zu extrem für die Stichprobe ist. Wenn das aber ein realistischer Wert ist, sollte er drin bleiben. Wenn er ausgeschlossen wird (wie gesagt mit guten Gründen), muss das auf jeden Fall dokumentiert und berichtet werden.
Schöne Grüße
Daniela Keller
hi daniela,
tolle Erklärung. Endlich habe ich das mal verstanden.
Wenn das 1. Quartil und das 3. Quartil fast gleiche Werte hat, heißt das dann, dass die Verteilung nicht besonders stark streut? Oder wie interpretiert man sowas allgemein?
Viele Grüsse
Tim
Hallo Tim,
genauso ist es 🙂
Schöne Grüße
Daniela Keller
Danke!
Hallo Daniela,
ich habe auch eine Frage zum Boxplot. Dort stellt man ja alle möglichen Daten dar. Zum Beispiel auch Ausgaben, wenn das für eine Arbeit wichtig ist.
Was ist denn, wenn ich meine Daten anonymisieren will und deshalb aus den vorliegenden Daten einen Index rechne? Also wenn z.B. der Durchschnittsausgabe (111 Euro) von allen Leuten 100 entspricht und dann alle anderen Werte entsprechend umgerechnet werden. Kann ich sowas auch in einem Boxplot darstellen? Oder macht das keinen Sinn? Dann würde ja z.B. das 1. Quartil 45 entsprechen, der Median 85 und das 3. Quartil 160. Der Durchschnitt liegt ja bei 100. Vorher standen da halt andere Werte. Ich darf halt nur die richtigen Werte nicht nennen. Ein Index wäre ok.
Ich bin gerade schrecklich verwirrt!!!! Kannst du mir helfen?
Liebe Grüße
lena
Hallo Lena,
ich weiß gerade nicht, was genau Sie meinen. Können Sie mir Ihre Fragstellung bitte nochmal anders formulieren? Sorry!
Schöne Grüße
Daniela Keller
Hallo Frau Keller
Ich versuche das Problem am besten noch einmal genauer zu beschreiben.
Also ich habe für meine Bachelorarbeit eine Befragung in einem Kaufhaus gemacht. Jetzt will ich die Ausgaben der befragten Leute aufteilen nach Alter und nach Geschlecht. Ich habe zwei Altersklassen (bis 30 und über 30) und Männlich/Weiblich.
Die befragten Leute haben mir gesagt wieviel Geld sie an diesem Tag dort ausgegeben haben. Jetzt darf ich aber die absoluten Beträge nicht nennen. Mein Betreuer sagte mir, ich soll jetzt einen Index bilden und den Durchschnitt gleich 100 setzen.
Ich rechne aber lieber mit dem Median, weil der ja bei Geldbeträgen besser geeignet ist. Außerdem benutze ich Boxplots um das deutlicher darzustellen. Alle Werte dafür habe ich mit SPSS berechnet. Die Boxplots selber erstelle ich in Excel, weil die da schöner aussehen.
Und jetzt frage ich mich ob Ich das so machen kann:
(1) Erst einmal Median, 1. Quartil und 3. Quartil z.B. für Männer und für Frauen mit den normalen Euro-Werten in SPSS berechnen.
(2) Und weil die Durchschnittsausgaben insgesamt (für alle) bei 111€ liegen, würde ich dann 111€ = Index 100 gleichsetzen. Und dann die Mediane, das 1. Quartil und das 2. Quartil in den Index umrechnen, wobei wie gesagt 111€ = 100 entspricht.
Wenn der Median für alle Ausgaben insgesamt bei 111€, der Median für Männer bei 102€ und für Frauen bei 142€ liegt, wären das nach meinem Index dann für Männer 92 und für Frauen 127.
Das 1. Quartil würde für Männer bei 45 und für Frauen bei 54, das 3. Quartil für Männer bei 198 und für Frauen bei 228 liegen.
Ich habe quasi alle von SPSS ausgegebenen Werte mit 100/111*Wert umgerechnet. Kann man das so machen? Oder geht das so nicht?
Ich darf die richtigen Ausgaben nicht benutzen. Das Kaufhaus lässt das nicht zu, weil man sonst errechnen kann, wieviel Geld die pro Tag umsetzen.
Ganz liebe Grüße und frohe Weihnachten
lena
Hallo Lena,
danke für die ausführliche Erklärung! Und entschuldigen Sie die Verspätung (Weihnachtsferien).
Jetzt habe ich verstanden, was Sie meinen und ja, das können Sie so machen. Alle Methoden (Boxplot, U-Test …) sind da genauso anwendbar und werden die gleichen Ergebnisse (Signifikanz, Darstellung) bringen.
Schöne Grüße
Daniela Keller
Hallo Frau Keller,
ich habe eine Frage bezüglich der Schiefe:
Spss errechnete mir von einer Variabel eine Schiefe von 0,119 und einen Standartfehler der Schiefe von 0,264. Demnach wären meine Daten rechtsschief / linkssteil verteilt. Betrachte ich nun mein Boxplot sieht das ganze wieder anders aus. Der Median ist größer dem Mittelwert und geht in Richtung 75% Quartil. Somit läge laut Boxplot eine Verteilung linksschief/rechtssteil vor.
Wodurch kommt dieser Unterschied zustande? Vielleicht weil Spss den Schiefewert errechnet?
Danke im Voraus für Ihre Hilfe.
Gruß
M
Hallo, die Schiefe ist sehr klein und mit dem großen Standardfehler auch nicht signifikant. Das heißt, dass wohl keine deutliche Schiefe vorliegt. Dass Boxplot und Richtung der Schiefe nicht zusammen passen kann neben diesem kleinen Schiefewert auch daran liegen, dass die Fallzahl wohl klein ist, oder?
Schöne Grüße
Daniela
Hallo, ich habe eine Frage zu meiner DIssertation in der medizin, wo ich auch Boxblot Darstellungen verwende. Kann ich in einer Tabelle neben dem Boxplot neben Median, Min, Max auch den Mittelwert, 95% KI und p-Wert angeben?Oder wäre das ststistisch nicht korrekt? Vielen herzlichen Dank:)
Hallo,
das kannst du natürlich alles angeben!
Schöne Grüße
Daniela
Hallo Daniela,
vielen dank für die gute Erklärung eines Boxplots.
Jedoch ich habe eine Frage zu Ausreißern.
In einem Datensatz mit einem Ausreißer, berechne ich für die Quartile die Werte mit oder ohne dem Ausreißer?
Soll heißen, im Diagramm möchte ich den Ausreißer als Datenpunkt darstellen, dazu muss ich den Ausreißer natürlich mit einbeziehen, aber für die Maxima-(oder minima)-berechnung beziehe ich ihn ja nicht ein. Muss ich den Ausreißer auch für die Quartil für die Box außenvor lassen?
Das kann ja, je nach Datenlage die Werte für 25 und 75 Quartil beeinflussen.
Vielen Dank und Liebe Grüße
Tobias
Hallo Tobias,
bei der Berechnung der Quartile sollten alle Werte drin bleiben, außer du entscheidest dich dafür, den Wert grundsätzlich auszuschließen und ohne ihn alle Analysen zu rechnen.
Schöne Grüße
Daniela
Guten Abend,
Ich bin gerade dabei meine Boxplots zu deuten. Meine Boxplot zeigt jedoch keine Signifikanzwerte an. Woher weiß ich inwiefern meine Boxplotwerte signifikant sind? Und wenn sich eine Box verkleinert vom ersten zum zweiten Testtermin wie genau kann ich das dann schriflich beschreiben bzw. deuten?
Vielen Dank für die Hilfe
Christine
Hallo Christine,
der Boxplot ist nur eine Abbildung, kein Signifikanztest. Welcher Test bei dir passt, findest du vielleicht mit diesem Blogbeitrag heraus: https://statistik-und-beratung.de/2012/09/parametrisch-oder-nichtparametrisch-das-ist-hier-die-frage/
Für spezielle Fragen, nicht direkt zum Blogbeitrag hier, kannst du meine Facebookgruppe Statistikfragen nutzen: https://www.facebook.com/groups/785900308158525/
Schöne Grüße
Daniela
Hallo Klasse Erklärung!
Habe das ganze direkt mal per Excel für meine Arbeit gemacht.
Haben Sie vielleicht einen Tipp, wie ich noch die Größe der jeweils pro Box-Plot zu Grunde liegenden Daten angeben kann?
Ich habe nämlich das Problem, dass die Anzahl sehr stark shwankt zwischen den einzelnen Box-Plots.
Hallo Dennis,
du könntest einfach als Textfeld „n=…“ einfügen. Für weitere spezielle Fragen – nicht direkt zum Blogbeitrag hier – kannst du meine Facebookgruppe Statistikfragen nutzen: https://www.facebook.com/groups/785900308158525/
Schöne Grüße
Daniela
Hallo Frau Keller,
ich habe Versuche ausgewertet. Es ging um die Wirkungseffizienz von Pflanzenschutzmitteln. Dafür werden Bewertungen (0-100 % Wirkung) an den Pflanzen vorgenommen. Ich habe immer drei Wiederholungen (3 Pflanzentöpfe), die bewertet werden und die dann zu einem Mittelwert zusammengezogen werden. Ich habe mir dann über die Funktion Pivot-Chart bei Excel Diagramme mit diesen Mittelwerten darstellen lassen. Ich wollte dann gerne noch eine Statistik in Form eines Boxplot oder ähnlichem auf die jeweiligen Balken setzten.
Meine Frage ist, ob das überhaupt Sinn macht auf Basis dieser drei Werte, die ich ja immer zur Verfügung habe, solch eine Fehlerdarstellung zu machen. Normalerweise benötigt man doch eine größere Datenmenge, oder?
Ich hoffe, Sie haben mein Problem verstanden und können mir weiterhelfen
Viele Grüße
Charlotte
Hallo Charlotte,
ja, bei 3 Werten bringt der Boxplot nicht viel. Da kann man sich auch einfach nur die 3 Werte ansehen (und z.B. in einem Streudiagramm plotten) und hat mehr Informationen.
Schöne Grüße
Daniela