Gütekriterien
Beim Sammeln von Daten solltet Ihr nicht unüberlegt vorgehen, sondern euch zuvor bewusst machen, wie die Daten zustande kommen werden, also wer misst wie was. Der folgende Blogbeitrag soll euch dabei helfen auf was ihr grundlegend bei der Datenerhebung achten müsst. In diesem Zusammenhang sind die drei Gütekriterien „Reliabilität“, „Validität“ und „Objektivität zu nennen. Durch die Quantifizierung von Untersuchungsmerkmalen bei Fragebögen, Tests oder Beobachtungen zielt die Forschung darauf ab, die Vergleichbarkeit von Daten sicher zu stellen und sie statistischen Auswertungsverfahren im Hinblick auf mögliche Vergleiche und Abhängigkeiten zugänglich zu machen. Hierzu wurden Gütekriterien entwickelt, wobei diese nach gängiger Auslegung umso höher sind, je besser eine Standardisierung von Untersuchungsinhalt, -ablauf und -situation realisiert werden kann. Objektivität ist dann gegeben, wenn ein Untersuchungsergebnis in Durchführung, Auswertung und Interpretation vom Untersuchungsleiter nicht beeinflusst wird, oder mehr noch, wenn mehrere unabhängige Experten gleiche Ergebnisse erzielen. Kern der Durchführungsobjektivität ist, dass das Untersuchungsergebnis vom Anwender, also z.B. eure Probanden oder euch, unbeeinflusst bleibt. Bei Interpretationsobjektivität wird hingegen gefordert, dass individuelle Deutungen nicht in die Interpretation eines Ergebnisses miteinfließen dürfen. Beispielsweise ist eine Messung durch ein genormtes Messmittel eine objektive Messung wohingegen die Befragung von Kursteilnehmern durch ihre Teamleiter zu den Führungsqualitäten sehr subjektiv ist. Unter Reliabilität versteht man die Zuverlässigkeit einer Messmethode. Eine Untersuchung wird dann als reliabel bezeichnet, wenn es bei einer Wiederholung der Messung unter denselben Bedingungen und an denselben Gegenständen zu demselben Ergebnis kommt. Reliabilität kann man am besten mit Hilfe der Re-Test- und/oder Paralleltest-Methode nachweisen. Korreliert man die beiden Untersuchungen, so erhält man den Reliabilitätskoeffizienten. Dieser liegt zwischen 0,00 und 1,00, je höher dieser Wert ist, umso reliabler ist das Instrument. Wenn man die Abbildung 2 betrachtet, dann könntet Ihr Reliabilität auch bildhaft so definieren, dass ein Instrument eine hohe Reliabilität besitzt, wenn man mit einem Pfeil eine Zielscheibe anvisiert, zwar nicht zwingend das Ziel, aber immer an derselben Stelle trifft. Ein Beispiel für eine reliable Frage, die man in einem Fragebogen stellen könnte wäre, „Wie viele Patienten haben Sie?“. Nicht reliabel wäre hingegen „Wie viele zufriedene Patienten haben Sie?, da Zufriedenheit unterschiedlich definiert ist und dadurch eine falsche Einschätzung erfolgen kann.
Du willst mehr Durchblick im Statistik-Dschungel?
Die Validität (Gültigkeit) gibt die Eignung eines Messverfahrens oder einer Frage bezüglich ihrer Zielsetzung an. Eine Messung oder Befragung ist valide, wenn die erhobenen Werte geeignete Kennzahlen für die zu untersuchende Fragestellung liefern. Die Überprüfung der Gültigkeit wird mithilfe der Korrelation mit einem Außenkriterium vorgenommen. Man kann Validität mehrfach unterteilen:
- Konstruktvalidität meint, dass Messungen das erfassen, was sie auch erfassen sollen. Werden aus einem Konstrukt Hypothesen abgeleitet, dann bedeutet eine hohe Konstruktvalidität die gute empirische Bestätigung dieser Hypothesen. Ist die Konstruktvalidität dagegen gering, dann spricht das nicht zwingend gegen die Messung, sondern könnte auch gegen das Konstrukt an sich sprechen. Die Konstruktvalidität setzt demnach Wissen über das Konstrukt, also Kenntnis der zugehörigen Theorien und der einschlägigen Befunde voraus. Für die Validität eines Aggressivitätstests kann es z.B. sprechen, wenn Männer höhere Werte erzielen als Frauen und wenn junge Männer höhere Werte aufweisen als ältere, denn im allgemeinen sind Aggressivitäten in unserem Kulturbereich bei jungen Männern deutlich ausgeprägter als bei Frauen und älteren Männern. Das Gesamtwissen muss demnach mit den Ergebnissen einer Testkonstruktion zusammen passen.Ein Verfahren zur Bestimmung der Konstruktvalidität ist die Faktorenanalyse. Dabei wird ermittelt, welche Testaufgaben zusammen gehören, bzw. ungefähr das gleiche erfassen. Es bilden sich sogenannte „Klumpen“ (Faktoren) von Testaufgaben. Faktorenanalysen werden einerseits vom theoretischen Vorwissen der Forscher gesteuert und andererseits wird dieses durch die empirisch ermittelten Faktoren ergänzt, bzw. korrigiert.
- Man spricht von Kriteriumsvalidität, wenn die Messungen mit einem anderen Kriterium hoch korrelieren. Kriteriumsvalidität ist eigentlich als ein Aspekt der Konstruktvalidität zu sehen. Definiert man Konstruktvalidität allerdings ausschließlich über die Kriteriumsvalidität, besteht die Gefahr eines Zirkelschlusses, d.h. Test A ist valide, weil er mit Test B korreliert, der mit Test C korreliert, der mit Test A korreliert. Sieht man die Korrelation allerdings so, dass alle Tests konstruktkonform miteinander korrelieren, dann liegt ein stärkerer Validitätsnachweis als bei einer paarweise Validierung von Messungen vor.
- Inhaltsvalidität ist ebenso als ein gesonderter Aspekt der Konstruktvalidität zu sehen. Ist der durch Messungen erfasste Inhalte dem Inhalt, der gemessen werden soll entspricht. Sie lässt sich nur prüfen, wenn Gesamtheit der zu messenden Inhalte bekannt ist. Sie wird meist bei einfachen Tests verwendet, zum Beispiel bei einem Wissenstest.
- Ökologische/Externe Validität meint in gewissem Maße eine allgemeine Gültigkeit, d.h. die Möglichkeit, die Untersuchungsergebnisse auf andere vergleichbare Personen, Situatuinen und Orte zu generalisieren. Da komplexe Wechselwirkungen zwischen dem menschlichen Organismus und einer sich ständig wandelnden und historisch einmaligen Umwelt in Laborsituationen nicht zu simulieren sind, werden Laboruntersuchungen, im Gegensatz zur Feldforschung meist als ökologisch invalide deklariert.
Grundsätzlich steckt hinter dem Validitätskonzept das Problem der „Wahrheit“ von Aussagen, d.h. sind die Behauptungen zutreffend oder nicht?! Nur wenn allen Gütekriterien in gewissem Maß Rechnung getragen wird, können aus einer Untersuchung verlässliche Schlussfolgerungen gezogen werden. Somit erfordern Gütekriterien, dass statistische Untersuchungen stets mit äußerster Sorgfalt durchgeführt werden. Es müssen von der Erhebung der Daten bis zu deren Analyse die richtigen Methoden angewandt werden, deren Wahl auf der Eigenart der Daten und ihrer Verteilungen beruht und dass die Interpretation keineswegs über die Aussagekraft der Daten hinausgeht. Quellen:
- LoBiondo-Wood, G./ Haber J. (2005). Methoden, Bewertung, Anwendung
- http://marktforschung.wikia.com/wiki/Validit%C3%A4t, eingesehen am 01.03.2015
- Lienert, Gustav A. (1989). Testaufbau und Testanalyse. München: PsychologieVerlagsUnion.
- Jean-Luc Patry (Hrsg.): Methoden und Probleme sozialwissenschaftlicher Forschung unter natürlichen Bedingungen. Huber, Bern 1982.
- Pawlik, K. (1976). Modell- und Praxisdimensionen psychologischer Diagnostik. In K. Pawlik(Hrsg.), Diagnose der Diagnostik. Stuttgart: Klett.
Ich bin Studentin der Betriebswirtschaftslehre an der FHWS und habe zuvor ein Studium der Empirischen Bildungsforschung und der Sonderpädagogik an der Julius-Maximilians-Universität Würzburg absolviert. Statistik begeistert mich! Besonders die freie Statistiksoftware R hat es mir angetan. Deshalb schreibe ich hier ab und zu im Blog von Statistik & Beratung kleine Beiträge zu Statistikthemen und deren Umsetzung in R. Ich freue mich auf euer Feedback und eure Kommentare!
Hallo!
Ich befinde mich gerade im Beschreiben und kritischen Bewerten einer Studie. Messverfahren war eine Labormethode.
Wie messe/finde ich die Reliabilität und Validität bei Labor-Messverfahren ? Liebe Grüße
Hallo Julia,
das kommt darauf an, wie Dein Studiendesign war. Hast Du mehrfach gemessen? Dann kannst Du über die Messungen hinweg die Reliabilität ermitteln (z.B. Korrelationen oder ICCs zwischen mehreren Messungen über die Zeit oder zwischen Messungen von verschiedenen Untersuchern usw.). Hast Du außerdem noch einen Goldstandard parallel gemessen? Dann kannst Du damit Deine Messungen vergleichen und validieren.
LG Daniela
P.S.: Wenn Du regelmäßig Deine Fragen an mich loswerden willst und viele ausführliche Infos, Videos, Tutorials und Lernmaterial für Deine Datenanalyse suchst, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo und kleine Ergänzung. Der Vollständigkeit halber würde ich noch die Repräsentativität als Gütekriterium hinzufügen. Hier bestehen zwischen der wissenschaftlichen Definition der empirischen Sozialforschung und Statistik auf der einen und dem allgemeinen Gebrauch (z. B. in den Medien) auf der anderen Seite, große Abweichungen. Selten ist es der Fall, dass beispielsweise in geschäftlichen Situationen, die Kunden wissen, dass das Repräsentativitätskriterium besagt, dass jedes Element einer wohldefinierten Grundgesamtheit die gleiche Chance haben muss Teil der Stichprobe zu werden. Auch wenn dies in der Praxis nur der Näherung an ein Ideal entspricht.
Ja, danke für die Ergänzung!
Zum Thema der Repräsentativität habe ich auch mal was geschrieben: https://statistik-und-beratung.de/2014/12/ist-meine-stichprobe-repraesentativ/
Sehr geehrte Fr. Hein,
Habe eine SPSS – Regressionsgerade ausgedruckt, in der Gerade steht:
y=6,89E2 + 1,08E3*x
Was bedeuten hierin E2 und E3 ?
Vielen Dank
Mit freundlichen Grüßen
F. Walter
Hallo Herr Walter,
die Frage gehört nicht zu diesem Blogbeitrag. Ich beantworte sie hier dennoch: „E“ wird als von SPSS als Schreibweise für „mal 10 hoch“ verwendet. Also 6,89E2 bedeutet „6,89 mal 10 hoch 2“.
Weitere Fragen können Sie gern in meiner Facebook-Gruppe Statistikfragen https://www.facebook.com/groups/785900308158525/ diskutieren.
Schöne Grüße
Daniela
exzellenter Blogeintrag – habe viel gelernt, herzlichen Dank! M. Beithe