Wenn die Daten für eine Studie gesammelt werden, die Fragebögen ausgefüllt sind, geht es darum, die Daten sinnvoll in eine Datei einzugeben. Diese Datei soll alle Informationen aus den gesammelten Daten beinhalten, übersichtlich für den Nutzer sein und von der Statistiksoftware ohne Fehler eingelesen und analysiert werden. Für die sinnvolle Erstellung einer solchen Matrix gebe ich im Folgenden 10 Tipps.
1. Die Daten werden am einfachsten in einem Tabellenkalkulationsprogramm wie Excel oder OpenOffice Calc eingeben. Das ist genügend übersichtlich und kann von dort aus auch später noch als Textdatei mit gewünschter Spaltentrennung gespeichert werden. Zudem können die meisten Statistikprogramme alle gängigen Text- und Tabellenformate einlesen.
2. Jede Variable bekommt eine Spalte und jede Beobachtung eine Zeile.
3. Die Variablennamen sollten knapp, klar und eindeutig sein und keine Sonder- und Leerzeichen beinhalten.
4. Eine Variable mit Nummerierung oder anderer eindeutiger Bezeichnung der Beobachtung, wie z.B. eine Patientennummer, wird eingeführt.
5. Für Kommentare sollte eine Kommentarspalte eingeführt werden. Hier können Anmerkungen als Freitext eingegeben werden. Diese Infos sind zwar nicht für die statistische Analyse verwertbar, gehen dann aber auch nicht verloren.
6. Bei Mehrfachmessungen gibt es zwei Möglichkeiten: Entweder jeder Zeitpunkt bekommt eine Spalte. Dann gibt es für jeden Patienten weiterhin eine Zeile. Oder alle Messungen einer Variable stehen in einer Spalte und es wird zusätzlich eine Spalte für die Eingabe des Zeitpunkts eingeführt. Das kann übersichtlicher sein, wenn viele verschiedene Variablen mehrfach gemessen werden.
7. Bei numerischen Variablen sollte man auch wirklich nur Zahlen hineinschreiben. Bei Bedarf kann eine zusätzliche Spalte angelegt werden, in der nichtnumerische Einträge als Kommentare stehen können. Ein Beispiel: Der Proband gibt im Fragebogen anstatt seines genauen Alters nur „50-60“ an. Dann hat das in der numerischen Variablenspalte nichts zu suchen. Man will aber die Information nicht verschenken und speichert sie als Text in einer zusätzlichen Spalte. Wenn später vielleicht Altersklassen gebildet werden, ist sie durchaus nützlich.
8. Nominale Variablen sollten sinnvoll abgekürzt werden. Nur zur Not werden sie numerisch kodiert. Zum Beispiel wird männlich/weiblich am besten als m/w kodiert. Das ist schnell einzugeben und trotzdem ist für jeden gleich klar, welcher Code was bedeutet.
9. Es ist wichtig, dass nominale Variablen immer gleich geschrieben werden. Also auf Tippfehler und alternative Schreibweisen achten!
10. Zudem sollte die Datei keinerlei Leerzeilen und Leerspalten enthalten.
Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.
Hallo Frau Keller,
„8. Nominale Variablen sollten sinnvoll abgekürzt werden. Nur zur Not werden sie numerisch kodiert. Zum Beispiel wird männlich/weiblich am besten als m/w kodiert. Das ist schnell einzugeben und trotzdem ist für jeden gleich klar, welcher Code was bedeutet.“
Haben Sie mit dieser Vorgehensweise tatsächlich gute Erfahrungen gemacht? In der Praxis ist es unüblich, die Werte nominaler Variablen in Form von Abkürzungen zu erfassen. Die numerische Kodierung ist absolut gängig und bietet den Vorteil, Wertelabels nachträglich bzw. im Rahmen der Auswertung bei Bedarf umzubenennen, ohne die Daten selbst zu verändern. Außerdem ist das Erfassen numerischer Werte für den Datenerfasser einfacher und schneller als (Wort-) Abkürzungen einzutippen. Den Nachteil führen Sie ja selbst an:
„9. Es ist wichtig, dass nominale Variablen immer gleich geschrieben werden. Also auf Tippfehler und alternative Schreibweisen achten!“
Überdies ist die Datenerfassung direkt in SPSS o.ä. vorteilhafter als in Excel zu erfassen, da in einem Statistikprogramm i.d.R. eingestellt werden kann, dass statt der numerischen Werte (die eingegeben wurden) deren entsprechende Labels angezeigt werden. So sind Tippfehler direkt erkennbar und der Erfasser spart Zeichen/Tastenanschläge bei der Erfassung.
Lieber Oliver,
danke für den Kommentar und die Hinweise! Es stimmt, dass die Datenerfassung direkt in SPSS vorteilhafter wäre. Oft werden aber die Daten trotzdem zunächst in Excel eingegeben. Vielleicht, weil hier zunächst weniger Berührungsängste da sind, wenn noch nie mit einer Statistiksoftware gearbeitet wurden.
Ich bevorzuge ebenfalls numerische Angaben in Nominalvariablen.
Hier ein Beispiel bei mir für eine von mehreren soziobiografischen Angaben: ‚Höchster Bildungsabschluss‘ (als Nominale Variable definiert mit ‚0‘ = ‚ohne Abschluss‘, ‚1‘ = ‚Haupschulabschluss‘, ‚2‘ = ‚Realschulabschluss‘, ‚3‘ = ‚Gymnasium‘, …, ‚9‘ = ‚keine Angabe‘ …
Die Bedeutung der Werte 1, 2, … wird natürlich bei SPSS als Label festgehalten.
Sicher, das schon eine gewisse Hürde für einen Anfang mit SPSS.
Genau. Hier muss dann die 9 zwingend noch als fehlenden Wert in SPSS hinterlegt werden. Dann passt das.
LG Daniela