Wenn Du mit verallgemeinerten (gemischten) linearen Modellen oder mit verallgemeinerten Schätzgleichungen arbeitest, dann benötigst Du dafür eine Verteilung und eine Linkfunktion.

Was ist die Verteilung?

Die Verteilung machst Du vom Variablentyp der Kriteriumsvariable, also der abhängigen Variablen in Deinem Modell, abhängig. Sie modelliert also, wie die abhängige Variable verteilt ist.

Hier ist vor allem relevant, ob es sich um eine diskrete oder stetige Variable handelt. Diskrete Verteilungen haben Variablen, die nur ganzzahlige Messwerte annehmen können. Das ist der Fall, wenn Häufigkeiten gezählt werden, zum Beispiel wie viele Fehler bei einer Aufgabe gemacht werden. Oder auch dichotome Variablen, wie zum Beispiel die Messung, ob eine Krankheit vorliegt oder nicht, haben eine diskrete Verteilung. Stetige Verteilungen dagegen sind kontinuierliche Messungen, die viele mögliche Messwerte (nicht nur ganzzahlige) annehmen können, wie zum Beispiel Reaktionszeiten. Wie genau Du Dich für die passende Verteilung entscheidest, erfährst Du weiter unten.

Was macht die Linkfunktion?

Die Linkfunktion benötigst Du, um die Linearkombination der Prädiktoren (die Kombination Deiner unabhängigen Variablen im Modell) und Deine Kriteriumsvariablen zu verbinden (deshalb „Link“). Diese Verknüpfung über eine Funktion ist notwendig, da der Wertebereich der Linearkombination der Prädiktoren nicht unbedingt dem Wertebereich der Kriteriumsvariablen entspricht.

Wenn Deine Kriteriumsvariable eine Zählvariable ist, zum Beispiel, wie viele Fehler in einem Test gemacht werden, und dort maximal 30 Fehler möglich sind, dann liegt der Wertebereich Deiner Kriteriumsvariablen zwischen 0 und 30. Der Wertebereich der Linearkombination Deiner Prädiktoren kann aber einen viel größeren Bereich umspannen und geht von minus unendlich bis plus unendlich. Diese beiden sehr unterschiedlichen Bereiche werden durch die Linkfunktion aufeinander abgebildet.

Es gibt Linkfunktionen, die klassischerweise zu den jeweils passenden Verteilungen verwendet werden (siehe auch unten bei der Auswahl der Linkfunktion und Verteilung). Diese Linkfunktionen werden auch modellangepasste, kanonische oder natürliche Linkfunktionen genannt. Wenn Du keinen guten Grund hast, eine andere Linkfunktion auszuwählen, empehle ich Dir, bei diesen natürlichen Linkfunktionen zu bleiben.

Woher weiß ich, was passt?

Du bestimmst selbst, bevor Du die Analyse rechnest, mit welcher Verteilung und welcher Linkfunktion gearbeitet werden soll. Je nachdem, wie gut Verteilung und Linkfunktion zu den Daten passen, umso besser passt Dein Modell. Ist die Auswahl nicht passend, kann es passieren, dass kein Ergebnis berechnet werde kann (bei iterativen Prozessen wird keine genügend gutes Lösung gefunden), oder dass Du eine Fehlermeldung von Deiner Statistiksoftware bekommst.

Wenn die Analyse durchläuft, heißt das aber nicht, dass Verteilung und Linkfunktion gut passen. Teilweise kannst Du durch Untersuchung der Eigenschaften des Modells im Nachhinein prüfen, ob die Vorannahmen passend waren, beispielsweise durch Untersuchung der Residuen. Manchmal kannst Du auch verschiedene Möglichkeiten ausprobieren. Dann rechnest Du mehrere Modell mit verschiedenen Verteilungen und Linkfunktionen und vergleichst deren Güte – also wie gut die Anpassung ist – beispielsweise mit Werten wie dem AIC.

Wie wähle ich die Verteilung und die Linkfunktion aus?

Am wichtigsten ist aber, dass Du Dir zu Beginn Gedanken dazu machst, welche Verteilung und welche Linkfunktion zur Art Deiner Daten am besten passen. Im folgenden gebe ich Dir ein paar Tipps zur Auswahl:

Die Kriteriumsvariable ist dichotom

Ist Deine abhängige Variable eine dichotome Variable, also zum Beispiel krank ja/nein, dann verwendest Du die Binomialverteilung als passende Verteilung.

Als Linkfunktion zur Binomialverteilung kannst Du die Logit-Linkfunktion verwenden wenn Du ein Logistisches Modell, vergleichsweise zur logistischen Regression rechnen möchtest. Alternativ steht Dir die Probit-Linkfunktion zur Verfügung, die im Vergleich zu Logit weniger verbreitet ist und sensibler auf Ausreißer reagiert.

Meist macht es in der Anwendung kaum einen Unterschied, ob Du Logit oder Probit verwendest. Im Zweifel kannst Du beide Versionen rechnen und über einen Modellvergleich entscheiden, welche Funktion besser passt.

Die Kriteriumsvariable ist nominal mit mehr als 2 Kategorien oder ordinal

Ist die Kriteriumsvariable ordinal, zum Beispiel das Krankheitsstadium in 3 Stufen schwach/mittel/hoch oder nominal mit mehr als 2 Kategorien, zum Beispiel Beziehungstatus mit ledig/verheiratet/getrennt, so verwendest Du die Multinomialverteilung.

Als Linkfunktion kannst Du, wie bei der Binomialverteilung oben, wieder zwischen Logit und Probit wählen.

Die Kriteriumsvariable misst eine Häufigkeit

Wenn Du mit Deiner abhängigen Variablen die Anzahl von Ereignissen zählst (z.B. Anzahl der Fehler in einem Test), dann passen gut die Poisson-Verteilung oder die Negative Binomialverteilung für Dein Modell.

Die einfachere der beiden Verteilungen ist die Poisson-Verteilung. Einfacher in dem Sinn, dass dort nur ein Parameter geschätzt wird, der gleichzeitig der Mittelwert als auch die Varianz der Verteilung beschreibt. Und das ist genau auch der Nachteil der Poisson-Verteilung: sie passt nur, wenn Mittelwert (also Lage) und Varianz (also Streuung) Deiner Kriteriumsvariablen gleich (oder zumindest ähnlich) sind.

Ist das nicht der Fall, ist die Poisson-Verteilung unpassend und Du solltest stattdessen die Negative Binomialverteiung verwenden, die diese Einschränkung nicht hat.

Für beide Verteilungen – Poisson und Negativ Binomial – ist der natürliche Logarithmus die modellangepasste Linkfunktion.

Hier kannst Du Dir die Negative Binomialverteilung (Link zur Negativen Binomialverteilung von demonstrations.wolfram.com) und hier die Poisson-Verteilung (Link zur Poisson-Verteilung von demonstrations.wolfram.com) interaktiv ansehen.

Die Kriteriumsvariable ist stetig

Kontinuierlichen Kriteriumsvariablen, die Du mit den oben beschriebenen verallgemeinerten Modellen untersuchst, sind häufig nicht symmetrisch verteilt sondern linkssteil und nehmen oft nur positive Werte an. Das ist beispielsweise bei Reaktionszeiten oder Laborparameter der Fall. Für diese Variablen eignet sich gut die Gammaverteilung, die als modellangepasste Linkfunktion die inverse Linkfunktion hat. Allerdings wird hier häufig auch mit dem natürlichen Logarithmus als Linkfunktion gearbeitet.

Solltest Du es hier doch mit einer symmetrischen und annähernd normalverteilten Variablen zu tun haben, so kannst Du hier auch die Normalverteilung als Verteilungsauswahl treffen. Die Normalverteilung würdest Du mit der Identitäts-Linkfunktion verknüpfen.

Willst Du eine Vorstellung davon haben, wie die Gammaverteilung aussehen kann, dann nutze dieses Online-Tool, um unterschiedliche Gammaverteilungen zu visualisieren:

Link zur Gammaverteilung von demonstrations.wolfram.com

Hier nochmal zur Übersicht die empfohlene Auswahl in einer Tabelle:

Kriteriumsvariable istVerteilungLinkfunktion
dichotomBinomialverteilungLogit oder Probit
ordinalMultinomialverteilungLogit oder Probit
HäufigkeitPoisson- oder Negative BinomialverteilungNatürlicher Logarithmus
stetigGammaverteilungNatürlicher Logarithmus oder Inverse

Quellen:

Hox, J. J., Moerbeek, M. & Van De Schoot, R. (2017). Multilevel analysis: Techniques and Applications, Third Edition. Routledge.

Rudolf, M. & Vogel-Blaschka, D. (2023). Komplexe regressionsanalytische Verfahren: Eine praxisorientierte Einführung mit Anwendungsbeispielen in R und SPSS. Hogrefe Verlag GmbH & Company KG.