Hallo liebe Klammer!
Im Rahmen einer Statistikveranstaltung für unseren Masterstudiengang sollen wir eine Aufgabe replizieren, die auf den PISA Studien basiert.
Hierbei geht es konkret darum, den Schulabschlusswunsch der Eltern zu beleuchten und zu sehen, welche Faktoren darauf einen Einfluss haben. Die Authoren des Artikels machen dies anhand einer logistischen binären Regressionsanalysen.
Da wir bisher nicht mit der binären Regressionsanalyse gearbeitet haben, sind wir mittlerweile etwas ins Straucheln gekommen, wie man daran herangeht, dabei stellt sich die einfache binäre Regressionsanalyse eigentlich recht einfach dar. Unser Problem ist aber, dass die Authoren auch mit metrischen Skalen arbeiten und diese in die Analyse mit einbeziehen.
Um das zu verdeutlichen, gebe ich mal die genaueren Details:
Unsere abhängige Variable ist die Aspiration (Wunsch), dichotrom(0 = Hauptschulabschluss gewünscht, 1 = mittlerer Abschluss oder höher gewünscht).
Unsere unabbhängigen Variablen:
Geschlecht (Dichotrom; 0 = männlich, 1 = weiblich)
Migration (Dichotrom; 0 = kein Migrationshintergrund, 1 = Migrationshintergrund)
Deutschnote
1. Fremdsprachennote
Mathenote
(Variablen sind allesamt ordinalskaliert, von 1 - 6)
Höchster HISEI der Familie (Highest International Socio-Economic Index) (Ordinalskaliert, 0 - 90)
Lesetest
Mathetest(Beide auch eine Ordinalskalierung, haben wir selbst aus anderen Fragen errechnet, da Originaldaten diese nicht hergeben).
Bei allen ordinalskalierten Variablen steht im Artikel, dass diese z-standardisiert wurden. Dies haben wir auch getan. Nun wissen wir aber nicht, wie wir weiter mit diesen ordinalskalierten, z-standardisierten Variablen weiter vorgehen müssen, um daraus sinnvolle Ergebnisse zu erzielen.
Bis jetzt bekommen wir die Berechnung der ODD Rates für Geschlecht und Migration hin und kommen, trotz anderer Stichprobengröße (Original N ist nicht replizierbar, weil der Datensatz nicht zugänglich ist und wir mit einem anderen rechnen müssen), auf ziemlich die gleichen Werte.
Wir dachten uns, dass wir diese ordinalskalierten Variablen für eine binäre Regression ja auch auf zwei Ausprägungen codieren müssen und haben, nach der z-Standardisierung die Variable so recodiert, dass alles Werte bis 0 (also dem Mittelwert) den Wert 0 erhalten und alles was darüber liegt den Wert 1 erhält. Eine Auswertung brachte dann aber nicht die gewünschten Ergebnisse sondern eher das Gegenteil.
Leider wissen wir überhaupt nicht, was wir mit den ordinalskalierten Daten machen müssen. Im Artikel schreiben die Authoren auch nicht weiter, was sie genau getan haben, sondern nur, dass diese z-Standardisiert wurden - dann kommt schon eine Tabelle mit den Odd-Ratios (zB. bei HISEI 1,3 und der Aussage, dass Eltern mit einem höheren HISEI Wert (sozialler Stellung) die Wahrscheinlichkeit auch nach einem höheren Abschluss steigt, bei gleichbleibender Leistung.
Mit unserer Methode kommen wir auf eine Odd-Rate beim HISEI auf 0,7 - also komplett falsche richtung.
Wie gesagt, wir sind uns überhaupt nicht sicher, ob man das so machen kann. Wir haben es einfach mal versucht. Ändern wir die standardisierten Werte nicht in 1 und 0 um sondern definieren diese in SPSS in Kategoriale Kovarianten, bekommen wir ganz viele Odd-Rates raus, die bei unserer Replikation aber nicht weiterhelfen.
Hat vielleicht irgendjemand eine Idee, was wir machen müssen?
Im Rahmen einer Statistikveranstaltung für unseren Masterstudiengang sollen wir eine Aufgabe replizieren, die auf den PISA Studien basiert.
Hierbei geht es konkret darum, den Schulabschlusswunsch der Eltern zu beleuchten und zu sehen, welche Faktoren darauf einen Einfluss haben. Die Authoren des Artikels machen dies anhand einer logistischen binären Regressionsanalysen.
Da wir bisher nicht mit der binären Regressionsanalyse gearbeitet haben, sind wir mittlerweile etwas ins Straucheln gekommen, wie man daran herangeht, dabei stellt sich die einfache binäre Regressionsanalyse eigentlich recht einfach dar. Unser Problem ist aber, dass die Authoren auch mit metrischen Skalen arbeiten und diese in die Analyse mit einbeziehen.
Um das zu verdeutlichen, gebe ich mal die genaueren Details:
Unsere abhängige Variable ist die Aspiration (Wunsch), dichotrom(0 = Hauptschulabschluss gewünscht, 1 = mittlerer Abschluss oder höher gewünscht).
Unsere unabbhängigen Variablen:
Geschlecht (Dichotrom; 0 = männlich, 1 = weiblich)
Migration (Dichotrom; 0 = kein Migrationshintergrund, 1 = Migrationshintergrund)
Deutschnote
1. Fremdsprachennote
Mathenote
(Variablen sind allesamt ordinalskaliert, von 1 - 6)
Höchster HISEI der Familie (Highest International Socio-Economic Index) (Ordinalskaliert, 0 - 90)
Lesetest
Mathetest(Beide auch eine Ordinalskalierung, haben wir selbst aus anderen Fragen errechnet, da Originaldaten diese nicht hergeben).
Bei allen ordinalskalierten Variablen steht im Artikel, dass diese z-standardisiert wurden. Dies haben wir auch getan. Nun wissen wir aber nicht, wie wir weiter mit diesen ordinalskalierten, z-standardisierten Variablen weiter vorgehen müssen, um daraus sinnvolle Ergebnisse zu erzielen.
Bis jetzt bekommen wir die Berechnung der ODD Rates für Geschlecht und Migration hin und kommen, trotz anderer Stichprobengröße (Original N ist nicht replizierbar, weil der Datensatz nicht zugänglich ist und wir mit einem anderen rechnen müssen), auf ziemlich die gleichen Werte.
Wir dachten uns, dass wir diese ordinalskalierten Variablen für eine binäre Regression ja auch auf zwei Ausprägungen codieren müssen und haben, nach der z-Standardisierung die Variable so recodiert, dass alles Werte bis 0 (also dem Mittelwert) den Wert 0 erhalten und alles was darüber liegt den Wert 1 erhält. Eine Auswertung brachte dann aber nicht die gewünschten Ergebnisse sondern eher das Gegenteil.
Leider wissen wir überhaupt nicht, was wir mit den ordinalskalierten Daten machen müssen. Im Artikel schreiben die Authoren auch nicht weiter, was sie genau getan haben, sondern nur, dass diese z-Standardisiert wurden - dann kommt schon eine Tabelle mit den Odd-Ratios (zB. bei HISEI 1,3 und der Aussage, dass Eltern mit einem höheren HISEI Wert (sozialler Stellung) die Wahrscheinlichkeit auch nach einem höheren Abschluss steigt, bei gleichbleibender Leistung.
Mit unserer Methode kommen wir auf eine Odd-Rate beim HISEI auf 0,7 - also komplett falsche richtung.
Wie gesagt, wir sind uns überhaupt nicht sicher, ob man das so machen kann. Wir haben es einfach mal versucht. Ändern wir die standardisierten Werte nicht in 1 und 0 um sondern definieren diese in SPSS in Kategoriale Kovarianten, bekommen wir ganz viele Odd-Rates raus, die bei unserer Replikation aber nicht weiterhelfen.
Hat vielleicht irgendjemand eine Idee, was wir machen müssen?