Metaanalyse zur prognostischen Validität fachspezifischer Studierfähigkeitstests

Dr. Stephan Stegt und Arvid Hofmann, ITB Consulting, Bonn
Dr. Johannes Schult, Institut für Bildungsanalysen Baden-Württemberg

Fachspezifische Studieneignungstests gibt es im deutschsprachigen Raum seit den 1980er Jahren. Diese Tests wurden nach den Gütekriterien der psychologischen Diagnostik evaluiert. Das vielleicht wichtigste Gütekriterium ist die „prognostische Validität“, die Vorhersagekraft für Studienerfolg. Studienerfolg kann auf unterschiedliche Weise erfasst werden, aber aus inhaltlichen und pragmatischen Gründen wird häufig die Durchschnittsnote verwendet. Die prognostische Validität gibt man als Korrelation zwischen Prädiktor und Kriterium an. Zur Validität der Studierfähigkeitstests im deutschsprachigen Raum wurde von Hell, Trapmann und Schuler (2007) eine Metaanalyse mit 9 Studien und 36 Stichproben veröffentlicht. Das Ergebnis war eine gute prognostische Validität von Studierfähigkeitstests. Eine Einschränkung bestand allerdings darin, dass in den meisten Studien ein einziger Test untersucht wurde, der Test für Medizinische Studiengänge. Diese Einschränkung war neben dem Alter der Metanalyse ein Grund für eine Fortschreibung und Erweiterung. Nach einer Literaturrecherche wurden 28 neuere Studien mit 58 Stichproben in die Metaanalyse aufgenommen. Das wichtigste Ergebnis besteht darin, dass Studierfähigkeitstests nach wie vor eine gute prognostische Validität haben (.43), und dass sie in zahlreichen Fachbereichen funktionieren. Die prognostische Validität der Abiturnote (31 Stichproben) ist ebenfalls gut (.45). Wo die gemeinsame Prognosekraft von Abiturnote und Studierfähigkeitstest untersucht werden konnte, zeigte sich eine Verbesserung der Varianzaufklärung um durchschnittlich 8 %, wenn man die Abiturnote mit einem fachspezifischen Studierfähigkeitstest kombinierte. Die Ergebnisse zeigen aber auch, dass nicht jeder Test automatisch valide ist: Es fanden sich zwei Stichproben, in denen gar kein Zusammenhang zwischen Testergebnis und Studiennoten bestand. Zudem wurde deutlich, dass die Ergebnisse für ein und denselben Test in unterschiedlichen Stichproben schwanken können, z.B. von .27 bis .78 für den Auswahltest der Bucerius Law School. Daraus lässt sich ableiten, dass Tests keine Selbstläufer sind und daher jeder Test evaluiert werden sollte, am besten mit mehreren Stichproben. Im Rahmen der Metaanalyse wurden verschiedene Moderatorvariablen untersucht, die sich auf die Validität auswirken könnten. Unter anderem spielt der Prognosezeitraum eine Rolle: Kurzfristige Prognosen lassen sich leichter treffen als langfristige. Trotzdem gibt es Tests, die Abschlussnoten nach 3 oder 4 Jahren gut vorhersagen. Der Moderator „Testformat“ hingegen hatte keine Auswirkungen. Die „klassischen“ Studierfähigkeitstests bestehen zu einem großen Teil aus fachspezifischen komplexen Problemlöseaufgaben, die kaum Vorkenntnisse voraussetzen. In vielen Tests wurden ergänzend oder alternativ andere Formate verwendet, z.B. fachunspezifische Problemlöseaufgaben, fachspezifische Problemlöseaufgaben, die Vorkenntnisse voraussetzten, Kenntnisabfragen oder Essays. Diese Tests funktionierten ähnlich gut wie die klassischen Tests. Aus der Moderatorenanalyse lässt sich folgern, dass es nicht grundsätzlich das eine beste Testkonzept gibt. Wichtig scheint vor allem zu sein, dass das Konzept auf Basis einer Anforderungsanalyse entwickelt wird, dass die Testaufgaben handwerklich sorgfältig entwickelt werden, dass ein Test unter kontrollierten Bedingungen durchgeführt wird und dass eine kontinuierliche Evaluation nach den Gütekriterien der psychologischen Diagnostik erfolgt.

Link zur Präsentation