Objektivität und Reliabilität eines Tests sind nur technische Voraussetzungen und prinzipiell kein Substitut für seine Validität. Erst in empirischen Validitätsuntersuchungen kann die Leistungsfähigkeit eines Tests geprüft werden.

 

Kriteriumsvalidität

Bei der Kriteriumsvalidierung prüft man, ob der Testwert eine Bestimmung von Nicht-Testverhalten erlaubt, welches retrospektiv, gleichzeitig oder später erfasst wird. Laut DIN 33430 kann der Nachweis der Kriteriumsvalidität durch verfahrensspezifische Untersuchungen erbracht werden. Es ist aber auch explizit vorgesehen, Gültigkeitsbelege, die in anderen Studien erbracht wurden, zu übertragen (Validitätsgeneralisierung). Des Weiteren wird in der DIN 33430 gefordert, dass (sofern vorhanden) auch die Kriteriumsgültigkeiten vergleichbarer Verfahren für gleiche oder ähnliche Anwendungsbereiche berichtet werden. Die vorliegenden Verfahrenshinweise werden diesen Forderungen gerecht. Zunächst werden allgemeine Befunde zur Kriteriumsvalidität von Intelligenztests berichtet. Anschließend werden die Kriteriumsvaliditäten vergleichbarer Verfahren referiert. Dann werden Befunde zur Kriteriumsvalidität derjenigen Subtests des WIT-1 metaanalytisch zusammengefasst, die auch im WIT-2 enthalten sind. Abschließend werden die Ergebnisse der eigens mit dem WIT-2 durchgeführten Studien zur Kriteriumsvalidität berichtet. Ein Fazit zur Kriteriumsvalidität rundet die Ausführungen zur Kriteriumsvalidität ab.

 

Kriteriumsvalidität: Validitätsgeneralisierung

Die Module des WIT-2 erfassen nachweislich Dimensionen der Intelligenz. Daher können allgemeine Erkenntnisse zur Kriterumsvalidität von Intelligenztests in vollem Ausmaß auf den WIT-2 übertragen werden. Nach der Sichtung metaanalytischer Studien resümieren Schmidt und Hunter, dass aufgrund von Intelligenztests gewonnene Aussagen mit die höchste Validität bei der Vorhersage zukünftiger Leistungen erzielen, und zwar sowohl bei der Vorhersage von Ausbildungs- als auch bei der Vorhersage von Berufsleistungen. Andere Verfahren, wie z. B. Assessment Center oder Vorstellungsgespräche, können kaum noch inkrementelle Validität erzielen, wenn als erster Prädiktor ein Intelligenztest berücksichtigt wird. Als Fazit einer bald einhundertjährigen Forschung zu diesem Thema kann insgesamt eindeutig festgehalten werden: Mit keinem anderen Verfahren lässt sich der Erfolg bei kognitiv geprägten Lebensaufgaben wie Schule, Ausbildung, Studium und Beruf so gut vorhersagen wie mit Intelligenztests. Die Variabilität der Vorhersageleistung über verschiedene Situationen und vor allem über verschiedene Berufe hinweg ist gering. Dies bedeutet, dass Intelligenztests nicht nur für spezifische (Berufs-) Gruppen, sondern generell valide Schlussfolgerungen erlauben.

 

Kriteriumsgültigkeiten vergleichbarer Verfahren

Sofern vorhanden sollen nach DIN 33430 in den Verfahrenshinweisen auch die Kriteriumsgültigkeiten vergleichbarer Verfahren für gleiche oder ähnliche Anwendungsbereiche berichtet werden. Diesbezüglich kann auf die Studie von Hülsheger et al. (2006) verwiesen werden. Die Autoren haben die Kriteriumsvalidität verschiedener Intelligenztests, nämlich CFT-3, IST-70, LPS, PSB, SPM und WIT ermittelt. Die zentralen Ergebnisse sind in der folgenden Tabelle zusammengefasst. Entscheidend ist die in der vorletzten Spalte berichtete operationale Validität. Der WIT-1 wies nach Analyse und Ansicht der Autoren die höchste Validität auf.

 

Metaanalyse für verschiedene Intelligenztests (Hülsheger et al., 2006)

Hülsheger, U. R., Maier, G. W., Stumpp, T. & Muck, P. M. (2006). Vergleich kriteriumsbezogener Validitäten verschiedener Intelligenztests zur Vorhersage von Ausbildungserfolg in Deutschland: Ergebnisse einer Metaanalyse. Zeitschrift für Personalpsychologie, 5, 145-162.

Hülsheger, U. R., Maier, G. W., Stumpp, T. & Muck, P. M. (2006). Vergleich kriteriumsbezogener Validitäten verschiedener Intelligenztests zur Vorhersage von Ausbildungserfolg in Deutschland: Ergebnisse einer Metaanalyse. Zeitschrift für Personalpsychologie, 5, 145-162.

 

Metaanalyse zur Kriteriumsvalidität der WIT-1 Subtests

Der WIT-2 baut zum Teil auf den bewährten Subtests und Items des WIT-1 auf (siehe Alter und neuer WIT). Einige Subtests des WIT-2 sind zumindest strukturell äquivalent zu den typgleichen Subtests des WIT-1. Teilweise umfassen sie sogar das gleiche Itemmaterial. Die Befunde zur Kriteriumsvalidität derjenigen Subtests des WIT-1, die auch im WIT-2 erhalten sind, können daher als Anhaltspunkt für die Kriteriumsvalidität der entsprechenden aktuellen WIT-2 Subtests genutzt werden. Mit der nachfolgend dargestellten Metaanalyse werden die jahrzehntelangen Erfahrungen mit dem WIT-1 so aufbereitet, dass sie von den Anwendern des WIT-2 genutzt werden können.

Lang, Kersting und Lang (in Vorbereitung) führten eine Metaanalyse zur Kriteriumsvalidität der Subtests des WIT-1 in Bezug auf den Ausbildungs- und Berufserfolg durch:

Lang, J. W. B., Kersting, M. & Lang, J. (in Vorbereitung). Eine metaanalytische Untersuchung zur spezifischen Fähigkeitstheorie.

Die Studie unterscheidet sich von der oben zitierten Studie von Hülsheger et al. (2006) u. a. dadurch, dass Hülsheger et al. nur Gesamtwerte für den Wilde-Test in ihrer Metaanalyse berücksichtigt haben, während Lang et al. die Validitäten der Einzelskalen fokussierten. Zur Beantwortung dieser Fragestellungen stehen mehr Studien zur Verfügung als für die Frage nach der Validität des WIT-Gesamtwertes. Konkret konnten für jeden Subtests 12 bis 21 Studien im Umfang von 1.009 bis 1.781 Personen berücksichtigt werden. Die Ergebnisse der Studie von Lang et al. (under review) sind in der nachfolgenden Tabelle und Graphik dargestellt. Die dargestellten Validitäten beziehen sich ausschließlich auf Daten aus dem WIT-1 (während im Artikel die WIT-1 und WIT-2 Tests gemeinsam analysiert werden, was zu geringfügig anderen Werten führt). Die Daten zeigen, dass bereits auf der Subtestebene hohe Validitäten zu beobachten sind. Bei einer entsprechenden Aggregation zu Composite-Werten auf der Ebene der Gesamtdimensionen werden noch höhere Validitäten erzielt. Da die technische Qualität der WIT-2 Subtests deutlich höher ist als die der WIT-1 Subtests und da für die Aggregatsebene höhere Kriteriumsvaliditäten zu erwarten sind als für die Subtestebene, ist davon auszugehen, dass der WIT-2 die in der Tabelle / Graphik berichteten Kriteriumsvaliditäten des WIT-1 deutlich übertrifft.

 

Kriteriumsvalidität. Metaanalyse zur Kriteriumsvalidität derjenigen Subtests des WIT-1, die auch im WIT-2 enthalten sind (Lang, Kersting & Lang, under review)

Lang, J. W. B., Kersting, M. & Lang, J. (in Vorbereitung). Eine metaanalytische Untersuchung zur spezifischen Fähigkeitstheorie. (Die Angaben hier auf der Folie beziehen sich allerdings nur auf die Tests des WIT-1, während im Artikel die WIT-1 und WIT-2 Tests gemeinsam analysiert werden, was zu geringfügig anderen Werten führt.)

Lang, J. W. B., Kersting, M. & Lang, J. (in Vorbereitung). Eine metaanalytische Untersuchung zur spezifischen Fähigkeitstheorie. (Die Angaben hier auf der Folie beziehen sich allerdings nur auf die Tests des WIT-1, während im Artikel die WIT-1 und WIT-2 Tests gemeinsam analysiert werden, was zu geringfügig anderen Werten führt.)

 

Empirische Untersuchungen zur Kriteriumsvalidität des WIT-2

Zur Kriteriumsvalidierung des WIT-2 wurden in verschiedenen Studien insgesamt fünf Kriterien herangezogen, die als Indikatoren des Erfolgs in kognitiv geprägten Lebensaufgaben gelten können: (1.) Selbsteinschätzungen, (2.) Schulnoten, Erfolg in (3.) der beruflichen Weiterbildung und (4.) in der beruflichen Erstausbildung sowie (5.) biographische Daten. Dabei wurden vor allem berufsbezogene Kriterien ausgewählt, wobei die verwendeten Kriterien und ihre Operationalisierungen für die Eignungsdiagnostik einschlägig angemessen sind und über die notwendige inhaltliche Qualität verfügen. In mehreren der genannten Studien wurde geprüft, ob der WIT-2 gegenüber alternativen Prädiktoren, insbesondere gegenüber der leicht verfügbaren Schulnote, inkrementelle Validität aufweist.

1. Kriteriumsvalidität: Selbsteinschätzungen

Zunächst wurde anhand einer Gruppe von 289 Personen der Zusammenhang zwischen den WIT-2 Testleistungen und Selbsteinschätzungen bestimmt. Dazu lieferten die Testteilnehmer vor (!) der WIT-2 Testung auf siebenfach abgestuften Likert-Single-Item-Skalen Selbsteinschätzungen zu den mit den WIT-2 Modulen homologen Dimensionen. Lediglich die verlangte Selbsteinschätzung zur Konzentrationskraft stimmte nicht vollständig mit der Definition der mit dem WIT-2 Modul 6 erfassten Arbeitseffizienz überein. Mit Ausnahme des Zusammenhangs zwischen der Testleistung in dem Subtest E-Mails Bearbeiten und der Selbsteinschätzung der Konzentration und Sorgfalt, waren alle Zusammenhänge signifikant und teilweise beachtlich hoch. Der ausbleibende Zusammenhang zwischen dem WIT-2 Modul Arbeitseffizienz und der Selbsteinschätzung der Konzentrationskraft ist eventuell darauf zurückzuführen, dass die Arbeitsprobe komplexer und kognitiv anspruchsvoller ist als herkömmliche Konzentrationsaufgaben und diese Anforderung daher von den Testteilnehmern nicht mit Konzentrationsanforderungen assoziiert wird.

2. Kriteriumsvalidität: Schulnoten

Seit der Entwicklung des Intelligenztests durch Alfred Binet werden Intelligenztestleistungen zu Schulleistungen in Beziehung gesetzt. Die WIT-2 Testleistungen korrelieren nicht nur substantiell mit gleichzeitig erhobenen Schulnoten (konkurrentes Design, N=129), sondern auch mit Schulnoten, die im Durchschnitt 18 Jahre (!) vor der WIT-2 Durchführung vergeben wurden (retrogrades Design, N = 367).

3. Kriteriumsvalidität: Ausbildungserfolg 1- Erfolg in der beruflichen Weiterbildung

Anhand der Ergebnisse, die von 104 Rehabilitanden in den Fächern Mathematik und Deutsch beim so genannten „Rehavorbereitungslehrgang“ (RVL) erzielt wurden, konnte die Kriteriumsvalidität des WIT-2 in Bezug auf den Erfolg in der beruflichen Weiterbildung bestimmt werden. Bei dieser Untersuchung stand als weiterer Prädiktor die Schulabschlussnote zur Verfügung, so dass geprüft werden konnte, ob der WIT-2 gegenüber der Schulabschlussnote inkrementelle Validität aufweist. Jedes einzelne WIT-2 Modul und jeder einzelne WIT-2 Subtest ist in der Lage, eines oder beide Kriterien vorherzusagen, wobei sich erwartungsgemäß vor allem das schlussfolgernde Denken als solider Prädiktor hervorhebt. Mit Hilfe der multiplen Regressionsanalyse wurde die inkrementelle Validität des WIT-2 gegenüber Schulnoten nachgewiesen. Wie von der DIN 33430 vorgeschrieben wurde zur Prüfung der Stichprobenunabhängigkeit der multiplen Korrelation eine Kreuzvalidierung durchgeführt.

4. Kriteriumsvalidität: Ausbildungserfolg 2 – Erfolg in der beruflichen Erstausbildung

Neben dem Erfolg in der beruflichen Weiterbildung wurde auch der Erfolg in der beruflichen Erstausbildung als Kriterium herangezogen. Hierfür konnte eine Gruppe von 51 Personen gewonnen werden, die entweder eine Ausbildung zum Fachinformatiker absolvierten oder einen Studiengang (vornehmlich in den Fachrichtungen Informationstechnik und angewandte Informatik) an der Berufsakademie belegten. Mit Ausnahme des Wissenstests Informationstechnologie, des WIT-2 Moduls räumliches Denken sowie (ggf. in Folge dessen) schlussfolgerndes Denken, stehen alle übrigen Module in substantiellem Zusammenhang zu den Indikatoren des Ausbildungerfolgs. Auch in dieser Stichprobe konnte der WIT-2 gegenüber Schulnoten eine inkrementelle Varianzaufklärung leisten. Die ausbleibenden Validitäten für den Wissenstest Informationstechnologie und das räumliche Denken / schlussfolgernde Denken sind vor dem Hintergrund zu sehen, dass es sich um eine extrem vorausgewählte und varianzeingeschränkte Gruppe handelt: Die Personen waren aufgrund von Leistungen in entsprechenden Dimensionen mit Hilfe anderer Tests ausgewählt worden.

5. Weitere Kriteriumsvalidierung der Kenntnistests

Um eine weitere Prüfung der Kriteriumsvalidität der beiden WIT-2 Kenntnistests vorzunehmen, wurden die entsprechenden Testwerte bei einer Subgruppe von 49 Personen mit einem Index korreliert, der das Ausmaß an Erfahrungen mit Wirtschaftsthemen bzw. Themen der Informationstechnologie sowie das Interesse für Wirtschaft bzw. Informationstechnologie widerspiegelt. Die Erfahrungen in den jeweiligen Domänen wurden mit spezifischen Fragebögen erfasst, die vor (!) der WIT-2 Testbearbeitung appliziert wurden. Die beiden Instrumente können als biographische Fragebögen klassifiziert werden. Für beide Kenntnistests, vor allem aber für das WIT-2 Modul Wissen Informationstechnologie zeigte sich eine sehr hohe Kriteriumsvalidität.

 

Konstruktvalidität

Bei der Konstruktvalidierung geht es darum, zu prüfen, ob der Test das misst, was er zu messen intendiert und vorgibt, und ob die aufgrund der Testergebnisse getroffenen Interpretationen theoriekonform sind. Diesbezüglich sind zunächst die Strukturannahmen zu prüfen. Dies geschah für den WIT-2 mit Hilfe konfirmatorischer Faktorenanalysen anhand der Daten von 839 Personen. Dabei ergab sich jeweils ein guter Fit der postulierten Modelle auf die Daten. Aus theoretischen und praktischen Erwägungen ist es besonders interessant zu untersuchen, ob ein neu entwickeltes psychometrisches Instrument seine Konstrukte auf andere Aufgaben generalisierbar operationalisiert. Denn die Geltung der Konstruktannahmen ist nicht auf die Subtests und Module des WIT-2 beschränkt, sie muss sich auch bei Testaufgaben zeigen, die nicht zur Modellkonstruktion eingesetzt wurden. Zur Untersuchung dieser Frage bearbeitete ein Teilgruppe im Umfang von N=641 Personen zusätzlich zum WIT-2 Subtests aus anderen einschlägigen Intelligenztests. Der Fit des postulierten Modells war akzeptabel, wenn liberale Fit-Kriterien für den CFI herangezogen wurden, und lässt die Schlussfolgerung zu, dass der WIT-2 auf andere Aufgaben generalisierbare Faktoren erfasst. Insgesamt konnte durch die konfirmatorischen Faktoranalysen klar gezeigt werden, dass der WIT-2 die im MMPMA Modell postulierten Fähigkeiten differenziert erfasst.

Entsprechend der DIN 33430 ist darüber hinaus aufgrund von inhaltlichen Ãœberlegungen und empirischen Ergebnissen darzulegen, wie sich die mit dem Test gemessenen Konstrukte zu ähnlichen (konvergente Validität) und zu unähnlichen Konstrukten (diskriminante Validität) verhalten. Zu keinem anderen deutschsprachigen Test wurden zum Zeitpunkt der Erstveröffentlichung so umfangreiche Studien zur Konstruktvalidität durchgeführt, wie zum WIT-2. Durch diese Befunde wird es möglich, die mit dem WIT-2 gemessenen Befunde in das nomologische Netz anderer Fähigkeiten und Persönlichkeitsmerkmale einzuordnen. Zur Einordnung der mit dem WIT-2 erfassten Fähigkeiten in das nomologische Netz anderer Fähigkeiten sowie zur Bestimmung der konvergenten und diskriminanten Validität, wurden Subtests und Module des WIT-2 mit Subtests und Skalen von insgesamt 17 anderen Testverfahren in Beziehung gesetzt. Aufgrund der in den jeweiligen Testmanualen dargestellten theoretischen Ausführungen sowie aufgrund einer eingehenden Analyse des jeweiligen Itemmaterials wurde davon ausgegangen, dass u. a. Subtests / Skalen aus den nachfolgend genannten 17 Tests ähnliche sowie (teilweise) unähnliche Konstrukte wie einzelne WIT-2 Module erfassen und sich daher für die Konstruktvalidierung eignen: ABAT-R, AMS-R, BIS-4, BIS-r-DGP, CFT-3, DGP-Wissenstests, FRT, IST 2000 R, KLT-R, LGT-3, LPS, MIPS, MRT, NEO-PI-R, START-R, TAI und Wonderlic Test. In verschiedenen Studien mit Stichprobengrößen im Umfang von 48 bis 953 Personen wurden Subtests des WIT-2 mit einzelnen oder mehreren der genannten Tests gemeinsam eingesetzt, wobei eindeutige Hinweise auf die konvergente und diskriminante Validität des WIT-2 erzielt wurden.

Aufgrund dieser Maßnahmen zur Konstruktvalidierung und aufgrund der dabei erzielten prägnanten Ergebnisse, kann der WIT-2 nicht nur für die Praxis empfohlen werden (hier hilft die Konstruktvalidität bei der Interpretation der Befunde sowie bei der testbasierten Entscheidung), sondern er eignet sich, sofern auf die Messung der Bearbeitungsgeschwindigkeit und des Einfallsreichtums verzichtet werden kann, auch im hervorragenden Maße als Standard-Instrument zur Intelligenzstrukturforschung.