Intelligenztest WIT-2

Auf diesen Seiten finden Sie umfangreiche Informationen zum WIT-2, der zweiten Version des Wilde Intelligenz Tests. Autoren des Tests sind Martin Kersting, Klaus Althoff und Adolf Otto Jäger. Der Test wird von der Deutschen Gesellschaft für Personalwesen e.V. herausgegeben und vom Hogrefe Verlag vertrieben.

Über die Leiste links können Sie Informationen zu den dort genannten Themen abrufen. Die Informationen sind gegenüber den Verfahrenshinweisen zum WIT-2 stark vereinfacht bzw. verkürzt. Die vorliegende Website kann und soll die Lektüre der Verfahrenshinweise nicht ersetzen. Des Weiteren wird in diesem Sinne auch auf Quellenverweise und das Literaturverzeichnis verzichtet, die entsprechenden Angaben finden sich in den Verfahrenshinweisen. Wissenschaftliche Darstellungen sollten sich nicht auf die Informationen der vorliegenden Website beschränken, sondern die umfassenderen und detailreicheren Verfahrenshinweise nutzen. Eine abschließende Beurteilung der Qualität des WIT-2 ist allein auf der Grundlage der verkürzten Informationen der vorliegenden Website nicht möglich. Hierzu bedarf es der umfassenden Informationen der Verfahrenshinweise.

Wenn Sie eine Studie mit dem WIT-2 durchgeführt haben, besteht die Möglichkeit, im Rahmen dieser Website unter der Rubrik Aktuelles auf die Studienergebnisse aufmerksam zu machen. Des Weiteren können Sie uns, wenn Sie Daten mit dem WIT-2 erhoben haben, die Sie für die Testpflege und Normierung zur Verfügung stellen wollen, eine E-Mail senden.

In dieser Rubrik berichten wir über Studien und Projekte, von denen wir erst nach der Publikation des WIT-2 erfahren haben und die aus diesem Grunde nicht in den Verfahrenshinweisen zum WIT-2 berücksichtigt sind. Ein grundsätzliches Problem im Testbereich besteht darin, dass die Verfahrenshinweise oft über viele Jahre aus verlagsseitigen Gründen (da die aktuelle Auflage nicht ausverkauft ist) nicht aktualisiert werden, so dass Anwender über aktuelle Entwicklungen nicht informiert sind. Hier schafft die vorliegende Website für den WIT-2 Abhilfe. Darüber hinaus wird auf dieser Website auf Rezensionen zum WIT-2 hingewiesen. Falls notwendig würde an dieser Stelle außerdem darüber informiert, dass bestimmte Verfahrensanwendungen nicht mehr gerechtfertigt sind.

Wenn Sie eine Studie mit dem WIT-2 durchgeführt haben, können wir über diese Website auf die Studienergebnisse aufmerksam machen. Gerne stellen wir auch Ihre konkreten Praxisprojekte vor, in denen der WIT-2 eine bedeutsame Rolle spielt. Wenn Sie Daten mit dem WIT-2 erhoben haben, die Sie für die Testpflege und Normierung zur Verfügung stellen wollen, oder im Zusammenhang mit den vorher genannten Aspekten mit uns Kontakt aufnehmen wollen, senden Sie uns eine Email.

Rezensionen zum WIT-2

Diagnostikkommission des Schweizerisches Dienstleistungszentrum Berufsbildung | Berufs-, Studien- und Laufbahnberatung (2010). Label zu: Kersting, M., Althoff, K. & Jäger, A.O. (2008). WIT-2. Wilde-Intelligenz-Test 2. Siehe: http://www.test.sdbb.ch/diagnostik.aspx (pdf)
Koch, H. (2008). WIT-2 – Testbesprechung. Zeitschrift für Entwicklungspsychologie und Püdagogische Psychologie, 40, 208-212. (pdf)
Kreuzpointner, L. (2009). WIT-2 – Wilde-Intelligenz-Test 2 (PSYNDEX Tests Review). In Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) (Hrsg.), PSYNDEX (Online-Datenbanksegment PSYNDEX Tests Dok.-Nr. 9005617). Trier: ZPID. (Online im Internet: hier klicken; Stand: 14.2.2014) (ZPID). (pdf)

Aktuelle Studien

Kluge, A., Frank, B., Maafi, S. & Kuzmanovska, A. (2015). Does skill retention benefit from retentivity and symbolic rehearsal? – two studies with a simulated process control task. Ergonomics, 59, 641–656.

Ist Merkfähigkeit ein Prädiktor für den Fähigkeitserhalt (skill retention)? Dieser Frage gingen Kluge, Frank, Maafi und Kuzmanovska (2015) in ihrer Studie nach, und nutzten dabei sowohl den I-S-T 2000 R als auch den WIT-2 zur Messung der Merkfähigkeit. Sie führten zwei Experimente mit deutschen Ingenieurstudierenden (N = 44; N = 43) durch, die am Computer eine Prozess-Kontroll-Aufgabe bearbeiteten. Die Teilnehmer(innen) sollten in einem simulierten Wasserwerk Abwasser in Frischwasser und Lösungsmittel spalten. Dazu erhielten die Teilnehmer(innen) in Woche 1 ein Training. In Woche 2 praktizierte die Experimentalgruppe symbolisches Wiederholen, während die Kontrollgruppe an keiner Auffrischungsübung teilnahm. Symbolisches Wiederholen kann als eine imaginäre Ausübung einer Aufgabe definiert werden, bei der eine Person diese visualisiert, notiert oder malt, ohne die Aufgabe tatsächlich durchzuführen. In Woche 3 wurde gemessen, wie gut die Teilnehmer(innen) die Aufgabe aus Woche 1 noch lösen konnten. Der Unterschied der beiden Experimente lag darin, dass das symbolische Wiederholen im zweiten Experiment über einen Computer stattfand. Insgesamt nahmen die Autor(innen)en an, dass Merkfähigkeit hoch mit Fähigkeitserhalt korreliert, und dass es einen Interaktionseffekt zwischen Merkfähigkeit und symbolischem Wiederholen hinsichtlich des Einflusses auf den Fähigkeitserhalt gibt. Die Ergebnisse zeigen, dass die Merkfähigkeit in beiden Experimenten eine mittlere bis hohe Korrelation mit dem Fähigkeitserhalt aufweist, und dass Personen mit einer hohen Ausprägung an Merkfähigkeit eher von symbolischem Wiederholen profitieren. Im ersten Experiment betrug der Zusammenhang zwischen der mit dem WIT-2 gemessenen Merkfähigkeit und einem Indikator für den Fähigkeitserhalt .63, während der entsprechende Zusammenhang zur mit dem I-S-T 2000 R gemessenen Merkfähigkeit nur .46 betrug. Die I-S-T Merkfähigkeitsaufgaben wurden in der zweiten Studie nicht mehr eingesetzt. Über beide Studien hinweg betrachtet, korrelierte der WIT-2 Merkfähigkeitstest substantiell (.37) mit der allgemeinen Intelligenz (gemessen über den Wonderlic Test) sowie mit einem Wissenstest (.46).
Matthäi, J. (2014). Untersuchung geeigneter diagnostischer Testverfahren zur Vorhersage der Orientierungs- und Mobilitätsfähigkeit blinder Personen. Unveröffentlichte Masterthesis. Gießen: Justus-Liebig-Universität Gießen.

Mit welchen diagnostischen Verfahren kann man Unterschiede in der Orientierungs- und Mobilitätsfähigkeit blinder Personen messen? Ist es möglich, die spätere Leistung blinder Personen im Orientierungs- und Mobilitätstraining einzuschätzen, um langfristig die Trainingseffektivität zu steigern? Im Rahmen einer empirischen Studie wurden 24 geburts- und späterblindete Personen (Durchschnittsalter 24 Jahre, 13 Frauen und 11 Männer) an zwei Erhebungsterminen getestet. Räumliches Vorstellungsvermögen wurde zum einen mit dem Subtest „Spiegelbilder“ (WIT-2), zum anderen mit dem Subtest „Mosaiklegen“ (ITVIC) eingeschätzt. Zusätzlich wurde die verbale Arbeitsgedächtniskapazität mit drei Subtests aus dem WIE und die räumlich-taktile Arbeitsgedächtniskapazität mit dem Corsi-Block-Test erfasst. Das allgemeine Intelligenzniveau wurde als Kontrollvariable berücksichtigt. Die Orientierungs- und Mobilitätsfähigkeit wurde mit jeweils zwei Fragebögen, in Form von Selbstbeurteilung und Fremdbeurteilung durch die Rehabilitationslehrer/-innen, erhoben. Lediglich der Subtest „Spiegelbilder“ aus dem WIT-2 erwies sich als solider Prädiktor der Orientierungs- und Mobilitätsfähigkeit. Lineare Regressionen konnten einen starken Zusammenhang zwischen der Leistung im Subtest „Spiegelbilder“ und der Fremdbeurteilung dieser Orientierungs- und Mobilitätsfähigkeit auf Individualebene zeigen. Der erwartete Zusammenhang der Leistung im Subtest „Mosaiklegen“ mit der Selbst- und Fremdbeurteilung der Orientierungs- und Mobilitätsfähigkeit blieb dagegen aus. Auch der postulierte Zusammenhang der räumlich-taktilen bzw. verbalen Arbeitsgedächtniskapazität mit der Orientierungs- und Mobilitätsfähigkeit konnte nicht bestätigt werden. Zusammengefasst sprechen die Ergebnisse der Untersuchung dafür, dass der Subtest „Spiegelbilder“ aus dem WIT-2 als diagnostisches Instrument eingesetzt werden kann, um die Orientierungs- und Mobilitätsfähigkeit blinder Personen vorherzusagen.

*Die taktile Version der WIT-Aufgabe „Spiegelbilder“*

Jablonowsky, M. (2012). Die Auswirkung einer achtminütigen Achtsamkeitsübung auf die Arbeitseffizienz, den Affekt und Aufgabenbezogene Gedanken. Unveröffentlichte Diplomarbeit. Greifswald, Universität Greifswald.

Maik Jablonowsky nutzte den AET um die Auswirkungen einer Achtsamkeitsübung auf die Arbeitseffizienz zu prüfen. Die Stichprobe bestand aus 72. Zur Prüfung der Hypothesen wurde ein Laborexperiment mit einem Kontrollgruppendesign durchgeführt. Die Teilnehmer einer Achtsamkeitsgruppe erhielten eine achtminütige Achtsamkeitsübung und die Teilnehmer einer Kontrollgruppe hörten eine Entspannungsmusik von gleicher Dauer. Im Anschluss bearbeiteten die Probanden eine Leistungsaufgabe E-Mails Bearbeiten aus dem Wilde-Intelligenz-Test 2 (Kersting et al., 2008), die eine Büroroutinetätigkeit simuliert. Danach wurden der Affekt mit Hilfe der deutschen Version des Positive and Negative Affect Schedule (Grühn et al., 2010) und die Aufgabenbezogenen Gedanken durch eine selbst-entwickelte Skala erfasst. Zusätzlich erfolgte die Erhebung mehrerer potenzieller Stör- und Kovariablen, wie z.B. die Abfrage der Meditationserfahrungen und der Trait-Achtsamkeit durch die deutsche Version des Kentucky Inventory of Mindfulness Skills (Ströhle et al., 2010). Ergebnisse: Die Achtsamkeitsübung erhöhte die Arbeitseffizienz im Vergleich zu der Entspannungsmusik geringfügig (d = 0.19, p > .05). Es zeigte sich, dass die Achtsamkeits-induktion leistungsmindernde Auswirkungen von „Störenden Gedanken“ während der Bearbeitung einer Leistungsaufgabe abpuffern kann. Hinsichtlich des Affektes stellte sich durch die Übung eine signifikante Herabsetzung des negativen Affektes bei einer mittleren Effektgröße (d = 0.50, p < .05) ein. Die Trait-Achtsamkeit wurde als Moderatorvariable identifiziert. Danach profitieren vor allem Personen mit geringer Trait-Achtsamkeit von der Übung. Die Skala Aufgabenbezogene Gedanken erreichte keine akzeptable psychometrische Güte und musste aus der Hypothesentestung ausgeschlossen werden. Stattdessen wurden die drei der Skala zugehörigen Items auf Effekte der Achtsamkeitsinduktion überprüft. Es ergaben sich keine signifikanten Mittelwertunterschiede.
Krumm, S., Hüffmeier, J., Dietz, F., Findeisen, A., & Dries, C. (2011). Towards Positive Test Takes‘ Reactions to Kognitive Ability Assessments: Development and Initial Valvation of the Reasoning Ability at Work Test. Journal of Business and Media Psychology, 2, 11-18. (pdf)

Krumm, Hüffmeier, Dietz, Findeisen und Dries (2011) entwickelten einen Intelligenztest mit einer attraktiven Oberfläche, in dem die Aufgaben des Tests konkret in den Arbeitskontext eingebettet waren (Reasoning Ability at Work Test, RAWT). Zur Untersuchung der Augenscheinvalidität wurde der neue Test (RAWT) gemeinsam mit dem WIT-2 Modul schlussfolgerndes Denken bei einer Gruppe von 89 Personen eingesetzt. Zur Erfassung der sozialen Validität wurde der Akzept-Fragebogen verwendet (weitere Informationen: hier). Auf einer Skala von „1“ (keine / geringe Akzeptanz) bis „6“ (hohe Akzeptanz) wurde dem WIT-2 Modul schlussfolgerndes Denken in allen vier eingesetzten Skalen (Messqualität, Augenscheinvalidität, Kontrollierbarkeit und Belastungsfreiheit) mit Werten von 3,9; 3,2; 5,5 und 4.1 eine hohe Akzeptanz zugesprochen. Die Autoren hatten ihrer Studie die These zugrunde gelegt, dass ihr neuer Test RAWT (mit einer attraktiven / semantisch konzeptualisierten Oberfläche) eine höhere Akzeptanz finden würde als der WIT-2. Diese Hypothese ließ sich nicht bestätigen, im Gegenteil blieben die Akzeptanzwerte des neuen Verfahrens mit 3,5; 3,2, 4,7 und 3,6 in allen Dimensionen nominell hinter den Akzeptanzwerten des WIT-2 zurück.
Cronbach’s alpha für das WIT-2 Modul schlussfolgerndes Denken betrug in dieser Studie .81. Das Kriterium Mathematiknote konnte durch das WIT-2 Modul zu r=.32 vorhergesagt werden.
Markert, C. (2011). Einfluss der Orientierungsfähigkeit geburtsblinder Personen auf die Nutzung von Raumrepräsentationen für Wahrnehmung und Handlung (Unveröffentlichte Diplomarbeit). Philipps-Universität, Marburg.

Geburtsblinde Menschen nehmen ihre räumliche Umgebung durch andere Reize (z. B. taktile statt visuelle Information) wahr als sehende Personen und auch ihre Handlungen können unterschiedlich sein. Um sich aberdennoch in einer dreidimensionalen Welt zurechtzufinden, wird eine sogenannte mentale Repräsentation erstellt, vorstellbar als ein internes, virtuelles Abbild der Umgebung. In einer Diplomarbeit von Markert (2011) wurde untersucht, wie sich Orientierungsfähigkeit im Allgemeinen auf die Nutzung dieser inneren Abbildung für die Wahrnehmung und Handlung bei geburtsblinden Menschen auswirkt.Als Maß für die Orientierungsfähigkeit wurde neben Selbst- und Fremdbeurteilungsbögen auchder WIT Subtest „Spiegelbilder“ herangezogen, da dieser die Fähigkeit zur Vorstellung räumlicher Relationen erfassen soll (Kersting, Althoff & Jäger, 2008). Speziell für blinde Personen wurde eine taktile Form dieses Subtestes entwickelt (Fabian, Wagner, Prinz-Hirth & Röder, 2002). In einer Semesterarbeit (Fabian et al., 2002) wurden die visuelle und taktile Form in einer Stichprobe von Sehenden und Blinden miteinander verglichen. Es traten weder Gruppenunterschiede auf, noch machte es für die Sehenden einen Unterschied, welche Form des Subtests sie zuerst bearbeiteten. Dies legt eine Gleichwertigkeit in der Anwendung beider Versionen nahe. Um den „Spiegelbilder“-Testwert in einer Stichprobe von 20 Geburtsblinden zuuntersuchen, wurden in der Arbeit von Markert (2011) die verwendeten Maße für die Orientierungsfähigkeit miteinander korreliert. Dabei gab es den stärksten Zusammenhang zwischen dem Gesamtwert der Fremdeinschätzungsbögen mit dem WIT-Testwert (r=.54, p<.05),d.h. mit dem WIT-Subtest Spiegelbilder konnte die Fremdeinschätzung der Orientierungsfähigkeit am besten vorhergesagt werden. Anhand der Variabilität in der Orientierungsfähigkeit wurden mittels der WIT Subtest-Werte der einzelnen Probanden verschiedene Gruppen gebildet: Einteilung nach dem Mediansplit und nach Extremgruppen (0,5 SD über bzw. unter dem Gruppenmittelwert) der WIT-Werte in „high-WIT“ (gute Orientierer) und „low_WIT“ (schlechte Orientierer). Es konnten für gute Orientierer präzisere Zeigebewegungen und geringere Fehler in der Bewegungsamplitude in einer Small Scale Aufgabe verzeichnet werden. Eine Kovarianz-Analyse ergab zudem, dass mit zunehmender Orientierungsfähigkeit die Abweichungen vom Zielpunkt in der Bewegungsrichtung geringer werden. In einer anschließenden Untersuchung derselben Stichprobe (Fiehler, 2012) erwies sich im Small Scale der WIT als bestes Trennmaß für die Unterscheidung von guten und schlechten Orientierern.
(Abstract erstellt von Frau C. Trillmich)

Schröder, P. (2011). Kriterienbezogene Evaluation des Reha-Assessments des Berufsförderungswerk Oberhausen. Diplomarbeit. Düsseldorf: Heinrich Heine Universität Düsseldorf.

Schröder (2011) prüfte mit seiner Diplomarbeit die Aussagekraft des WIT-2 im Rahmen des Reha-Assessments des Berufsförderungswerks Oberhausen. Als Kriterien lagen die Abschlussnote der Umschulung (N = 36) sowie der Erfolg in der beruflichen Qualifizierungsmaßnahme (bestanden vs. nicht-bestanden) vor (N = 71) vor.
Die eingesetzten WIT-2 Module korrelieren zwischen r= .31 und .71 substantiell mit dem ebenfalls eingesetzten Figure Reasoning Test (FRT) (N=1921).
Anhand der Kriterien konnte die Validität des WIT-2 aufgezeigt werden. Das Modul sprachliches Denken korreliert zu r=.39 mit der Abschlussnote (N=36). (Während der FRT nur in Höhe von r=.22 mit dieser Abschlussnote korreliert). Auch bezogen auf das Kriterium „Bestehen der Qualifizierungsmaßnahme“ ist der Zusammenhang des FRT (r=.09) mit dem Kriterium nominell kleiner als der entsprechende Zusammenhang aller genutzten Module des Wilde-Intelligenz-Test 2. (Beispiel: Der Zusammenhang zwischen WIT-2 sprachliches Denken und dem Kriterium „Bestehen der Qualifizierungsmaßnahme“ betrug r=.38).
Hartweg, V. (2010). Mechanisch-technisches Verständnis als Konstrukt in der testbasierten Studienberatung. Dissertation. Aachen: Rheinisch-Westfälische Technischen Hochschule Aachen. (pdf)

Hartweg (2010) entwickelte und validierte im Rahmen ihrer Dissertation einen Test zum mechanisch-technisches Verständnis (MeTeV), der als Self-Assessment für Studieninteressierte für technische Studiengänge genutzt wird. Zur Konstruktvalidierung des neu entwickelten Verfahrens nutzte sie u. a. die WIT-2 Module schlussfolgerndes und räumliches Denken sowie den Mannheimer Test zur Erfassung des physikalisch-technischen Problemlösers (MTP, Conrad, Baumann & Mohr, 1980). In einer Studie mit 289 Personen betrug die unkorrigierte Korrelation zwischen dem neuen Test MeTeV und dem WIT-Modul Schlussfolgerndes Denken r=0.46, sodass die Autorin von einem großen Effekt spricht. Der Zusammenhang des MeTeV zum visuell-räumlichen Bereich (WIT-Abwicklungen) war mit r=0,51 am engsten.
Die Verbindung zwischen den WIT-2 Abwicklungen und dem neuen Test MeTeV konnte auch in einer zweiten Studie mit N=112 mit r=.56 bestätigt werden (konvergente Validität). In dieser Studie wurde zur diskriminanten Validierung auch der WIT-2 Subtest Spiegelbilder eingesetzt, erwartungsgemäß fiel der Zusammenhang zwischen dem MeTeV und den Spiegelbildern mit r=0,16 deutlich niedriger und nicht signifikant aus. In gleicher Richtung fiel der Zusammenhang zwischen den beiden WIT-2 Subtests und dem MTP aus: Ein substantieller Zusammenhang in Höhe von r=.43 zwischen MTP und den Abwicklungen einerseits und kein Zusammenhang (r=.07) zwischen MTP und den Spiegelbildern andererseits.
Anhand der zuerst genannten Studie mit 289 Personen überprüfte Frau Hartweg auch die Akzeptanz der Testaufgaben. Dazu wurde der Akzept-Fragebogen verwendet (weitere Informationen: hier). Auf einer Skala von „1“ (keine / geringe Akzeptanz) bis „6“ (hohe Akzeptanz) fand der WIT-2 Subtest Abwicklungen in allen drei eingesetzten Akzeptanz-Skalen (Messqualität, Augenscheinvalidität und Belastungsfreiheit) mit Werten von 3,5; 3,6 und 4.0 eine positive Resonanz bei den getesteten Personen.
Lang, J. W. B, Kersting, M. & Hülsheger, U. R.. (2010). Range shrinkage of cognitive ability test scores in applicant pools for german governmental jobs: Implications for range restriction corrections. International Journal of Selection and Assessment., 18, 321-328. (pdf)

Studie zu Varianzeinschränkungen in der Personalauswahl auf Basis der WIT-2 Test Ähnliche Wortbedeutungen und Analogien:
Range restriction corrections require the predictor standard deviation in the applicant pool of interest. Unfortunately, this information is frequently not available in applied contexts. The common strategy in this type of situations is to use national-norm standard deviation estimates. This study used data from 8,276 applicants applying to nine jobs in German governmental organizations to compare applicant pool standard deviations for two cognitive ability tests with national-norm standard deviation estimates, and standard deviations for the total group of governmental applicants. We examined data for two cognitive ability tests. Both tests are part of the WIT-2 battery, which is a frequently used German ability-test battery (Kersting, Althoff, & Jäger, 2008). The first test used in the present study was a verbal analogy test consisting of 20 verbal analogies. Analogy tests of this type are frequently used in personnel selection and have been considered to be particularly effective as cognitive ability measures in personnel selection and educational assessment because they are relatively pure measures of general mental ability (Kuncel, Hezlett, & Ones, 2004). The second test used in the study was a vocabulary test containing 20 multiple-choice items. In this test, applicants read a word and must selec a word that most closely matches it.
Results revealed that job- and organizational context-specific applicant pool standard deviations were on average about 10–12% smaller than estimates from national norms, and about 4–6% smaller than standard deviations for the total group of governmental applicants.
Lang, J. W. B, Kersting, M., Hülsheger, U. R. & Lang, J. (2010). General mental ability, narrower cognitive abilities, and job performance: The perspective of the nested-factors model of cognitive abilities. Personnel Psychology, 63, 595-640. (pdf)

Von besonderer Bedeutung für den Nachweis der Kriteriumsvalidität des Wilde-Intelligenztest ist eine Studie von Lang, Kersting, Hülsheger und Lang (2010), da es sich nicht um Daten aus einer Einzelstudie, sondern um eine metaanalytische Integration der Daten von mehreren Tausend Personen aus insgesamt 54 Einzelstudien zur Kriteriumsvalidität handelt. Dabei wurden 30 verschiedene Jobs aus neun verschiedenen Job-Kategorien berücksichtigt. Da die Studien aus mehreren Jahrzehnten zusammengetragen wurden, handelt es sich um Daten zum WIT-1 Test. Die Erkenntnisse können allerdings grundsätzlich auf den WIT-2 übertragen werden, da WIT-1 und WIT-2 zum Teil typgleiche Aufgaben nutzen (die WIT-2 Aufgaben stellen zum Teil Überarbeitungen der WIT-1 Aufgaben dar) und da die gleichen Intelligenzdimensionen (entsprechend des Thurstone Modells) erfasst werden. Da die technische Qualität der WIT-2 Subtests deutlich höher ist als die der WIT-1 Subtests, ist allerdings davon auszugehen, dass der WIT-2 die in der Studie von Lang et al. (2010) berichteten Kriteriumsvaliditäten des WIT-1 noch übertrifft. Die in der Studie von Lang et al. (2010) ermittelten Kriteriumsvaliditäten des Wilde Test für die Intelligenzdimensionen nach Thurstone sowie die allgemeine Intelligenz lagen im Bereich .21 bis .44.

Die Studie zielte vor allem darauf ab einen Beitrag zu der theoretisch wie praktisch bedeutsamen Frage nach der relativen Bedeutung genereller und spezifischer Intelligenzfaktoren zu leisten. Bisherige Untersuchungen der so genannten spezifischen Fähigkeitstheorie haben in der Regel kaum Belege für die Validität spezifischer Intelligenzfaktoren finden können („Not much more than g“, Ree et al., 1994, p. 518). Die Studie von Lang et al. (2010) zeigt, dass dieses Ergebnis nicht methodeninvariant ist, die Antwort auf die Frage also von der jeweils eingesetzten Methode abhängt. Nimmt man eine herkömmliche Analyse der inkrementellen Validität mit dem Generalfaktor (g-Faktor) als erstem Prädiktor vor, so erklärt der Generalfaktor rund 83 Prozent der aufgeklärten Varianz – die Analyse würde die bisherige g-zentrische Auffassung stärken. Wendet man hingegen – wie für die spezifische Fähigkeitstheorie erstmals bei Lang et al. (2010) – die Relative-importance-Analyse an, so ist der Generalfaktor nicht einmal mehr der beste Einzelprädiktor, d.h. es zeigt sich keine Überlegenheit des g-Faktors, sondern eine hohe Bedeutsamkeit der spezifischen Faktoren.

Für weitere Analysen wurde der Datensatz in Berufe mit geringer und mit hoher Komplexität aufgeteilt, dabei zeigte sich nicht nur (wie bereits in anderen Studien), dass Intelligenz insbesondere für komplexe Berufe ein wichtiger Prädiktor ist, sondern auch, dass die spezifischen Fähigkeiten gerade bei Berufen mit geringer Komplexität – die durch Intelligenz weniger gut vorhersagbar sind – deutlich gegenüber dem g-Faktor an Bedeutung gewinnen.
Schulmann, C., Witsch, E., Klein, S., Arling, V. & Spijkers, W. (2010a). Praxis des RehaAssessments aus psychologischer Sicht. In: Deutsche Rentenversicherung (Hrsg.), 19. Rehabilitationswissenschaftliches Kolloquium. DRV-Schriften, Band 88, S. 290-291.

Nach einer Befragung von Schulmann, Witsch, Klein, Arling und Spijkers (2010) stand der Wilde Test (WIT) im Jahre 2009 auf Platz 3 der am häufigsten eingesetzten Intelligenztests bei den 17 befragten Berufsförderungswerken (Platz 1: IST, Platz 2: FRT). Die befragten Personen sollten zusätzlich zur Beantwortung der Frage nach der Einsatzhäufigkeit auch die Eignung des Tests anhand der Schulnotenskala beurteilen. Die besten Noten erhielt der IST-2000-R (1,9) und der Wilde Test (2,0) sowie Ravels Standard Progressive Matrices (2,0) gefolgt vom Figure Reasoning Test (2,3) und dem Intelligenz-Struktur-Test-2000 (2,3). Bezüglich des Wilde Tests wurde in der Befragung nicht zwischen den beiden verschiedenen Versionen des Wilde Tests unterschieden. Da der WIT-2 erst 2008 publiziert wurde, die Erhebung aber aus 2009 datiert, ist es möglich, dass in den berichteten Wert sowohl Werte für den WIT-1 als auch für den WIT-2 eingehen. Aktuelle Testversionen sind aber in der Regel deutlich besser geeignet, dies zeigt sich am IST, für den die Daten pro Version separiert erhoben wurden. Während die Eignung des IST-2000-R mit 1,9 beurteilt wurde, kommt die Vorgänger Version IST-2000 auf den Wert 2,3 und der IST-70 (der hinsichtlich der Aktualität mit dem „alten“ WIT-1 vergleichbar ist) auf eine Schunote von 3,3.

Rückmeldung

Für Hinweise auf weitere Rezensionen zum WIT-2 sowie für jede Art von Tipps zur Verbesserung des WIT-2 sind wir sehr dankbar. Bitte wenden Sie sich damit einfach via Email an Martin Kersting

Der WIT-2 dient der differenzierten Erfassung kognitiver Fähigkeiten von Jugendlichen und Erwachsenen. Dabei können die folgenden Fähigkeiten und Kenntnisse unterschieden werden:

Schlussfolgerndes Denken
Sprachliches Denken
Rechnerisches Denken
Räumliches Denken
Merkfähigkeit
Arbeitseffizienz
Wissen Wirtschaft
Wissen Informationstechnologie

Bei der Konstruktion der Aufgaben wurde darauf geachtet, dass neben mittelschweren Items auch eine ausreichende Anzahl sowohl leichter als auch schwerer Items vorhanden ist, so dass der Test innerhalb von Gruppen leistungsschwacher und leistungsstarker Personen differenziert.

Die Testergebnisse ermöglichen eine treffsichere Vorhersage des Erfolgs in Schule, Ausbildung, Studium, Beruf und beruflicher Weiterbildung. Damit empfiehlt der WIT-2 sich u.a. für die Berufs- und Studienberatung, die Neuropsychologie sowie für die klinische und pädagogische Diagnostik. Das Haupteinsatzgebiet des WIT-2 ist die Personalauswahl und die Personalentwicklung.

Der WIT-2 zeichnet sich durch seine Anforderungsorientierung aus. Bei der Bildung des Testgesamtwertes wird den Anwendern eine Methode zur Verfügung gestellt, mit der sie die anforderungsanalytische Bedeutung der einzelnen Dimensionen für den diagnostisch in Frage stehenden Ausbildungs- und / oder Berufserfolg durch eine entsprechende Gewichtung berücksichtigen können. Auf diese Art und Weise kann die Testauswertung auf den jeweiligen Anwendungsfall hin maßgeschneidert werden.
Der WIT-2 ermöglicht eine flexible und zeitökonomische Testgestaltung durch ein Baukastensystem mit acht Modulen. Beispielsweise kann in weniger als 35 Minuten (zuzüglich der Zeit für die allgemeine Einführung) ein sehr solider Indikator für die bedeutsame Fähigkeit des schlussfolgernden Denkens gewonnen werden (Modul 4).
Neben klassischen Denkaufgaben, die sich seit vielen Jahrzehnten bewährt haben und nun in eine zeitgemäße Semantik gebracht wurden, umfasst der WIT-2 auch innovative Aufgabentypen wie zum Beispiel eine Arbeitsprobe / einen Trainierbarkeitstest. Durch die Simulation einer Routinetätigkeit werden typische Anforderungen von Büroberufen (Ordnen, Sortieren, Vergleichen und Kontrollieren) in Form einer Arbeitsprobe nachgestellt, um die Arbeitseffizienz zu erfassen. Die Testteilnehmer(innen) müssen, vergleichbar mit Mitarbeiter(inne)n im Büro, einfache Regeln lernen und effizient anwenden.
Die Bandbreite der 11 Aufgaben ermöglicht eine situationsübergreifende Messung unterschiedlicher intellektueller Fähigkeiten und bietet den Testteilnehmern AbwechslungsÂreichtum. Der Test fokussiert nicht so sehr das abstrakte Denkvermögen, sondern berufliche Schlüsselqualifikationen und Grundfertigkeiten.
Der WIT-2 integriert zwei Kenntnistests (zu den Wissensdomänen Wirtschaft und Informationstechnologie)
Während andere Tests die unmittelbare Behaltensleistung erfassen, zielt der WIT-2 auf die Diagnose der Merkfähigkeit. Die zu merkenden Informationen werden daher nicht unmittelbar nach dem Einprägen abgefragt, sondern nach der Einprägephase wird zunächst eine andere (Stör-)Aufgabe bearbeitet.
Insgesamt wurden einzelne Aufgaben des WIT-2 zur Normierung bei annähernd 42.000 Personen eingesetzt. Der überwiegende Teil der Daten für den WIT-2 wurde im Kontext des Ernstfalls von beruflichen Bewerbungssituationen erhoben (und nicht anhand anonymer Gruppen von Schülern oder Studierenden).
Die Reliabilität des WIT-2 wurde nicht nur über die interne Konsistenz, sondern – wie von der DIN 33430 vorgeschrieben – auch über die Retest-Reliabilität bestimmt.
Durch die Bestimmung der Zusammenhänge zwischen Aufgaben des WIT-2 einerseits und Aufgaben aus 17 anderen Testverfahren andererseits wurde die konvergente und diskriminante Validität empirisch ermittelt. Dadurch ist der WIT-2 eindeutig im nomologischen Netz von Fähigkeiten und Persönlichkeitsmerkmalen verordnet, so dass er im Rahmen der Forschung als Referenzinstrument für die Intelligenz verwendet wird.
Neben aktuellen Studien zur Kriteriumsvalidität wurden die Daten zur Kriteriumsvalidität der typgleichen Aufgaben aus dem bisherigen WIT metaanalytisch zusammengefasst. Für jede Aufgabe aus dem „alten“ WIT, die auch im WIT-2 enthalten ist, liegen Daten zur Kriteriumsvalidität (Ausbildungs- und Berufserfolg) aus 12 bis 21 Studien im Umfang von 1.009 bis 1.781 Personen vor (Gesamt N = 9639). U.a. aufgrund der umfassenden Validierung empfiehlt sich der Test für den Einsatz in der Praxis.
Der WIT-2 ist ein Test aus der Praxis für die Praxis. Die fehlerfreie und komfortable Instruktion wird beispielsweise durch ein separates Instruktionsheft gewährleistet. Andere Beispiele für die Anwendungsorientierung des WIT-2 sind die Informationsbroschüre für die Testteilnehmer(innen) und die anforderungsanalytisch gewichtete Gesamtwertbildung. Die Verfahrenshinweise zum WIT-2 orientieren sich explizit an den Anforderungen der DIN 33430. Der WIT-2 erfreut sich bei den Testteilnehmer(inne)n nachweislich einer hohen Akzeptanz.

Der WIT-2 stellt eine Weiterentwicklung und Aktualisierung des „alten“ WIT dar, den wir zur Unterscheidbarkeit als „WIT-1“ bezeichnen. In letzter Zeit hatten sich beim Testeinsatz des „alten“ WIT (WIT-1) Probleme ergeben, die in den Verfahrenshinweisen zum WIT-2 sowie in der folgenden Publikation beschrieben sind:

Kersting, M. (2007). Wenn Tests in die Jahre kommen. Probleme des Einsatzes überalterter Testverfahren. In C. Lorei (Hrsg.), Polizei und Psychologie (S. 565-577). Frankfurt: Verlag für Polizeiwissenschaft. (pdf)

*Die WIT-2 Autoren: Martin Kersting und Klaus Althoff*

Insgesamt erwies sich der „alte“ WIT sowohl als revisions-bedürftig, als auch als revisionswürdig. Wir haben den WIT nicht neu erfunden, wir haben ihn perfektioniert. Die Modifikation vom WIT-1 zum WIT-2 erfolgte nach dem Prinzip: So wenig wie möglich, so viel wie nötig. So basiert der WIT-2 in Teilen noch auf dem Aufgabenmaterial des WIT-1 und nutzt weiterhin die besten Subtests und aus diesen die besten Items. Gleichzeitig verfügt er aber – neben dem aktuellen Testkonzept (siehe Intelligenzmodell) – auch über vollkommen neues Aufgabenmaterial. Der neue WIT-2 verzichtet aus verschiedenen Gründen auf eine Operationalisierung der Dimensionen Wortflüssigkeit einerseits sowie Wahrnehmungsgeschwindigkeit / -genauigkeit anderseits. Anstelle der Wahrnehmungsgeschwindigkeit / -genauigkeit wird in der neuen Version des WIT (WIT-2) die Arbeitseffizienz erfasst.

Die mit dem „alten“ WIT-1 verfolgte Idee, Merkfähigkeit und Gedächtnis als separate Fähigkeiten zu operationalisieren, hat sich nicht bewährt und wurde aufgegeben. Im neuen WIT-2 gibt es nur noch eine Dimension mit der Bezeichnung Merkfähigkeit. Unter den Gesichtspunkten der Konstrukt- und Kriteriumsvalidität sowie der sozialen Akzeptanz wurden darüber hinaus die Subtests Buchstabenreihen (BR), Schätzen (SCH) und Sprichwörter (SW) eliminiert. Für die Dimensionen sprachgebundenes Denken, räumliches Vorstellen und formallogisches Denken werden geringfügig veränderte Bezeichnungen eingeführt (siehe Testaufbau/ -dauer).

Die folgenden Subtests aus dem WIT-1 sind folglich im WIT-2 nicht mehr enthalten:

Beobachtung (BO)
Buchstabenreihen (BR)
Gedächtnis (GDT)
Schätzen (SCH)
Sprichwörter (SW)
Wortgewandtheit (WG)
Zahlenmerken (ZM)

Die verbleibenden sieben Subtests des WIT-1 wurden nach umfassenden Itemanalysen auf der Basis aktueller Daten in teilweise deutlich modifizierter Form in den WIT-2 übernommen. Da der WIT-1 über zwei Testformen verfügte, standen pro Subtest doppelt so viele Items zur Verfügung, als für die Erstellung einer neuen Form notwendig waren. So konnte für den WIT-2 eine Auswahl der jeweils besten 20 der ursprünglich jeweils 40 Items pro Subtest getroffen werden. Dabei erfolgte die Itemauswahl unter psychometrischen und theoretischen Gesichtspunkten. Bei allen Modifikationen wurde darauf geachtet, möglichst zeitloses Itemmaterial zu nutzen (z. B. sieht der Merkfähigkeitstest keine Fotos vor, sondern abstrakte Zeichnungen; bei den eingekleideten Rechenaufgaben gibt es keine semantische Einkleidung, die etwas über Stundenlöhne und Preise aussagt usw.). Zusätzlich zu den sieben (teilweise deutlich modifizierten) Subtests aus dem WIT-1 wurden vier Subtests komplett neu entwickelt:

E-Mails Bearbeiten (EM)
Merkfähigkeit (MF)
Wissen IT (WI)
Wissen Wirtschaft (WW)

Der neue WIT-2 umfasst somit sieben Subtests, die nach sorgfältiger Auswahl und / oder gründlicher Überarbeitung und Modernisierung aus dem alten WIT-1 übernommen wurden sowie vier komplett neu entwickelte Subtests. Insgesamt umfasst der neue WIT-2 somit 11 Subtests mit insgesamt 243 Items.

Für alle Analysen und Normierungen wurden aktuelle („neue“) Daten erhoben, alle Analysen und Normierungen wurden vollständig neu berechnet.

Der WIT-1 orientierte sich an Thurstones Modell der Primary Mental Abilities (PMA), wonach sich intellektuelle Leistungen im Wesentlichen auf sieben Primärfähigkeiten zurückführen lassen:

R Reasoning: Schlussfolgerndes Denken
S Space: Räumliches Denken
N Number: Rechnerisches Denken / Beherrschung von (relativ einfachen) Rechenoperationen
V Verbal Comprehension: Sprachliches Denken
M Memory: Merkfähigkeit (kurzfristiges Behalten relativ einfacher Sachverhalte)
W Word Fluency: Flüssigkeit sprachlicher Einfälle
P Perceptual Speed: Rasches Erkennen von Details

Die Intelligenztheorien sowie das Methodenarsenal haben sich in den letzten Jahrzehnten weiterentwickelt. Man würde nicht nur gegen den Stand der Wissenschaft, sondern auch gegen den innovationsfreudigen Geist Thurstones handeln, wenn man ungeachtet der theoretischen und methodischen Fortschritte sein über 80 Jahre altes Modell heute unverändert beibehalten würde. Dem WIT-2 liegt als theoretische Grundlage ein modernisiertes und erweitertes Thurstone-Modell zugrunde, welches als „Modifiziertes Modell der Primary Mental Abilities“ (MMPMA) bezeichnet wird. Ergänzt wurde das ursprüngliche Modell um Annahmen, die sich in der Intelligenzforschung der letzten Jahrzehnte im Allgemeinen oder in Bezug auf das Thurstone-Modell im Besonderen bewährt haben: (1) Facettenansatz, (2) Hierarchie-Annahme und (3) Kognitive Korrelate Ansatz.

(1) Facettenansatz

Im MMPMA konzipieren wir das schlussfolgernde Denken insgesamt als eine Operation des Denkens im Sinne des Berliner Intelligenzstrukturmodells (BIS) von Jäger, während das räumliche, rechnerische und sprachliche Denken den „Zellen“ im BIS-Modell entspricht. Diese Zellen setzen sich aus einer Operation (hier schlussfolgerndes Denken) und jeweils einer Inhaltsdomäne (figural, numerisch oder verbal) zusammen. Operationalisiert wird das schlussfolgernde Denken als Summenscore über die Indikatoren des räumlichen, rechnerischen und sprachlichen Denkens. Durch die Anwendung der Bündelungstechnik werden bei der Bildung des Indikators für das schlussfolgernde Denken die operativen Varianzanteile fokussiert und die nicht intendierten inhaltsgebundenen Varianzanteile unterdrückt bzw. ausbalanciert.

(2) Hierarchie-Annahme

Einer zentralen Erkenntnis der Intelligenzstrukturforschung zufolge lassen sich Fähigkeiten unterschiedlichen Generalitätsebenen zuordnen. Eine sinnfällige Ergänzung des PMA Modells besteht in der Annahme weiterer Ebenen mit höherer sowie niedriger Generalität. Damit wird das MMPMA, im Sinne der dritten Stufe des evolutionären Modells der Intelligenztheorien nach Sternberg und Powell, ein integratives Modell mit mehreren Generalitätsebenen überlappender Faktoren. Die hierarchischen Generalfaktoren und das Primärfaktorenkonzept werden dabei als einander ergänzende Perspektiven betrachtet. Die unterschiedlichen Generalitätsebenen werden als Strata (Schichten / Ebenen) bezeichnet. Ein solches Stratum beschreibt die Breite und Generalität einer kognitiven Fähigkeit.

Die Primärfaktoren des PMA sind im zweiten (mittleren) Stratum des MMPMA angesiedelt.

In einer ersten Erweiterung des PMA werden hierarchisch übergeordnete Faktoren postuliert, die im dritten Stratum angesiedelt sind. Als übergeordnete Faktoren kommen die fluide und kristallisierte Intelligenz in Frage, die im Rahmen der so genannten Investmenttheorie von Cattell formuliert wurden. Die fluide Intelligenz ist im MMPMA den Primärfaktoren schlussfolgerndes, sprachliches, rechnerisches und räumliches Denken übergeordnet, die kristallisierte Intelligenz dem Thurstone Faktor „word fluency“. Für die fluide Intelligenz wird ein enger Zusammenhang mit der allgemeinen Intelligenz postuliert.

Darüber hinaus werden im Rahmen des MMPMA unterhalb der Primary Mental Abilities auch Faktoren niedriger Generalität angenommen (eng definierte Primärfähigkeiten) und auf dem ersten Stratum angesiedelt. Bei diesen Faktoren handelt es sich um spezifische Anforderungen an die Intelligenz. Beispiele sind etwa die Anforderung, Informationen von vergleichsweise geringer Komplexität effizient zu ordnen, zu sortieren, zu vergleichen und zu kontrollieren (Arbeitseffizienz), oder Anforderungen an Kenntnisse in einer spezifischen Wissensdomäne wie Wirtschaft oder Informationstechnologie. Die Idee, auch sehr spezifische Faktoren in das MMPMA aufzunehmen, leitet sich u. a. aus Ãœberlegungen zur Kriteriumsvalidität im Bereich der Eignungsdiagnostik ab. Forscher wie Wittmann gehen davon aus, dass nur dann eine maximale Validität zu erzielen ist, wenn Prädiktor und Kriterium das gleiche Generalitätsniveau aufweisen (Symmetrieprinzip). Entsprechend sollten die Konstrukte mit hohem Generalitätsniveau, die auf dem Stratum III oder II angesiedelt sind, vor allem dann kriteriumsvalide sein, wenn die vorherzusagenden Kriterien global und situationsübergreifend formuliert sind. Dies ist bei verschiedenen Operationalisierungen des Berufserfolgs der Fall. Umgekehrt verlangt das Berufsleben aber häufig auch sehr spezifische Fähigkeiten, Fertigkeiten und Kenntnisse für einen definierten Arbeitsplatz, an denen dann auch der Erfolg gemessen wird. Für dieses spezifischere Auflösungsniveau erzielt man mit spezifischen Faktoren, wie sie im MMPMA im ersten Stratum angesiedelt sind, eine größere konzeptuelle Gemeinsamkeit mit den zu prognostizierenden Kriterien.

(3) Kognitive Korrelate Ansatz

Ein weiterer aktueller Forschungszweig, der im Rahmen des MMPMA berücksichtigt wird, ist die Forschung zum Arbeitsgedächtnis. Ausschlaggebend für das MMPMA ist die allen Modellen des Arbeitsgedächtnisses gemeinsame zentrale Annahme einer limitierenden Kapazität des Arbeitsgedächtnisses. Für das MMPMA wird als Arbeitshypothese angenommen, dass die fluide Intelligenz (als die dem schlussfolgernden Denken übergeordnete Fähigkeit) und das Arbeitsgedächtnis hochgradig überlappende Konstrukte sind. Diese Hypothese hat im Rahmen der WIT-2 Testentwicklung auch eine diagnostisch-pragmatische Funktion. Immer wieder werden Testaufgaben zu Unrecht einseitig an bestimmte theoretische Modelle geknüpft. De facto lassen sich Testaufgaben in verschiedene Modelle einordnen. Die Working-Memory Forschung arbeitet mit Testaufgaben, die in der Intelligenztestentwicklung weitgehend ignoriert werden. Die Verdeutlichung des engen Zusammenhangs zwischen dem Arbeitsgedächtnis und dem schlussfolgernden Denken eröffnet der Intelligenzdiagnostik somit einen Zugang zu neuen Aufgabentypen. So ist die Konstruktion des WIT-2 Subtests E-Mails Bearbeiten ein Ergebnis dieser Perspektivenerweiterung. Zugleich sollte damit der Versuch unternommen werden, auch in Gruppentestungen mit Papier-Bleistift Tests einen Indikator für das Arbeitsgedächtnis zu gewinnen. Dies war mit den bisherigen, überwiegend computergestützten experimentalpsychologischen Aufgaben zum Arbeitsgedächtnis nur eingeschränkt möglich.

Die folgende Abbildung veranschaulicht das Modifizierte Modell der Primary Mental Abilities (MMPMA):

*aus: Kersting, M., Althoff, K. & Jäger, A.O. (2008). WIT-2. Der Wilde-Intelligenztest. Verfahrenshinweise. Göttingen: Hogrefe.*

Das erste Stratum ist in der Abbildung nicht ausgearbeitet. Die in der Abbildung genannten spezifischen Faktoren Arbeitseffizienz sowie Kenntnisse in Informationstechnologie und Wirtschaft sind nur Beispiele für eine Großzahl möglicher spezifischer Anforderungen an die Intelligenz. Am Beispiel der Arbeitseffizienz wird in der Grafik aufgezeigt, dass die Leistungen bei spezifischen Anforderungen von mehreren übergeordneten Faktoren beeinflusst werden können. Die unterschiedliche Linienstärke veranschaulicht die Intensität des Zusammenhangs.

Mit dem WIT-2 werden einige, nicht aber alle im MMPMA formulierten Fähigkeiten erfasst. So wird beispielsweise aus Gründen der Kriteriumsvalidität auf eine Erfassung der „word fluency“ verzichtet. Aus Gründen der Augenscheinvalidität und Akzeptanz wird anstelle der „perceptual speed“ die „Arbeitseffizienz“ erfasst. Eine Interpretation der Faktoren im dritten Stratum (fluide und kristallisierte Intelligenz) aufgrund der WIT-2 Subtests ist aktuell nicht vorgesehen.

Der WIT-2 repräsentiert mit elf Subtests acht Dimensionen:

Schlussfolgerndes Denken
Sprachliches Denken
Rechnerisches Denken
Räumliches Denken
Merkfähigkeit
Arbeitseffizienz
Wissen Wirtschaft
Wissen Informationstechnologie

Für weitere Informationen siehe: Testaufbau und -dauer

Die acht Module des WIT-2 gestatten die Erfassung der folgenden acht Fähigkeiten und Kenntnisse:

Modul 1: Sprachliches Denken
Die Fähigkeit, mit sprachlichen Konzepten umzugehen, wobei Wortschatz, Sprachverständnis und sprachlogisches Denken eine Rolle spielen.

Modul 2: Rechnerisches Denken
Die Fähigkeit, einfache Rechenoperationen der Addition, Subtraktion, Multiplikation und Division korrekt auszuführen.

Modul 3: Räumliches Denken
Die Fähigkeit zur Vorstellung räumlicher Relationen.

Modul 4: schlussfolgerndes Denken
Die Fähigkeit, bestimmte logische Regeln und Gesetzmäßigkeiten zu erkennen und zweckentsprechend anwenden zu können.

Modul 5: Merkfähigkeit
Die Fähigkeit, sich kurz zuvor eingeprägte Informationen und Assoziationen zu merken und wieder zu erkennen.

Modul 6: Arbeitseffizienz
Die Leistung, komplexe Informationen eines vergleichsweise geringen Schwierigkeitsgrades mit andauernder Konzentration effizient zu verarbeiten und anzuwenden. „Effizienz“ wird dabei durch die gleichzeitige Optimierung von Arbeitsgeschwindigkeit und -genauigkeit bei der Selektion und Extraktion relevanter Informationen und deren anschließender Kombination erzielt.

Modul 7: Wissen Wirtschaft
Kenntnisse auf dem Gebiet Wirtschaft.

Modul 8: Wissen Informationstechnologie
Kenntnisse auf dem Gebiet Informationstechnologie.

Bei Modul 4, schlussfolgerndes Denken, ist zu beachten, dass hier mit den Aufgaben Analogien und Abwicklungen Subtests berücksichtigt werden, die zugleich Bestandteil der Module 1 (sprachliches Denken) und 3 (räumliches Denken) sind. Die doppelte Nutzung dieser Subtests ist inhaltlich durch die Hierarchie-Annahme legitimiert. Die Testökonomie wird durch diese Vorgehensweise gesteigert, da die Informationen der Subtests doppelt ausgeschöpft werden.

Da der WIT-2 modular aufgebaut ist, kann seine Anwendung in der Praxis flexibel und ökonomisch an die jeweilige diagnostische Fragestellung angepasst werden. Jedes Modul kann einzeln oder in beliebiger Kombination mit anderen Modulen eingesetzt werden.

Testdauer

Für einzelne WIT-2 Module benötigte Zeiten (angegeben ist die Gesamtzeit, die für Instruktion und Bearbeitung benötigt wird):

Modul 1: Sprachliches Denken – 12:00 Min.
Modul 2: Rechnerisches Denken – 26:30 Min.
Modul 3: Räumliches Denken – 22:00 Min.
Modul 4: Schlussfolgerndes Denken
Als eigenständiges Modul (Subtests AL, ZN und AW) – 34:30 Min.
Falls auch Module 1 und 3 eingesetzt werden (nur Subtest ZN) – 14:00 Min.
Modul 5: Merkfähigkeit (einschließlich „Störaufgabe“) – 26:00 Min.
(Für den Subtest Merkfähigkeit (Instruktion, Einprägen und Wiedererkennen) werden lediglich 9:00 Min. benötigt, der Wert von 26:00 Min. berücksichtigt die
„Störaufgabe“, die zwischen Einprägen und Wiedergabe geschaltet ist, wobei hier von 17:00 Min. für diese Störaufgabe ausgegangen wurde)
Modul 6: Arbeitseffizienz – 18:30 Min.
Modul 7: Wissen Wirtschaft – 5:30 Min.
Modul 8: Wissen Informationstechnologie – 5:30 Min.
Hinzu kommen die Zeiten für die allgemeine Einführung (ca. 15 Min.) sowie, falls Subtests in einem Gesamtumfang von über 100 Minuten eingesetzt werden, eine Pause (15 Min.)

Testaufbau WIT-2: Flexibles System aus acht separat einsetzbaren und frei kombinierbaren Modulen

Die 11 Subtests des WIT-2

Aufgeführt ist die Testabkürzung, die vollständige Bezeichnung des Subtests und (in Klammern) die zugeordnete Dimension.

AL – Analogien (Sprachliches Denken und schlussfolgerndes Denken)
Auf der linken Seite eines Gleichheitszeichens sind zwei Wörter vorgegeben, die in einer bestimmten Beziehung zueinander stehen, auf der rechten Seite ein Wort. Von fünf Wahlwörtern ist dasjenige auszuwählen, das auf der rechten Seite des Gleichheitszeichens eine analoge Beziehung herstellt.
AW – Abwicklungen (Räumliches Denken und schlussfolgerndes Denken)
Zu einer aus mehreren Flächen mit verschiedenen Zeichen bestehenden Faltvorlage ist aus fünf vorgegebenen Körpern derjenige herauszufinden, der sich aus der Faltvorlage herstellen lässt.
EM – E-Mails Bearbeiten (Arbeitseffizienz)
Die Aufgabe simuliert die Bearbeitung des E-Mail Posteingangs. Zur Bearbeitung des Posteingangs stehen sechs Möglichkeiten zur Verfügung, z. B. „Weiterleiten der E-Mail“, „Speichern der E-Mail“, „Beantworten der E-Mail“ usw., wobei bestimmte Bedingungen zu beachten sind. Beispielsweise sind Datum und Dringlichkeit der Nachricht, das Projekt, um welches es in der E-Mail geht, sowie die Firma, aus welcher die E-Mail stammt, für die Wahl der richtigen Lösung entscheidend.
ER – Eingekleidete Rechenaufgaben (Rechnerisches Denken)
Verbal eingekleidete Rechenaufgaben sind vorgegeben und auf dem Antwortbogen sind die Ziffern der Lösungen einzutragen.
GR – Grundrechnen (Rechnerisches Denken)
Zu Rechenaufgaben der vier Grundrechenarten sind auf dem Antwortbogen die Ziffern der Lösungen durchzustreichen.
GW – Gleiche Wortbedeutungen (Sprachliches Denken)
Zu einem vorgegebenen Wort ist aus fünf anderen Wörtern das sinnähnlichste herauszusuchen.
MF – Merkfähigkeit (Merkfähigkeit)
In einem Text befinden sich verbal, numerisch und figural kodierte Informationen. Einer Einprägungszeit von 4 Minuten folgen für ca. 17 Minuten andere Subtests (Störphase). In dem anschließenden Reproduktionstest sollen Einzelheiten unterschieden werden. Die richtige Lösung ist aus einer Reihe von sechs Alternativen auszuwählen.
SP – Spiegelbilder (Räumliches Denken)
Von fünf Strichfiguren lassen sich 4 durch einfaches Verschieben in der Ebene, die fünfte dagegen nur durch Umklappen in der Vorstellung zur Deckung bringen; diese Figur ist herauszufinden.
WI – Wissen Informationstechnologie (Wissen Informationstechnologie)
Es werden Fragen zum Thema Informationstechnologie gestellt. Die richtige Lösung ist aus vier Alternativen auszuwählen.
WW – Wissen Wirtschaft (Wissen Wirtschaft)
Es werden Fragen zum Thema Wirtschaft gestellt. Die richtige Lösung ist aus vier Alternativen auszuwählen.
ZN – Zahlenreihen (Schlussfolgerndes Denken)
Vorgegeben ist eine Folge von Zahlen, die nach einer Regel aufgebaut ist; auf dem Antwortbogen sind die Ziffern der Zahl durchzustreichen, die als nächstes Glied der Reihe folgen müsste.

Die Autoren des WIT-2 legen besonderen Wert auf eine objektive Durchführung, Auswertung und Interpretation. Die entsprechende Objektivität ist gegeben, wenn sich die verantwortlichen Personen an die Instruktionen in der Handanweisung sowie im Instruktionsheft halten. Dabei wurden die Materialien mit großer Sorgfalt so gestaltet, dass Fehler höchst unwahrscheinlich sind. Als ein beispielhaftes Detail ist etwa zu nennen, dass die Seiten des Einprägteils des Moduls Merkfähigkeit auf farbigem Papier gedruckt sind. Dies ermöglicht es den Testleitern, ein unbefugtes Zurückblättern zu diesen Seiten zu erkennen. In den bislang mit annähernd 42.000 Personen von über 50 Testleitern durchgeführten Untersuchungen mit WIT-2 Subtests ergaben sich keinerlei Beanstandungen der Objektivität.

Eine zentrale Rolle für die Durchführungsobjektivität spielen die Instruktionen. Hinsichtlich der Instruktionen muss unterschieden werden zwischen den Instruktionen für die getesteten Personen und den Instruktionen für die Testleitung.

Im WIT-2 sind alle Instruktionen für die getesteten Personen standardisiert. Für die meisten Subtests sind Beispielaufgaben vorgesehen. Soweit es notwendig ist, gibt es Informationen zu der Art, wie die Antwort einzutragen ist und korrigiert werden kann. Auch die Informationsbroschüre zum WIT-2 für die Testteilnehmer trägt zur Durchführungsobjektivität bei.

Hinsichtlich der Instruktionen für die Testleitung hob sich bereits der WIT-1 durch das Vorhandensein eines separaten Instruktionsheftes positiv von anderen Testverfahren ab, bei denen die für die Durchführung notwendigen Informationen (z. B. Instruktionen, Laufzeiten usw.) aus verschiedenen Seiten der Verfahrenshinweise zusammengesucht werden müssen (sofern sie überhaupt existieren). Der WIT-2 gibt umfassende wörtliche Formulierungen vor, wo andere Tests lediglich vage Zielvorgaben an die Testleitung treffen. Hervorzuheben sind darüber hinaus die beispielhaften standardisierten Reaktionen auf Nachfragen.

Auch die Voraussetzungen für die Auswertungsobjektivität sind gegeben, da der WIT-2 ein objektives Auswertungssystem vorsieht. Alle Werte, die den Antworten der Testteilnehmer zugewiesen werden, liegen fest, sobald die notwendigen Entscheidungen über die angewendete Normgruppe getroffen wurden. Abgesehen von niemals vollständig auszuschließenden, in ihrer Wahrscheinlichkeit durch die ausführliche Anweisung und sorgsame Materialgestaltung aber deutlich verminderten, Anwendungsfehlern, werden alle Auswerter bei der Berechnung der Ergebnisse zu denselben Werten gelangen. Die Auswertungsschablonen wurden so gestaltet, dass diese eindeutig auf die Antwortbogen passen. Deutliche Markierungen stellen sicher, dass die richtige Form und Version der Schablonen Verwendung findet.

Schließlich ist, sofern die Vorgaben eingehalten werden, auch die Interpretationsobjektivität gesichert. Die mit dem Test erfassten Fähigkeiten und das zugrunde liegende Intelligenzmodell werden klar beschrieben. Auch die detaillierte Charakterisierung der verfügbaren Normgruppen, die Hinweise zur Interpretation, die Methode zur anforderungsorientierten Integration von Verfahrensergebnissen sowie die Angabe von Standardmessfehlern und Konfidenzintervallen tragen zur Interpretationsobjektivität bei.

Die nachfolgende Tabelle gibt einen Überblick über die Mittelwerte, Minima und Maxima der Itemschwierigkeiten pro Subtest. Die durchschnittliche Schwierigkeit liegt in sechs von elf Fällen im idealen Bereich von .45 bis .55. Die Subtests Grundrechnen und Wissen Wirtschaft weichen mit .44 bzw. .56 nur minimal ab, so dass acht der elf Tests im Idealbereich liegen. Ungünstigere Werte ergeben sich für die Subtests Analogien (.39) und Eingekleidete Rechenaufgaben (.34), die etwas zu schwer sind. Demgegenüber ist der Subtest Spiegelbilder etwas zu leicht (.60). Insgesamt sind die Itemschwierigkeiten sehr zufrieden stellend, neben mittelschweren Items sind auch eine ausreichende Anzahl sowohl leichter als auch schwerer Items vorhanden, so dass der Test innerhalb von Gruppen leistungsschwacher und leistungsstarker Personen differenziert.

Einzelaufgaben – Gesamtgruppe: Schwierigkeiten der Einzelaufgaben

Die nächste Tabelle gibt einen Überblick über die Mittelwerte, Minima und Maxima der Trennschärfen pro Subtest. Der Subtest Merkfähigkeit umfasst jeweils sieben Items zu drei unterschiedlichen Inhaltsdomänen. Diese gezielt herbei geführte kontrollierte Heterogenität wirkt sich ungünstig auf die homogenitätsorientierten Trennschärfen aus. Etwas eingeschränkte Trennschärfen weisen außerdem die Items des Subtests Grundrechnen auf. Dieser Subtest wird allerdings auch nicht separat ausgewertet oder interpretiert (sondern nur das übergeordnete Modul rechnerisches Denken). Die biserielle Korrelation der einzelnen Items des Subtests Grundrechnen mit dem (part-whole korrigierten) Gesamtwert im Modul rechnerisches Denken fällt deutlich höher aus. Insgesamt werden sehr gute Trennschärfen erreicht, in acht von elf Fällen erzielen mindestens 75 Prozent der Items Trennschärfen, die gleich oder größer .30 betragen.

Einzelaufgaben – Gesamtgruppe: Trennschärfen der Aufgaben (r_it mit Subtest)

Für die Module des WIT-2 wurde die Reliabilität über die internen Konsistenzen sowie über die Retest-Reliabilität geschätzt. Die Ergebnisse sind in der folgenden Tabelle wiedergegeben.

Reliabilitätsschätzungen für die WIT-2 Subtests und Skalen (Retest und Cronbachs Alpha)

*(1) stratifiziertes Alpha, vgl.: Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psychological Methods, 5 (3), 343-355.*
*aus: Kersting, M., Althoff, K. & Jäger, A.O. (2008). WIT-2. Der Wilde-Intelligenztest. Verfahrenshinweise. Göttingen: Hogrefe.*

Mit Ausnahme der Merkfähigkeit liegen die internen Konsistenzen (Cronbach’s alpha) der acht WIT-2 Module in einem sehr zufrieden stellenden Bereich von .81 bis .98 (wobei für die Dimensionen sprachliches, rechnerisches, räumliches und schlussfolgerndes Denken sowie für den Gesamtwert entsprechend den Empfehlungen der APA das stratifizierte Cronbach’s alpha berechnet wurde). Bei der internen Konsistenz wird geprüft, ob eine Generalisierbarkeit über Items hinweg gegeben ist. Die Anwendung von Maßen der internen Konsistenz / der Homogenität ist natürlich nicht sinnvoll bei Subtests mit heterogenen Inhalten. Dies trifft tendenziell auf die Aufgabe Merkfähigkeit zu, wo verbales, numerisches und figurales Material Verwendung findet. Die mit einem Wert von .78 eingeschränkte interne Konsistenz dieses Subtests ist möglicherweise auf diesen Umstand zurückzuführen.

Wenn man mit einem Test Vorhersagen über die Zeit hinweg tätigen will, kommt der Retest-Reliabilität besondere Bedeutung zu. Dies ist der Grund dafür, warum die DIN 33430 den Nachweis der Retest-Reliabilität fordert, sofern Eignungsmerkmale erfasst werden sollen, für die eine zumindest partielle Zeit- und Situationsstabilität angenommen wird. Für die Bestimmung der Retest-Reliabilitäten zum WIT-2 wurde in den meisten Fällen ein relativ langes Zeitintervall von neun Monaten gewählt. Auf eine Korrektur gegen Streuungseinschränkungen wurde verzichtet. Obwohl die Schätzung damit konservativ ausfällt, die tatsächliche Reliabilität also vermutlich unterschätzt wird, zeigten sich mit Ausnahme des Subtests E-Mails Bearbeiten zufrieden stellende Werte. Bei allen Subtests, vor allem aber beim Subtest E-Mails Bearbeiten, mag es sich ungünstig ausgewirkt haben, dass die Studie zur Retest-Reliabilität mit freiwilligen Testteilnehmern unter Anonymitätsbedingungen durchgeführt wurde. Die Konzentrationsleistung, als eine der Einflussfaktoren der Arbeitseffizienz, ist stark von einer optimalen Motivation abhängig. Es kann sein, dass die Testmotivation insgesamt, vor allem aber die Motivation zur Bearbeitung des Subtests E-Mails Bearbeiten bei einer oder beiden Untersuchungszeitpunkten nicht optimal war, was sich reliabilitätsmindernd ausgewirkt haben kann. Für die Subtests Spiegelbilder und Merkfähigkeit sowie für die beiden Kenntnistests konnten die Retest-Untersuchungen bislang nur mit einem kurzen Zeitabstand von sechs Wochen realisiert werden.

Objektivität und Reliabilität eines Tests sind nur technische Voraussetzungen und prinzipiell kein Substitut für seine Validität. Erst in empirischen Validitätsuntersuchungen kann die Leistungsfähigkeit eines Tests geprüft werden.

Kriteriumsvalidität

Bei der Kriteriumsvalidierung prüft man, ob der Testwert eine Bestimmung von Nicht-Testverhalten erlaubt, welches retrospektiv, gleichzeitig oder später erfasst wird. Laut DIN 33430 kann der Nachweis der Kriteriumsvalidität durch verfahrensspezifische Untersuchungen erbracht werden. Es ist aber auch explizit vorgesehen, Gültigkeitsbelege, die in anderen Studien erbracht wurden, zu übertragen (Validitätsgeneralisierung). Des Weiteren wird in der DIN 33430 gefordert, dass (sofern vorhanden) auch die Kriteriumsgültigkeiten vergleichbarer Verfahren für gleiche oder ähnliche Anwendungsbereiche berichtet werden. Die vorliegenden Verfahrenshinweise werden diesen Forderungen gerecht. Zunächst werden allgemeine Befunde zur Kriteriumsvalidität von Intelligenztests berichtet. Anschließend werden die Kriteriumsvaliditäten vergleichbarer Verfahren referiert. Dann werden Befunde zur Kriteriumsvalidität derjenigen Subtests des WIT-1 metaanalytisch zusammengefasst, die auch im WIT-2 enthalten sind. Abschließend werden die Ergebnisse der eigens mit dem WIT-2 durchgeführten Studien zur Kriteriumsvalidität berichtet. Ein Fazit zur Kriteriumsvalidität rundet die Ausführungen zur Kriteriumsvalidität ab.

Kriteriumsvalidität: Validitätsgeneralisierung

Die Module des WIT-2 erfassen nachweislich Dimensionen der Intelligenz. Daher können allgemeine Erkenntnisse zur Kriterumsvalidität von Intelligenztests in vollem Ausmaß auf den WIT-2 übertragen werden. Nach der Sichtung metaanalytischer Studien resümieren Schmidt und Hunter, dass aufgrund von Intelligenztests gewonnene Aussagen mit die höchste Validität bei der Vorhersage zukünftiger Leistungen erzielen, und zwar sowohl bei der Vorhersage von Ausbildungs- als auch bei der Vorhersage von Berufsleistungen. Andere Verfahren, wie z. B. Assessment Center oder Vorstellungsgespräche, können kaum noch inkrementelle Validität erzielen, wenn als erster Prädiktor ein Intelligenztest berücksichtigt wird. Als Fazit einer bald einhundertjährigen Forschung zu diesem Thema kann insgesamt eindeutig festgehalten werden: Mit keinem anderen Verfahren lässt sich der Erfolg bei kognitiv geprägten Lebensaufgaben wie Schule, Ausbildung, Studium und Beruf so gut vorhersagen wie mit Intelligenztests. Die Variabilität der Vorhersageleistung über verschiedene Situationen und vor allem über verschiedene Berufe hinweg ist gering. Dies bedeutet, dass Intelligenztests nicht nur für spezifische (Berufs-) Gruppen, sondern generell valide Schlussfolgerungen erlauben.

Kriteriumsgültigkeiten vergleichbarer Verfahren

Sofern vorhanden sollen nach DIN 33430 in den Verfahrenshinweisen auch die Kriteriumsgültigkeiten vergleichbarer Verfahren für gleiche oder ähnliche Anwendungsbereiche berichtet werden. Diesbezüglich kann auf die Studie von Hülsheger et al. (2006) verwiesen werden. Die Autoren haben die Kriteriumsvalidität verschiedener Intelligenztests, nämlich CFT-3, IST-70, LPS, PSB, SPM und WIT ermittelt. Die zentralen Ergebnisse sind in der folgenden Tabelle zusammengefasst. Entscheidend ist die in der vorletzten Spalte berichtete operationale Validität. Der WIT-1 wies nach Analyse und Ansicht der Autoren die höchste Validität auf.

Metaanalyse für verschiedene Intelligenztests (Hülsheger et al., 2006)

Hülsheger, U. R., Maier, G. W., Stumpp, T. & Muck, P. M. (2006). Vergleich kriteriumsbezogener Validitäten verschiedener Intelligenztests zur Vorhersage von Ausbildungserfolg in Deutschland: Ergebnisse einer Metaanalyse. Zeitschrift für Personalpsychologie, 5, 145-162.

Metaanalyse zur Kriteriumsvalidität der WIT-1 Subtests

Der WIT-2 baut zum Teil auf den bewährten Subtests und Items des WIT-1 auf (siehe Alter und neuer WIT). Einige Subtests des WIT-2 sind zumindest strukturell äquivalent zu den typgleichen Subtests des WIT-1. Teilweise umfassen sie sogar das gleiche Itemmaterial. Die Befunde zur Kriteriumsvalidität derjenigen Subtests des WIT-1, die auch im WIT-2 erhalten sind, können daher als Anhaltspunkt für die Kriteriumsvalidität der entsprechenden aktuellen WIT-2 Subtests genutzt werden. Mit der nachfolgend dargestellten Metaanalyse werden die jahrzehntelangen Erfahrungen mit dem WIT-1 so aufbereitet, dass sie von den Anwendern des WIT-2 genutzt werden können.

Lang, Kersting und Lang (in Vorbereitung) führten eine Metaanalyse zur Kriteriumsvalidität der Subtests des WIT-1 in Bezug auf den Ausbildungs- und Berufserfolg durch:

Lang, J. W. B., Kersting, M. & Lang, J. (in Vorbereitung). Eine metaanalytische Untersuchung zur spezifischen Fähigkeitstheorie.

Die Studie unterscheidet sich von der oben zitierten Studie von Hülsheger et al. (2006) u. a. dadurch, dass Hülsheger et al. nur Gesamtwerte für den Wilde-Test in ihrer Metaanalyse berücksichtigt haben, während Lang et al. die Validitäten der Einzelskalen fokussierten. Zur Beantwortung dieser Fragestellungen stehen mehr Studien zur Verfügung als für die Frage nach der Validität des WIT-Gesamtwertes. Konkret konnten für jeden Subtests 12 bis 21 Studien im Umfang von 1.009 bis 1.781 Personen berücksichtigt werden. Die Ergebnisse der Studie von Lang et al. (under review) sind in der nachfolgenden Tabelle und Graphik dargestellt. Die dargestellten Validitäten beziehen sich ausschließlich auf Daten aus dem WIT-1 (während im Artikel die WIT-1 und WIT-2 Tests gemeinsam analysiert werden, was zu geringfügig anderen Werten führt). Die Daten zeigen, dass bereits auf der Subtestebene hohe Validitäten zu beobachten sind. Bei einer entsprechenden Aggregation zu Composite-Werten auf der Ebene der Gesamtdimensionen werden noch höhere Validitäten erzielt. Da die technische Qualität der WIT-2 Subtests deutlich höher ist als die der WIT-1 Subtests und da für die Aggregatsebene höhere Kriteriumsvaliditäten zu erwarten sind als für die Subtestebene, ist davon auszugehen, dass der WIT-2 die in der Tabelle / Graphik berichteten Kriteriumsvaliditäten des WIT-1 deutlich übertrifft.

Kriteriumsvalidität. Metaanalyse zur Kriteriumsvalidität derjenigen Subtests des WIT-1, die auch im WIT-2 enthalten sind (Lang, Kersting & Lang, under review)

Lang, J. W. B., Kersting, M. & Lang, J. (in Vorbereitung). Eine metaanalytische Untersuchung zur spezifischen Fähigkeitstheorie. (Die Angaben hier auf der Folie beziehen sich allerdings nur auf die Tests des WIT-1, während im Artikel die WIT-1 und WIT-2 Tests gemeinsam analysiert werden, was zu geringfügig anderen Werten führt.)

Empirische Untersuchungen zur Kriteriumsvalidität des WIT-2

Zur Kriteriumsvalidierung des WIT-2 wurden in verschiedenen Studien insgesamt fünf Kriterien herangezogen, die als Indikatoren des Erfolgs in kognitiv geprägten Lebensaufgaben gelten können: (1.) Selbsteinschätzungen, (2.) Schulnoten, Erfolg in (3.) der beruflichen Weiterbildung und (4.) in der beruflichen Erstausbildung sowie (5.) biographische Daten. Dabei wurden vor allem berufsbezogene Kriterien ausgewählt, wobei die verwendeten Kriterien und ihre Operationalisierungen für die Eignungsdiagnostik einschlägig angemessen sind und über die notwendige inhaltliche Qualität verfügen. In mehreren der genannten Studien wurde geprüft, ob der WIT-2 gegenüber alternativen Prädiktoren, insbesondere gegenüber der leicht verfügbaren Schulnote, inkrementelle Validität aufweist.

1. Kriteriumsvalidität: Selbsteinschätzungen

Zunächst wurde anhand einer Gruppe von 289 Personen der Zusammenhang zwischen den WIT-2 Testleistungen und Selbsteinschätzungen bestimmt. Dazu lieferten die Testteilnehmer vor (!) der WIT-2 Testung auf siebenfach abgestuften Likert-Single-Item-Skalen Selbsteinschätzungen zu den mit den WIT-2 Modulen homologen Dimensionen. Lediglich die verlangte Selbsteinschätzung zur Konzentrationskraft stimmte nicht vollständig mit der Definition der mit dem WIT-2 Modul 6 erfassten Arbeitseffizienz überein. Mit Ausnahme des Zusammenhangs zwischen der Testleistung in dem Subtest E-Mails Bearbeiten und der Selbsteinschätzung der Konzentration und Sorgfalt, waren alle Zusammenhänge signifikant und teilweise beachtlich hoch. Der ausbleibende Zusammenhang zwischen dem WIT-2 Modul Arbeitseffizienz und der Selbsteinschätzung der Konzentrationskraft ist eventuell darauf zurückzuführen, dass die Arbeitsprobe komplexer und kognitiv anspruchsvoller ist als herkömmliche Konzentrationsaufgaben und diese Anforderung daher von den Testteilnehmern nicht mit Konzentrationsanforderungen assoziiert wird.

2. Kriteriumsvalidität: Schulnoten

Seit der Entwicklung des Intelligenztests durch Alfred Binet werden Intelligenztestleistungen zu Schulleistungen in Beziehung gesetzt. Die WIT-2 Testleistungen korrelieren nicht nur substantiell mit gleichzeitig erhobenen Schulnoten (konkurrentes Design, N=129), sondern auch mit Schulnoten, die im Durchschnitt 18 Jahre (!) vor der WIT-2 Durchführung vergeben wurden (retrogrades Design, N = 367).

3. Kriteriumsvalidität: Ausbildungserfolg 1- Erfolg in der beruflichen Weiterbildung

Anhand der Ergebnisse, die von 104 Rehabilitanden in den Fächern Mathematik und Deutsch beim so genannten „Rehavorbereitungslehrgang“ (RVL) erzielt wurden, konnte die Kriteriumsvalidität des WIT-2 in Bezug auf den Erfolg in der beruflichen Weiterbildung bestimmt werden. Bei dieser Untersuchung stand als weiterer Prädiktor die Schulabschlussnote zur Verfügung, so dass geprüft werden konnte, ob der WIT-2 gegenüber der Schulabschlussnote inkrementelle Validität aufweist. Jedes einzelne WIT-2 Modul und jeder einzelne WIT-2 Subtest ist in der Lage, eines oder beide Kriterien vorherzusagen, wobei sich erwartungsgemäß vor allem das schlussfolgernde Denken als solider Prädiktor hervorhebt. Mit Hilfe der multiplen Regressionsanalyse wurde die inkrementelle Validität des WIT-2 gegenüber Schulnoten nachgewiesen. Wie von der DIN 33430 vorgeschrieben wurde zur Prüfung der Stichprobenunabhängigkeit der multiplen Korrelation eine Kreuzvalidierung durchgeführt.

4. Kriteriumsvalidität: Ausbildungserfolg 2 – Erfolg in der beruflichen Erstausbildung

Neben dem Erfolg in der beruflichen Weiterbildung wurde auch der Erfolg in der beruflichen Erstausbildung als Kriterium herangezogen. Hierfür konnte eine Gruppe von 51 Personen gewonnen werden, die entweder eine Ausbildung zum Fachinformatiker absolvierten oder einen Studiengang (vornehmlich in den Fachrichtungen Informationstechnik und angewandte Informatik) an der Berufsakademie belegten. Mit Ausnahme des Wissenstests Informationstechnologie, des WIT-2 Moduls räumliches Denken sowie (ggf. in Folge dessen) schlussfolgerndes Denken, stehen alle übrigen Module in substantiellem Zusammenhang zu den Indikatoren des Ausbildungerfolgs. Auch in dieser Stichprobe konnte der WIT-2 gegenüber Schulnoten eine inkrementelle Varianzaufklärung leisten. Die ausbleibenden Validitäten für den Wissenstest Informationstechnologie und das räumliche Denken / schlussfolgernde Denken sind vor dem Hintergrund zu sehen, dass es sich um eine extrem vorausgewählte und varianzeingeschränkte Gruppe handelt: Die Personen waren aufgrund von Leistungen in entsprechenden Dimensionen mit Hilfe anderer Tests ausgewählt worden.

5. Weitere Kriteriumsvalidierung der Kenntnistests

Um eine weitere Prüfung der Kriteriumsvalidität der beiden WIT-2 Kenntnistests vorzunehmen, wurden die entsprechenden Testwerte bei einer Subgruppe von 49 Personen mit einem Index korreliert, der das Ausmaß an Erfahrungen mit Wirtschaftsthemen bzw. Themen der Informationstechnologie sowie das Interesse für Wirtschaft bzw. Informationstechnologie widerspiegelt. Die Erfahrungen in den jeweiligen Domänen wurden mit spezifischen Fragebögen erfasst, die vor (!) der WIT-2 Testbearbeitung appliziert wurden. Die beiden Instrumente können als biographische Fragebögen klassifiziert werden. Für beide Kenntnistests, vor allem aber für das WIT-2 Modul Wissen Informationstechnologie zeigte sich eine sehr hohe Kriteriumsvalidität.

Konstruktvalidität

Bei der Konstruktvalidierung geht es darum, zu prüfen, ob der Test das misst, was er zu messen intendiert und vorgibt, und ob die aufgrund der Testergebnisse getroffenen Interpretationen theoriekonform sind. Diesbezüglich sind zunächst die Strukturannahmen zu prüfen. Dies geschah für den WIT-2 mit Hilfe konfirmatorischer Faktorenanalysen anhand der Daten von 839 Personen. Dabei ergab sich jeweils ein guter Fit der postulierten Modelle auf die Daten. Aus theoretischen und praktischen Erwägungen ist es besonders interessant zu untersuchen, ob ein neu entwickeltes psychometrisches Instrument seine Konstrukte auf andere Aufgaben generalisierbar operationalisiert. Denn die Geltung der Konstruktannahmen ist nicht auf die Subtests und Module des WIT-2 beschränkt, sie muss sich auch bei Testaufgaben zeigen, die nicht zur Modellkonstruktion eingesetzt wurden. Zur Untersuchung dieser Frage bearbeitete ein Teilgruppe im Umfang von N=641 Personen zusätzlich zum WIT-2 Subtests aus anderen einschlägigen Intelligenztests. Der Fit des postulierten Modells war akzeptabel, wenn liberale Fit-Kriterien für den CFI herangezogen wurden, und lässt die Schlussfolgerung zu, dass der WIT-2 auf andere Aufgaben generalisierbare Faktoren erfasst. Insgesamt konnte durch die konfirmatorischen Faktoranalysen klar gezeigt werden, dass der WIT-2 die im MMPMA Modell postulierten Fähigkeiten differenziert erfasst.

Entsprechend der DIN 33430 ist darüber hinaus aufgrund von inhaltlichen Ãœberlegungen und empirischen Ergebnissen darzulegen, wie sich die mit dem Test gemessenen Konstrukte zu ähnlichen (konvergente Validität) und zu unähnlichen Konstrukten (diskriminante Validität) verhalten. Zu keinem anderen deutschsprachigen Test wurden zum Zeitpunkt der Erstveröffentlichung so umfangreiche Studien zur Konstruktvalidität durchgeführt, wie zum WIT-2. Durch diese Befunde wird es möglich, die mit dem WIT-2 gemessenen Befunde in das nomologische Netz anderer Fähigkeiten und Persönlichkeitsmerkmale einzuordnen. Zur Einordnung der mit dem WIT-2 erfassten Fähigkeiten in das nomologische Netz anderer Fähigkeiten sowie zur Bestimmung der konvergenten und diskriminanten Validität, wurden Subtests und Module des WIT-2 mit Subtests und Skalen von insgesamt 17 anderen Testverfahren in Beziehung gesetzt. Aufgrund der in den jeweiligen Testmanualen dargestellten theoretischen Ausführungen sowie aufgrund einer eingehenden Analyse des jeweiligen Itemmaterials wurde davon ausgegangen, dass u. a. Subtests / Skalen aus den nachfolgend genannten 17 Tests ähnliche sowie (teilweise) unähnliche Konstrukte wie einzelne WIT-2 Module erfassen und sich daher für die Konstruktvalidierung eignen: ABAT-R, AMS-R, BIS-4, BIS-r-DGP, CFT-3, DGP-Wissenstests, FRT, IST 2000 R, KLT-R, LGT-3, LPS, MIPS, MRT, NEO-PI-R, START-R, TAI und Wonderlic Test. In verschiedenen Studien mit Stichprobengrößen im Umfang von 48 bis 953 Personen wurden Subtests des WIT-2 mit einzelnen oder mehreren der genannten Tests gemeinsam eingesetzt, wobei eindeutige Hinweise auf die konvergente und diskriminante Validität des WIT-2 erzielt wurden.

Aufgrund dieser Maßnahmen zur Konstruktvalidierung und aufgrund der dabei erzielten prägnanten Ergebnisse, kann der WIT-2 nicht nur für die Praxis empfohlen werden (hier hilft die Konstruktvalidität bei der Interpretation der Befunde sowie bei der testbasierten Entscheidung), sondern er eignet sich, sofern auf die Messung der Bearbeitungsgeschwindigkeit und des Einfallsreichtums verzichtet werden kann, auch im hervorragenden Maße als Standard-Instrument zur Intelligenzstrukturforschung.

Bei der Konstruktion des WIT-2 wurde sehr viel Wert darauf gelegt, einen Test zu gestalten, der von den Testteilnehmern gut akzeptiert wird. Dazu wurde das Testmaterial motivational ansprechend gestaltet, es wurde kontextrelevanter Lernstoff genutzt. Die Testaufgaben sind teilweise unmittelbar in eine Semantik aus dem Berufs- und Arbeitsleben eingekleidet. Dies dürfte die Augenscheinvalidität als einen zentralen Prädiktor der Akzeptanz positiv beeinflussen.

Häufig sind Anwender bezüglich der Akzeptanz von Testverfahren darauf angewiesen, den entsprechenden Aussagen der Testautoren zu vertrauen: Die Akzeptanz wird oft behauptet, aber selten geprüft. Die Akzeptanz des WIT-2 wurde mit dem Instrument Akzept! empirisch erhoben. Der Fragebogen erfasst anhand von Skalen mit jeweils vier Items die Kontrollierbarkeit, Messqualität, Augenscheinvalidität und Belastungsfreiheit. Mit Hilfe eines single-Items nehmen die Testteilnehmer außerdem noch eine Gesamtbewertung des Tests vor.

Die nachfolgende Graphik zeigt die Ergebnisse einer Akzeptanzbefragung zu unterschiedlichen Tests, wobei allerdings jedes Testverfahren (BIS, IST, WIT) von jeweils einer anderen Gruppe bearbeitet wurde, so dass ein direkter Vergleich nicht möglich ist. Jede Gruppe hat vor der (anonymisierten) Akzeptanzbefragung, den jeweiligen Test bearbeitet. Der WIT-2 wurde von 78 Personen zunächst bearbeitet und dann unter Akzeptanzgesichtspunkten beurteilt.

Für die Bearbeitung der Items der vier Skalen wird eine sechsstufige Zustimmungsskala genutzt, deren Extremausprägungen mit „trifft nicht zu“ und „trifft genau zu“ bezeichnet sind. Bei der Auswertung wird ein extrem negativer Wert mit „1“, ein extrem positiver Wert mit „6“ codiert. Für den WIT-2 zeigt sich, dass der Test in allen Dimensionen eine Beurteilung im positiven Bereich erzielt. Besondere Akzeptanz erfährt der Aspekt der Kontrollierbarkeit sowie die Belastungsfreiheit. Wie bei allen Intelligenz- und Leistungstests wird die Augenscheinvalidität insgesamt etwas kritischer gesehen als beispielsweise die Kontrollierbarkeit, für den WIT-2 wird die Augenscheinvalidität gleichwohl im positiven Bereich beurteilt.

Hinsichtlich der absoluten Höhe der Skalenwerte muss berücksichtigt werden, dass die Testsituation und die dadurch ausgelösten Prozesse das maximal erreichbare Akzeptanzurteil von vorneherein begrenzen. Tests sind anstrengend, so dass nicht erwartet werden kann, dass sie als „belastungsfrei“ bewertet werden. Konsistenztheoretisch ist außerdem zu erwarten, dass die Teilnehmer die Tests eher ablehnen, wenn sie annehmen, im Test schlecht abgeschnitten zu haben.

Insgesamt zeigen die Ergebnisse, dass Testteilnehmer keine spezifischen Vorbehalte gegenüber dem WIT-2 haben, sondern sich der Test einer hohen Akzeptanz erfreut.

Für jeden WIT-2 Subtest stehen bildungs- und altersdifferenzierte Normdaten von mindestens 2.234 Personen zur Verfügung (maximale Größe der Normbasis: 10.024). Insgesamt wurden einzelne Subtests des neuen WIT-2 bei fast 42.000 Personen eingesetzt.

Bei der Erhebung der Daten stand der Praxisbezug im Vordergrund. Damit hebt sich der WIT-2 von Testverfahren ab, die häufig an Universitäten entwickelt werden und zur Testanalyse und Normierung Daten so genannter „Gelegenheitsstichproben“ nutzen. Als Teilnehmer solcher Forschungsuntersuchungen werden häufig Schüler oder Studenten herangezogen. Die Testteilnehmer werden dann treffend als „Versuchspersonen“ oder „Probanden“ tituliert; Bezeichnungen, die außerhalb eines Forschungslabors nicht genutzt werden sollten, sich gleichwohl aber sogar in den Verfahrenshinweisen forschungslastiger Tests finden. Bei derartigen Untersuchungen bearbeiten die „Versuchspersonen“ die Tests häufig anonymisiert, oft wird die Teilnahme vergütet. Dies kann zu einer mangelhaften Ernsthaftigkeit der Testbearbeitung führen. Der überwiegende Teil der Normdaten für den WIT-2 wurde im Kontext des Ernstfalls von beruflichen Bewerbungssituationen erhoben.

Es werden (1) drei bildungsspezifische und (2) sechs altersspezifische Normgruppen angeboten:

Bildungsspezifische Kategorien

(1a) Gesamtgruppe (keine Bildungsdifferenzierung; Gesamtgruppe, bildungsrepräsentativ, 40% Abitur, 60% kein Abitur; die entsprechenden Daten wurden durch Stratifizierung erzeugt)
(1b) Personen mit (fachgebundenem) Abitur
(1c) Personen ohne (fachgebundenes) Abitur

Altersspezifische Kategorien

(2a) Gesamt (ohne Altersdifferenzierung)
(2b) 14-17 Jahre
(2c) 18 Jahre
(2d) 19-22 Jahre
(2e) 23-27 Jahre
(2f) 28 und älter

Somit stehen insgesamt 18 (drei mal sechs) Normen / Normgruppen pro Subtest zur Verfügung.

Profilbogen (1/2)

Profilbogen (2/2)

Der WIT-2 liegt sowohl als Papier-und-Bleistift Test als auch als Computertest vor. Im Rahmen des Hogrefe-Testsystems (HTS) wird eine computergestützte Version des WIT-2 angeboten. Der Test kann sowohl über Einzelplatzrechner als auch über Netzwerke oder über das Internet administriert werden. Durch die Nutzung der Computerversion des WIT-2 wird die Auswertungsobjektivität erhöht und die Auswertungsökonomie drastisch gesteigert. Die Computerversion unterstützt die Urteilsfindung und Befundung / Gutachtenerstellung. Weitere Informationen unter www.hogrefe-testsystem.com.

Testkuratorium der Föderation Deutscher Psychologenvereinigungen (2010). TBS-TK. Testbeurteilungssystem des Testkuratoriums der Föderation Deutscher Psychologenvereinigungen. Revidierte Fassung vom 09. September 2009. Psychologische Rundschau, 2010, 61, 52-56.

Download

Kersting, M. (2006). Zur Beurteilung der Qualität von Tests: Resümee und Neubeginn. Psychologische Rundschau, 57, 243-253.

Download

Kersting, M. (2007). Wenn Tests in die Jahre kommen. Probleme des Einsatzes überalterter Testverfahren. In C. Lorei (Hrsg.), Polizei und Psychologie (S. 565-577). Frankfurt: Verlag für Polizeiwissenschaft.

Download

Die DIN 33430 formuliert „Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen“ und gibt den Stand von Wissenschaft und Technik in diesem Bereich wieder. Die Checkliste 1 der DIN Screen gibt die Forderungen der DIN 33430 wieder, die sich auf Verfahrenshinweise (Handanweisungen / Testmanuale) beziehen. Sie wurde vom Testkuratorium der Föderation Deutscher Psychologenvereinigungen offiziell zum „Standard zur Information und Dokumentation von Instrumenten zur Erfassung menschlichen Erlebens und Verhaltens“ erklärt. (Für weitere Informationen zur DIN Screen: Hier klicken) Der WIT-2 berücksichtigt diesen (sowie weitere) Qualitätsstandard(s). Eine Tabelle im Anhang der Verfahrenshinweise zum WIT-2 gibt konkret Auskunft darüber, wo in den Verfahrenshinweisen die nach DIN 33430 geforderten Informationen zu finden sind. Darüber hinaus beachtet der WIT-2 die vom Testkuratorium (2006) formulierten Qualitätsstandards.

Kersting, M. (2006). Zur Beurteilung der Qualität von Tests: Resümee und Neubeginn. Psychologische Rundschau, 57, 243-253. (pdf)
Testkuratorium der Föderation Deutscher Psychologenvereinigungen (2010). TBS-TK. Testbeurteilungssystem des Testkuratoriums der Föderation Deutscher Psychologenvereinigungen. Revidierte Fassung vom 09. September 2009. Psychologische Rundschau, 2010, 61,, 52-56. (pdf)

Weitere Informationen zur DIN 33430 finden Sie in:

Kersting, M. (2008). Qualität in der Diagnostik und Personalauswahl: Der DIN Ansatz. Göttingen: Hogrefe.
Diagnostik- und Testkuratorium (Hrsg.) (2018). Personalauswahl kompetent gestalten: Grundlagen und Praxis der Eignungsdiagnostik nach DIN 33430. Berlin: Springer. (DOI 10.1007/978-3-662-53772-5)

Für weitere Informationen bitte hier klicken.

Eintägiger Workshop: Intelligenztests in der Personalauswahl und -entwicklung

Tests zur Erfassung kognitiver Kompetenzen erlauben nachweislich treffsicherere Prognosen des Ausbildungs- und Berufserfolgs als rein beobachtungsgestützte Assessment Center (AC) und Interviews, wurden bislang jedoch nur selten eingesetzt. Dies ändert sich, die neuesten Studien zeigen einen Trend zum verstärkten Einsatz von psychometrischen Tests, z.B. im Rahmen von Assessment Centern. In dem Workshop werden die Vorbehalte gegen Intelligenztests diskutiert und es werden Möglichkeiten aufgezeigt, wie Intelligenztests akzeptabel und effizient in bestehende Beurteilungsprozesse (z.B. AC und Interviews) integriert werden können. Zudem werden Argumentationshilfen für die Integration und Implementierung gegeben. Im Mittelpunkt des Workshops stehen Informationen über Intelligenzmodelle und über verschiedene konkrete Intelligenztestverfahren.

Informationsflyer

Download

Bitte wenden Sie sich an Martin Kersting.

Bezugsquelle und Preise: www.hogrefe.de

Aktuelles+

Rezensionen zum WIT-2

Aktuelle Studien

Rückmeldung

Einsatzmöglichkeiten+

Besonderheiten+

Alter und neuer WIT+

Intelligenzmodell+

(1) Facettenansatz

(2) Hierarchie-Annahme

(3) Kognitive Korrelate Ansatz

Testaufbau & -dauer+

Testdauer

Testaufbau WIT-2: Flexibles System aus acht separat einsetzbaren und frei kombinierbaren Modulen

Die 11 Subtests des WIT-2

Objektivität+

Itemkennwerte+

Einzelaufgaben – Gesamtgruppe: Schwierigkeiten der Einzelaufgaben

Einzelaufgaben – Gesamtgruppe: Trennschärfen der Aufgaben (rit mit Subtest)

Reliabilität+

Reliabilitätsschätzungen für die WIT-2 Subtests und Skalen (Retest und Cronbachs Alpha)

Validität+

Kriteriumsvalidität

Kriteriumsvalidität: Validitätsgeneralisierung

Kriteriumsgültigkeiten vergleichbarer Verfahren

Metaanalyse für verschiedene Intelligenztests (Hülsheger et al., 2006)

Metaanalyse zur Kriteriumsvalidität der WIT-1 Subtests

Kriteriumsvalidität. Metaanalyse zur Kriteriumsvalidität derjenigen Subtests des WIT-1, die auch im WIT-2 enthalten sind (Lang, Kersting & Lang, under review)

Empirische Untersuchungen zur Kriteriumsvalidität des WIT-2

Konstruktvalidität

Akzeptanz+

Normen+

Ergebnisprofil+

via PC / Internet+

Downloads+

PowerPoint Präsentation zum WIT-2

Kurzinformation zum WIT-2 sowie Bestellschein

Newsletter der Testzentrale – Gespräch mit dem WIT-2 Autor

Testkuratorium der Föderation Deutscher Psychologenvereinigungen (2010). TBS-TK. Testbeurteilungssystem des Testkuratoriums der Föderation Deutscher Psychologenvereinigungen. Revidierte Fassung vom 09. September 2009. Psychologische Rundschau, 2010, 61, 52-56.

Kersting, M. (2006). Zur Beurteilung der Qualität von Tests: Resümee und Neubeginn. Psychologische Rundschau, 57, 243-253.

Kersting, M. (2007). Wenn Tests in die Jahre kommen. Probleme des Einsatzes überalterter Testverfahren. In C. Lorei (Hrsg.), Polizei und Psychologie (S. 565-577). Frankfurt: Verlag für Polizeiwissenschaft.

DIN 33430+

Seminar zum WIT-2+

Informationsflyer

Kontakt+

Einzelaufgaben – Gesamtgruppe: Trennschärfen der Aufgaben (r_it mit Subtest)