Bachmann, Robin

Teilpunktvergabe und deren Auswirkung auf psychometrische Kennwerte.

Bachelorarbeit, 30. Mai 2016

Die Intelligenz, als am besten untersuchte Persönlichkeitseigenschaft, ist in der Lage, berufliche und schulische Leistung vorherzusagen (Asendorpf, 2015). Um diagnostische Entscheidungen anhand von Intelligenztests zu verbessern, ist eine Erhöhung der Gütekriterien sinnvoll. In dieser Arbeit wird die Vergabe von Teilpunkten (Polytomisierung) auf falsche Antwortalternativen betrachtet, um Reliabilität, Validität und die Akzeptanz nach Kersting (2008) zu steigern. Für die Validität wurde zusätzlich geprüft, ob sich auch Fähigkeitsschätzer der IRT gegenüber dem Summenscore der KTT auf die Kriteriumsvalidierung auswirken. Insgesamt wurden 12 Kriterien erhoben. Dafür wurde das Verfahren nach Meng, Rubin und Rosenthal (1992) zum Vergleich der Korrelationen angepasst.
Eine größtenteils studentische (86.4 %) Stichprobe (N = 419) löste dazu die Aufgaben des Hagener Matrizentests (Heydasch, Renner, Haubrich, Hilbig, & Zettler, 2014). Die Reliabilität verschlechterte sich wider Erwarten bei polytomer Punktvergabe. Für die Mathematik-Note wurde ein signifikanter Unterschied zugunsten der dichotomen Punktvergabe gefunden, für die Kunst-Note führte die polytome Punktvergabe zu einem höheren Validitätskoeffizienten. Eine inhaltliche Begründung für diese Befunde konnte nicht gegeben werden. Unterschiede in der Akzeptanz ließen sich auf Leistungsunterschiede in den Gruppen zurückführen. Zukünftige Forschung sollte sich auch mit der Güte der Kriterien, welche zur Validierung eingesetzt werden, beschäftigen.

Partial Credit Scoring and its impact on psychometric values.

Intelligence, the most researched personality trait, is able to predict performance in scholastic and professional settings (Asendorpf, 2015). To improve diagnostic decissions based on intelligence tests, an increase of psychometric values is appropriate. Partial credit scoring as a possibility to increase reliability, validity and acceptance based on Kersting (2008) is the main interest of this bachelor thesis. Additionally it was of interest, whether ability estimators of the IRT, compared to the sum score of the CTT, have an impact on criterion validity. All in all, 12 criterias were examined. An adjusted method of Meng, Rubin and Rosenthal (1992) was used for testing the differences between correlations.
The large part of the sample (N = 419) were students (86.4 %), which had to solve items of the Hagen Matrices Test (Heydasch, Renner, Haubrich, Hilbig, & Zettler, 2014). Contrary to expectations, reliability calculated with partial credit scoring was found decreased. Partial credit scoring decreased significantly the criterion validity of the math grade and increased significantly the criterion validity of the art lessons grade. No reason as it regards the content of these findings can be given. Differences concerning the acceptance, can be explained by the variance of the baseline performance between the groups. Future research should focus on the psychometric values of the criterias used for validation.

Bachmann, Robin

Die (fast) unendliche Geschichte der partial credits: Varianten der Teilpunktevergabe und ihre Auswirkungen auf die Kriteriumsvalidität eines kognitiven Leistungstests

Masterarbeit, 8. Januar 2019

Intelligenz dient als Prädiktor für Kriterien wie Suizidalität (Voracek, 2003) oder schuliche und beru iche Leistung (Asendorpf, 2015). Alle diagnostischen Schlussfolgerungen, die aufgrund eines Prädiktors, wie Intelligenz, nach einer Testung getroffen werden, sind durch die psychometrischen Kennwerte dieses Tests determiniert. Der Fokus dieser Arbeit liegt auf der Verbesserung der Kriteriumsvalidität. Um eine erstrebenswerte Verbesserung dieser herbeizuführen, besteht die Möglichkeit der Vergabe von Teilpunkten auf falsche Antwortoptionen. Versuche einer Antwortgewichtung durch Expertenurteil wurden bereits in einer früheren Untersuchung (Bachmann, 2016) durchgeführt. In der Weiterentwicklung dieser Studie wurden die Befunde analysiert und eine empirische, mathematisch optimierte Teilpunktvergabe in Form einer Rohdatentransformation mit anschließender Teilaufgabengewichtung umgesetzt. Als Intelligenztest wurde ein selbst entwickeltes Verfahren zur Erfassung der guralen Fähigkeit verwendet (ORK-18; Bachmann, 2018). Die Stichprobe war rein studentisch (N = 262) und neben dem Test wurden elf weitere Kriterien erfasst. Die Methodik der optimierten Teilpunktvergabe führte erwartungsgemäß zu signi kanten Verbesserungen der Kriteriumsvalidität im Vergleich zu den Rohdaten. Außerdem konnten Determinanten für eine erfolgreiche Optimierung festgelegt werden. Eine allgemeingültige Teilpunktvergabe, welche stets zu verbesserten Gütekriterien führt, unabhängig von Test, Stichprobe und Kriterium, existiert nicht. Eine optimierte Teilpunktvergabe ist für einen spezi schen Test mit einer spezi schen Stichprobe für ein spezi sches Kriterium möglich. Die erzielten Verbesserungen lassen sich teilweise auf ein anderes Kriterium übertragen, falls dieses statistisch abhängig von dem Ursprungskriterium ist. Die dargestellte Methodik kann in dieser Form bereits in der Praxis zur Optimierung angewandt werden. Für gezielte Modi kationen dieses Verfahrens bedarf es zukünftiger Forschung. Im Einklang mit Bachmann (ebd.) sollte Kriteriumsvalidierung mithilfe von Korrelationskoef zienten kritisch betrachtet werden und sich mit Qualitätsstandards von Kriterien sowie alternativen Studiendesigns zur Validierung auseinandergesetzt werden.

Intelligence is a predictor for suicidality (Voracek, 2003) or performances in occupational and scholastic contexts (Asendorpf, 2015). All drawn psycho-diagnostic conclusions, which are based on predictors such as cognitive ability tests, are determined by the set psychometric values of the test. This thesis focuses on the improvement of criterion validity. The assignment of partial credits to incorrect options allows the possibility of improving psychometric values. Several attempts of a partial credit assignment by experts have already been conducted (Bachmann, 2016). These results were analysed, and led to an empiric, mathematically optimized approach to assigning partial credits. This assignment is a combination of the transformation of raw test data and an empirical weighting procedure for the subtasks of the test. A self-developed test (ORK-18; Bachmann, 2018) for assessing deductive and spatial reasoning was used. The sample consisted of only students (N = 262) and eleven additional criteria were gathered. The described method of assigning partial credits showed expected signi cant improvements to criterion validity in comparison to untransformed raw data. Additionally, determinants of a successful optimization were found. A universally valid way of assessing partial credits, that leads to improved psychometric values every time, independent of test, sample, and criterion, does not exist. There is only one possible way for an optimized partial credit scoring. One must use a speci c test on a speci c sample for a speci c criterion. Shown improvements may be partially transfered to another criterion, if the criterion is statistically dependent from the original criterion. The method used in this study can also be applied for optimization in practical contexts. Future research should utilize with speci c modications of this procedure. In accordance with Bachmann (ibid.) criterion validity by means of correlation coef cients should be critically considered, as the examination of quality standards for criteria, as well as alternative study designs of the validation process, appear to be bene cial.

Brenner, Marie-Sophie

Rechtschreibung: Mehr als Orthographie? Zur Konstrukt- und Kriteriumsvalidität eines Interpunktionstests.

Bachelorarbeit, 20. Mai 2013

Ist Rechtschreibung mehr als Orthographie? Bei der Erfassung von Rechtschreibung wird die Interpunktion häufig nicht berücksichtigt. Dabei stellt die Kommasetzung einen der fehlerträchtigsten Bereiche der Rechtschreibung dar (Metz, 2005). Zur Beantwortung dieser Frage wurde in erster Linie der Zusammenhang zwischen Orthographie- und Interpunktionsleistung analysiert. Des Weiteren sollte ein Interpunktionstest des Zentrums für fremdsprachliche und berufsorientierte Kompetenzen der Justus-Liebig-Universität Gießen auf seine Konstrukt- und Kriteriumsvalidität untersucht werden. Die Forschungsstichprobe bildeten 75 Gymnasiasten der Oberstufe. Eine Testbatterie, bestehend aus zwei Rechtschreibtests, zwei Interpunktionstests, zwei Subtests des BIS-4 zur fluiden Intelligenz und dem MWT-B, kam zum Einsatz. Es wurde ein mittlerer Zusammenhang zwischen Orthographie- und Interpunktionsleistung gefunden. Beide Konstrukte korrelierten gering mit allgemeiner Intelligenz. Darüber hinaus wies die Interpunktionsleistung einen geringen Zusammenhang mit fluider und die Orthographieleistung einen mit kristalliner Intelligenz auf.
Zwischen Schulnoten und Orthographie- beziehungsweise Interpunktionsleistung gab es keine signifikanten Korrelationen bis auf eine geringe mit der Mathematiknote. Insgesamt sprechen die Befunde für die Annahme, dass Interpunktion, genau wie Orthographie, Teil des übergeordneten Konstrukts der „RECHTschreibung“ im Sinne normgetreuer Schreibung ist (Nerius et al., 2007). Die Konstruktvalidität des Zeichensetzungstests konnte zum Teil belegt werden.

Is spelling more than just orthography? In the assessment of spelling ability punctuation is often not included, although punctuation is one of the areas most prone to mistakes (Metz, 2005). In order to answer this question, the relationship between orthography and punctuation performance was analysed. Furthermore a punctuation test (Zentrum für fremdsprachliche und berufsorientierte Kompetenzen, Justus-Liebig-Universität Gießen) was examined regarding its construct and criterion validity. The sample was made up of 75 pupils who were attending a German high school. A row of tests, consisting of two spelling tests, two punctuation tests, two BIS-4 subtests for fluid intelligence and the MWT-B were used. Results indicate a medium correlation between orthography and punctuation performance. Both constructs showed slight correlations to general intelligence. What is more, punctuation performance was slightly related to fluid intelligence and orthography performance to crystallized. There were no significant links between school grades and orthography or punctuation performance, apart from a low correlation to math grades. All in all, the results imply that punctuation, just like orthography, is part of the overlying construct of spelling ability (Nerius et al., 2007). The punctuation test’s construct validity could partly be confirmed.

Endres, Annika

Veränderung des Antwortformats bei Intelligenztests: Der Einfluss einer ökologisch valideren Gestaltung auf die Kriteriumsvalidität.

Bachelorarbeit, 29. Mai 2017

In der vorliegenden Arbeit wurde untersucht, welchen Effekt der Einsatz eines ökologisch valideren offenen Antwortformates, im Gegensatz zum Multiple Choice Antwortformat, auf die Kriteriumsvalidität von Intelligenztests hat. Des Weiteren wurde überprüft, ob geschlechtsspezifische Leistungsunterschiede bei der Bearbeitung von Aufgaben mit diesen unterschiedlichen Antwortformaten gefunden werden können. Die Untersuchung bestand aus einem Onlinefragebogen und einer Vor-Ort-Testung, an der insgesamt 99 Personen teilnahmen. Bei der Vor-Ort-Testung bearbeiteten die Testteilnehmer der Experimentalgruppe die Subtests ‘Analogien’ und ‘Tabellen lesen’ aus dem WIT-2 (Kersting, Althoff & Jäger, 2008) mit offenem Antwortformat und die Kontrollgruppe mit Multiple Choice Antwortformat. Es zeigte sich, dass die Kriteriumsvalidität nicht höher ausfällt, wenn ein ökologisch valideres offenes Antwortformat eingesetzt wird. Zudem wurden keine geschlechtsspezifischen Leistungsunterschiede hinsichtlich der Antwortformate bei Intelligenztests gefunden. Eine häufigere Verwendung des offenen Antwortformates zur Erhöhung der Kriteriumsvalidität scheint nicht erforderlich zu sein.

Variation of Response Format of Intelligence Tests: The Impact of a More Ecological Valid Design on the Criterion Validity.

In the present study, the effect of using a more ecological valid open-ended response format in contrast to the multiple choice response format on the criterion validity of intelligence tests was examined. Furthermore, gender differences on test performance with these different response formats were studied. The study consisted of an online questionnaire and a presence test with 99 participants. In the presence test, the experimental group took the subtests ‘analogies’ and ‘reading tables’ as parts of the WIT-2 (Kersting, Althoff & Jäger, 2008) with the open-ended response format and the control group with the multiple choice response format. It could be demonstrated that the criterion validity is not higher if a more ecological valid open-ended response format is used. In addition, no gender differences in relation to the response formats of intelligence tests were found. A more frequent use of the open-ended response format seems not to be necessary to increase the criterion validity.

Enninga, Imko

Prüfung der Leistungsdifferenzierungshypothese der Intelligenz.

Diplomarbeit, 29. November 2004

Gegenstand der Arbeit ist eine Prüfung der Leistungsdifferenzierungshypothese der Intelligenz (LDH). Diese Hypothese besagt, dass bei höher in­telligenten Individuen der Generalfaktor eine geringere Bedeutsamkeit bei der Er­klärung von kognitiven Leistungen besitzt als bei niedriger intelligenten Personen. Anders betrachtet, nimmt mit zunehmender Leistungshöhe die Bedeutung der spe­zi­fi­schen Varianz der einzelnen Subtests zu. Auf Spearman (1927) zurückgehend, wurde die LDH in den 1950er und 1960er Jahren in Deutschland untersucht (z.B. Wewetzer, 1958) und gewann durch Studien in den USA in jüngerer Zeit wieder hohe Aktualität (z. B. Jensen, 2003).
Ein Schwerpunkt der Darstellung liegt auf dem Einfluss der Unter­­suchungs- bzw. Ana­lyse­methoden auf die Befunde zur LDH. Ziel der Arbeit ist es, die methodischen Pro­bleme bisheriger Publikationen zu überwinden und notwendige Bedingungen der Hypo­thesenprüfung umfassend zu kontrollieren. Die häufig eingesetzten globalen Ana­lyseverfahren wurden durch weitere Verfahren, z.B. konfirmatorische Faktorenana­lysen ergänzt, um eine genauere Prüfung auf Unterschiede der Faktorenstruktur zu ermöglichen. Im Rahmen von Untersuchungen zur Konstruktvalidität des WILDE In­telligenztest R (WIT-R; Kersting, Althoff & Jäger, in Vorbereitung) wurden 650 Pro­ban­den mit ins­ge­samt 18 Aufgabengruppen untersucht. Ein in der Gesamtgruppe identi­fiziertes, von 13 Variablen konstituiertes Faktorenmodell wurde auf Unter­schiede in hoch- und niedrig leistungsfähigen Subgruppen getestet. Im Rahmen ver­schiedener Varianten der Subgruppenselektion wurden zumeist die übrigen fünf Auf­gaben­gruppen als unabhängige Selektionsvariablen genutzt.
Es ergaben sich der LDH diametral entgegenstehende Befunde, d.h. für niedriger leistungsfähige Probanden wurde tendenziell eine höhere Differenziertheit der Intelligenzstruktur festgestellt. Anschließende Betrachtungen der Subtestverteilungen deuteten an, dass die gefundenen Differenzen zumindest teilweise auf Variabilitätsunter­schiede in den einzelnen Tests zurückzuführen sind. Insgesamt sprechen die Befunde deshalb für invariante Intelligenzstrukturen bei unterschiedlich leistungs­fähigen Personen. Weitere Vergleiche von Männern und Frauen sowie Probanden unter­schiedlichen Bildungsniveaus ergaben keine Hinweise auf kognitive Strukturunterschiede. Dies galt auch für den Vergleich zweier Teilstichproben aus Schülern und Rehabilitanden.

Ferré Wüchner, Caterina

Steckt der Effekt in der Drehung? Mentale Rotation als Vermittler von geschlechterspezifischen Unterschieden in spatial visualization

Bachelorarbeit, 26. Juni 2024

In dieser Arbeit wird der Zusammenhang von dem sozialen Geschlecht sowie dem pränatalen Verhältnis von Testosteron und Estradiol (T-E-Verhältnis) mit zwei Subkategorien figuraler Intelligenz: spatial visualization (SV) und mental rotation (MR) untersucht. Es wird erwartet, dass Männer in beiden Kategorien besser abschneiden und dieser Effekt bei MR größer ist. Zudem werden Mediationen des geschlechterspezifischen Effekts bzw. des T-E-Verhältnisses auf SV über MR getestet. Soziales Geschlecht wird als dreidimensionales Konstrukt verstanden. Die Untersuchung wurde als Online-Studie auf SoSci Survey konzipiert. Soziales Geschlecht wurde einerseits kategorial (weiblich, männlich, divers), andererseits dimensional mittels drei Skalen (weiblich, männlich, divers) erhoben. Das T-E-Verhältnis wurde über das Fingerlängenverhältnis 2D:4D geschätzt, welches anhand von Fotos der Hände gemessen wurde. Für MR wurde der Schlauchfiguren-Test, für SV der eigens modifizierte Test ECKE-S angewendet. Teilgenommen haben 193 Personen (w = 144, m = 47, d = 2) aus verschiedenen Ausbildungsfeldern. Die Mehrheit war im Alter von 20 bis 30 Jahren (78.8 %). Wider Erwarten wurde nur bei SV ein signifikanter Effekt zugunsten von Männern gefunden (MR wurde im direkten Vergleich Frauen-Männer signifikant). Dementsprechend ist der beobachtete Effekt bei MR nicht größer. Die postulierte Mediation über MR konnte nur anhand der weiblichen Geschlechtsdimension gezeigt werden. Zwischen 2D:4D und der Testleistung wurde kein Zusammenhang beobachtet. Bezüglich der Zuordnung der Verfahren zu den Subkategorien figuraler Intelligenz sowie der statistischen Auswertung des dimensional erfassten Geschlechts gibt es einige Limitationen. Weitere Studien, die sich näher mit diesen Aspekten auseinandersetzen, sind empfohlen.

This study investigates the relationship between gender as well as the prenatal ratio of testosterone to estradiol (T-E ratio) and two subcategories of spatial ability: spatial visualization (SV) and mental rotation (MR). It is hypothesized that men will perform better in both categories, with a greater effect expected for MR. Additionally, mediations of the gender-specific effect and the T-E ratio on SV via MR are tested. Gender is conceptualized as a three-dimensional construct. The study was designed as an online survey using SoSci Survey. Gender was assessed both categorically (female, male, nonbinary) and dimensionally using three scales (female, male, nonbinary). The T-E ratio was estimated through the digit ratio 2D:4D, measured from photographs of participants‘ hands. The „Schlauchfiguren“ test was used for MR and the personally modified test ECKE-S for SV. A total of 193 individuals from various professional backgrounds participated (f = 144, m = 47, nb = 2). The majority were aged 20 to 30 years (78.8%). Contrary to expectations, a significant effect favoring men was found only in SV (MR was significant in the female-male comparison). Consequently, the observed effect in MR is not greater than in SV. The hypothesized mediation through MR was demonstrated only for the female dimension of gender. No relationship was observed between 2D:4D and test performance. This study contains limitations regarding the classification of the tests into the subcategories as well as the statistical analysis of dimensionally assessed gender. Further studies that delve into these aspects are recommended.

Koch, Melanie

Leistungsdiagnostik im digitalen Zeitaler – Die Rolle von Persönlichkeit und Testangst bei der Verwendung von Bearbeitungsstrategien in figuralen Fähigkeitstests.

Bachelorarbeit, 29. Mai 2017

Im Rahmen der Digitalisierung spielen Online-Tests eine zunehmend wichtige Rolle für Selektionsentscheidungen. Hinsichtlich des Bearbeitungsverhaltens verschiedener Testmaterialen konnten im Papier-Bleistift Format die beiden Bearbeitungsstrategien constructive matching und response elimination differenziert werden (Snow, 1980). Die Ursache der Strategiewahl wurde bisher ausschließlich in Fähigkeitsunterschieden begründet. Ziel unserer Studie war eine Untersuchung potentieller Assoziationen zwischen der Testangst, sowie der Persönlichkeit und den Bearbeitungsstrategien. Im Zuge dessen mussten Versuchspersonen in einer Online-Studie einen Matrizentest und verschiedene Fragebogen hinsichtlich ihrer Person bearbeiten. Die Erfassung der Bearbeitungsstrategien erfolgte ebenfalls mittels eines Fragebogens. Bezüglich der Testangst konnte eine negative Assoziation zwischen der Interferenz und dem berichteten Einsatz der erfolgreicheren constructive matching Strategie festgestellt werden. Im Hinblick auf die Persönlichkeit zeigte sich ein Zusammenhang zwischen Neurotizismus und der berichteten Ablenkbarkeit durch das Testdesign. In weitergehenden Analysen konnten zusätzliche Verbindungen zwischen den Bearbeitungsstrategien und der Akzeptanz des durchgeführten Matrizentests ermittelt werden. Die Studie vereint verschiedene Forschungszweige und bietet Ansätze für ein erfolgreicheres Testdesign im Rahmen von Online-Tests.

In the context of digitalization, online tests play an increasingly important role for selection decisions. Regarding the processing methods in the context of different testing materials, the paper-pencil format allowed a distinction between two used strategies: constructive matching and response elimination (Snow, 1980). Hitherto, the strategy chosen by the test person was thought to be the result of exclusively his or her aptitude.The goal of our study was an investigation of potential associations between test anxiety, personality and the strategies. In an online study, the test subjects had to complete a matrices test and fill out various questionnaires concerning their personality traits, experiences with test anxiety et cetera. The strategies were acquired through a questionnaire as well. Regarding test anxiety, a negative association between the interference and the reported use of the more successful constructive matching strategy has been ascertained. Regarding the personality, a correlation between neuroticism and the reported susceptibility for distraction through the design of the test became apparent. In further analyses, additional connections between the strategies and the acceptance of the matrices test were found. The study combines several fields of research and offers approaches to a more successful test design for online tests.

Kohlrautz, Sarah

Der Einfluss der Persönlichkeit bei Leistungstests.

Diplomarbeit, 19. Juni 2006

Intelligenz und Persönlichkeit stehen häufig gemeinsam im Interesse der Berufseignungsdiagnostik, werden aber zumeist separat konzeptualisiert und untersucht. Die Diplomarbeit widmet sich auf theoretischer Ebene dem Zusammenspiel der beiden Konstrukte und auf empirischer Ebene der Korrelation zwischen Testleistungen, die den beiden Konstrukten zugeordnet werden können. Grundlegende Annahme ist, dass es Personen mit bestimmten Persönlichkeitsmerkmalen sind, die bei so genannten Arbeitsproben (z. B. zur Simulation von Büroroutinetätigkeiten) besonders gut abschneiden. Der Bereich der Intelligenz wird in der Diplomarbeit durch die drei Dimensionen (1) Schlussfolgerndes Denken, (2) Bearbeitungsgeschwindigkeit und (3) Arbeitseffizienz repräsentiert. Aus dem Bereich der Persönlichkeit werden die Konstrukte Gewissenhaftigkeit und Perfektionismus untersucht. Dabei wird davon ausgegangen, dass sich ein Einfluss der Persönlichkeit nur bei Testaufgaben zeigt, die einerseits eine gewisse Bearbeitungsdauer in Anspruch nehmen (also nicht bei den kurzen Aufgaben zur Bearbeitungsgeschwindigkeit) und deren Lösung andererseits nicht wesentlich durch die Fähigkeit zum logischen Denken bestimmt ist (wie bei den Aufgaben zum schlussfolgernden Denken).
Zur Prüfung der Annahmen wurde eine Studie mit 111 Personen durchgeführt. Als zentrales Ergebnis kann festgehalten werden, dass es einen (schwachen) Zusammenhang zwischen den Intelligenz- und den Persönlichkeitsindikatoren gibt. Wie erwartet stehen Gewissenhaftigkeit und Perfektionismus nominell enger mit den Leistungen in den Aufgaben zur Arbeitseffizienz in Zusammenhang als mit den Leistungen in Aufgaben zur Bearbeitungsgeschwindigkeit und zum schlussfolgernden Denken. Der Unterschied in den Korrelationshöhen verfehlt aber die statistische Signifikanz. Bei der Vorhersage der Leistungen in der Arbeitseffizienz kann nur die Facette Kompetenz gegenüber der Bearbeitungsgeschwindigkeit und dem schlussfolgerndem Denken inkrementell zur Varianzaufklärung beitragen, nicht aber, wie erwartet, die Gewissenhaftigkeit oder der Perfektionismus.

The paper deals with the influence of perfectionism (Stöber, 2004) and conscientiousness (NEO-PI-R, Ostendorf & Angleitner, 2004) on three dimensions of intelligence. Among the „classical“ dimensions of intelligence are reasoning (WIT-2, Kersting et al., in press) and speed (BIS-4, Jäger, Süß & Beauducel, 1997) as well-known parts of different intelligence models. The third factor is work efficiency as a new dimension. The three factors have been confirmed by factor analysis. Furthermore analyses of regressions and correctional analyses revealed an influence from „negative reactions to imperfection“ on reasoning and speed. Conscientiousness, especially competence was more important for work efficiency in comparison to the other facets.

Leimbach, Nicole

Versuch einer Integration von Rechtschreibleistungen in die Intelligenzstrukturforschung.

Diplomarbeit, 30. September 2005

Für die Diagnose von Rechtschreibleistungen stehen unterschiedliche diagnostische Verfahren zur Verfügung. Entweder müssen vorgegebene Wörter hinsichtlich der Korrektheit der Schreibweise beurteilt werden („Richtig-Falsch Format“ sowie „Multiple-Choice Format“) oder aber Wörter müssen aktiv geschrieben werden („vollständiges Diktat“ oder „Lückendiktat“). Die zuerst genannte Erhebungsform unterscheidet sich wesentlich vom Diktat, da die relevante Information hier gelesen und nicht, wie beim Diktat, gehört wird. Die Methode des Diktats kommt der Alltagsanforderung des fehlerlosen Schreibens von Texten am nächsten, da auch im Alltag häufiger die Lösungsfindung selbsttätig erfolgen muss und – anders als bei dem Richtig-Falsch-Format und beim Multiple-Choice Format – nicht auf Vorgaben aufgebaut werden kann. Praktiker stehen dem Multiple-Choice Format als Methode der Diagnostik von Rechtschreibleistungen daher skeptisch gegenüber. Allerdings ist die Diktatform weniger auswertungsobjektiv und testökonomisch als das Multiple-Choice Format. In der im Rahmen der Diplomarbeit ausgewerteten empirische Studie mit 200 Personen wird die Methode zur Diagnostik der Rechtschreibleistungen systematisch variiert und kontrolliert, indem ein und dieselben Anforderungen an die Rechtschreibung einmal in Form eines Lückendiktats und einmal in Form eines Multiple-Choice Test gestellt werden, wobei die Darbietungsabfolge kontrolliert wird. Bei dem eingesetzten Multiple-Choice Test handelt es sich, und das ist der „Pfiff“ der Untersuchung, um eine isomorphe Variante des Lückendiktats: Mit beiden Methoden wird die Beherrschung der Rechtschreibung anhand der gleichen Wörter überprüft. Dies bedeutet, dass die beiden diagnostischen Verfahren inhaltlich identisch sind und sich nur hinsichtlich des Itemformats unterscheiden. Beim parallelen Einsatz der Verfahren können so Effekte der Darbietungsform überprüft werden. Als zentraler Befund der Diplomarbeit kann festgehalten werden, dass die Formatvariation sich nicht wesentlich auf die Kriteriums- und Konstruktvalidität auswirkt (operationalisiert über die Beziehungen zu Schulnoten sowie zu verschiedenen Intelligenzfacetten).

Oppe, Maike

Arbeitsproben und Leistungstests in der Personalauswahl von Call Center Agents.

Diplomarbeit, 24. Mai 2004

Gegenstand der Diplomarbeit ist die Evaluation dreier Arbeitsproben (computerbasierter Trainierbarkeitstest, Rollenspiel, Gruppendiskussion) sowie dreier Leistungstests (SPM, Subtest „Beziehungen erschließen“, Cognitrone) die im Rahmen eines Personalauswahlverfahrens von Call Center Agents bei einer deutschen Direktbank appliziert wurden. Der Fokus der Arbeit liegt in der Bestimmung der prädiktiven Validität der verschiedenen Verfahrensarten, wobei speziell der Frage nachgegangen wird, ob sich im vorliegenden Untersuchungskontext die Arbeitsproben als Vertreter des Sample-Ansatzes oder die Leistungstests als Repräsentanten des Sign-Ansatzes in der Vorhersagevalidität bezogen auf Kriterien des beruflichen Erfolgs als überlegen erweisen. Der Feldstudie standen Prädiktordaten von 302 Bewerbern zur Verfügung, welche das Assessment Center der Direktbank durchliefen. Für die Kriteriumsvalidierung waren sowohl eine Leistungsbeurteilung (N=124) als auch Vertriebsergebnisse (N=102) der Telefonagenten erhältlich.  Lediglich die SPM und die Gruppendiskussion erwiesen sich mit spezifischen Einschränkungen als prognostisch valide. Ansonsten erzielten  weder die einzelnen Personalauswahlbausteine noch verschiedene Aggregationen der Verfahren einen bedeutsamen Zusammenhang mit den Kriterien. In der Konsequenz blieb die Frage nach der Überlegenheit einer der beiden Verfahrensgruppen unbeantwortet. Abschließend diskutiert die Arbeit verschiedene Möglichkeiten, die für die mangelnde prognostische Validität verantwortlich sein könnten. Aus der Diskussion werden einerseits Modifikationsvorschläge konkret bezogen auf die Verfahren abgeleitet und andererseits Ansatzpunkte für die weitere Forschung im eignungsdiagnostischen Kontext von Call Centern aufgezeigt.

Risse, Miriam

„Bitte stören!“ – Wie sich die ökologischere Gestaltung eines Intelligenztests auf die Kriteriumsvalidität auswirkt.

Bachelorarbeit, 29. Mai 2017

Das Ziel dieser Untersuchung war, eine Intelligenztestung unter alltagsnäheren Bedingungen durchzuführen und somit die Kriteriumsvalidität des Verfahrens zu erhöhen. Die ökologischere Gestaltung wurde mit Hilfe auditiver Stimuli umgesetzt. Des Weiteren sollten, beruhend auf Eysencks Arousal-Theorie (1967, zit. nach Eysenck, 2009), die Testleistungen in Abhängigkeit der Extraversion untersucht werden. Dafür bearbeitete eine Gesamtstichprobe (N = 87) eine Reihe verschiedener Intelligenztests, wobei in einem Teil der Stichprobe (n = 42) während der Testbearbeitung Geräusche eingebaut wurden. Die Daten belegen einen teilweise signifikanten Anstieg der Kriteriumsvaliditäten in der Experimentalgruppe. Die Annahme, dass Extravertierte besser unter Geräuschen performen, konnte anhand der Daten nicht bestätigt werden. Darüber hinaus weisen die Daten einen gegensätzlichen Trend auf. Ob die Ergebnisse auf die Fragwürdigkeit des Zusammenhangs zwischen Arousal und Performance oder auf andere Variablen der Testung zurückzuführen sind, bleibt zu überprüfen.

Please disturb!“ – How a more ecological design of an intelligence test affects the criterion validity.

The idea of this study was to investigate the effect of a more ecological design of an intelligence testing to increase the criterion validity. This was realized by using auditory stimuli. Furthermore, based on Eysencks arousal theory (1967, zit. nach Eysenck, 2009), the performance was examined depending on the degree of extraversion. The paticipants (N = 87) were instructed to treat a set of different intelligence subtests. Thereby some of them (n = 42) had to accomplish the tests under auditory stimulation. The results proove an increase in criterion validity which is partly significant. The assumption of extraverts performing better under noisy condition cannot be confirmed through current data. Moreover the opposite trend occured. It is crucial to examine weather the findings can be attributed to the inconsintent relation between arousal and performance or other variables of the study design.

Scherger, Sophie

EINE FRAGE DER ZEIT? – Der Einfluss von Zeitnutzungsstrategien auf Akzeptanz, Kriteriums- und Konstruktvalidität eines Intelligenztests.

Bachelorarbeit, 29. Mai 2017

Der starke Flüchtlingszuzug der letzten Jahre stellt Deutschland vor die Herausforderung diese potenziellen und zum Teil auch dringend benötigten Arbeitskräfte in den deutschen Arbeitsmarkt zu integrieren. Bestehende Instrumente der Berufseignungs- und Potenzialdiagnostik, wie Intelligenztests, sind aufgrund der geringen Testerfahrung bei einem Großteil der Flüchtlinge nur eingeschränkt einsetzbar. Bei diesen Verfahren werden Fähigkeiten, wie effektive Zeitnutzung gefordert, die bei Testpersonen mit geringer Testerfahrung jedoch unbekannt oder unterentwickelt sind. Vor dem Hintergrund der Testweisheit als „a subject’s capacity to utilize the characteristics and formats of the test and/or the test taking situation to receive a high score“ (Millman, Bishop & Ebel, 1965, S.707) untersuchte die vorliegende Arbeit, welche Auswirkungen die Reduktion der Einsatzmöglichkeit von Strategien zur effektiven Zeitnutzung auf die soziale Akzeptanz, Kriteriums- und Konstruktvalidität eines Intelligenztests hat. Dazu wurden bei einer Flüchtlingsstichprobe von n=44 Flüchtlingen im ausbildungs- und arbeitsfähigen Alter und einer Referenzstichprobe von n=71 Studierenden figurale und numerische Intelligenztestaufgaben unter zwei Bedingungen mit unterschiedlicher Gestaltung der Zeitbegrenzung getestet. Die Hypothese, dass Testteilnehmer1 mit geringer Testweisheit ein positiveres Akzeptanzurteil bezüglich eines Intelligenztestformats zeigen, das weniger effektives Zeitmanagement fordert, und dass Testteilnehmer mit mehr Testweisheit die entgegengesetzte Tendenz zeigen, konnte mit den Ergebnissen nur teilweise unterstützt werden. Die vermutete höhere Validität des veränderten Testformats konnte nicht gezeigt werden. Aus den vorliegenden Ergebnissen kann zwar geschlussfolgert werden, dass die vorgenommene Veränderung der Zeitbegrenzungsgestaltung keine positiven Auswirkungen auf die Gütekriterien des Tests hatte. Jedoch sollte ein solches Testformat nicht ohne weitere Forschung als sinnvolle Alternative zum traditionellen Format eines Intelligenztests ausgeschlossen werden.

The German society today is due to the large influx of refugees over the last past years challenged by the integration of the potential workforce in the German labour market. Because of the refugee’s lacking experience with common instruments used in the analysis of job qualifications and potentials, like intelligence tests, these instruments can only be used restrictedly. This target group has only limited abilities necessary for competent behaviour in test taking situations, like effective time management. These time management skills are studied as aspect of test wiseness, which is understood as „a subject’s capacity to utilize the characteristics and formats of the test and/or the test taking situation to receive a high score“ (Millman et al., 1965, S.707). This study examined the implications of a reduction of the possibility to use effective time management strategies on the social acceptance, as well as on criterion and construct validity of an intelligence test. Therefore intelligence tasks with numeric and figural material were tested among a sample of n=44 refugees at pre-working and working age and a reference sample of n=71 university students under two conditions with different formats of time restriction. The hypothesis, that test-taker with less test experience would show a higher acceptance for an intelligence test format, which demands less usage of effective time management strategies than for a common test format, and that test-taker with more test experience would show reverse tendency, could just partially be supported. Moreover, it in contrast to the hypothesis it could not be shown that a test, which allows only a restricted possibility to use time management strategies, attains a higher validity. As a result it cannot be concluded that the test format with a changed time restriction format is more adequate for test-takers with limited text wiseness than a traditional time restriction format. But without further research this test format should not be abandoned as useful alternative to traditional test formats.

Schiebold, Daniel

Methodische Aspekte der Rechtschreibtestung: Lückendiktat und Multiple-Choice Test im Vergleich.

Bachelorarbeit, 24. Mai 2013

Rechtschreibtests sind ein Kernbestandteil vieler Einstellungstests, weil Schriftsprache oft die Basis jeglicher verbindlicher Kommunikation ist. Zur Messung der Rechtschreibleistung im hohen Fähigkeitsbereich stehen zahlreiche Rechtschreibtests in verschiedenen Formaten zur Verfügung. Ein Vergleich zwischen Rechtschreibtests verschiedener Formate ist allerdings nur zulässig, wenn nachgewiesen werden kann, dass die Wahl des Formats das Ergebnis nicht systematisch verändert. Die vorliegende Studie verglich die Varianten Lückendiktat und Multiple-Choice Test hinsichtlich der Fehlerzahl anhand der Tests RT (Kersting & Althoff, 2004) und START-R (Kersting, in Vorb.). Als Stichprobe dienten Schüler im Alter von mindestens 16 Jahren (N=114). Es zeigte sich, dass zwischen den Fehlerzahlen in beiden Testvarianten ein stark positiver Zusammenhang besteht. Kristallisierte Intelligenz eignet sich als Prädiktor für das Ergebnis beider Rechtschreibtests gleich gut, denn es konnten auch hier jeweils stark  positive Zusammenhänge nachgewiesen werden. Im Falle der beiden geprüften Tests kann davon ausgegangen werden, dass die Formatwahl keinen systematischen Einfluss auf das Ergebnis des Rechtschreibtests ausübt. Die Belastbarkeit und die Begrenzungen der Erkenntnisse wurden diskutiert.

Spelling tests are one key part of many recruitment tests, because often written language is the foundation of all binding communication. Plenty of spelling tests in different designs are available for measuring spelling performance on a high level. Yet a comparison between spelling tests with different designs can only be drawn, when it has been verified, that the choice of design does not systematically influence the outcome of the test. The present study compared the designs cloze dictation and multiple-choice regarding the amount of errors made, while processing the tests RT (Kersting & Althoff, 2004) and START-R (Kersting, in prep.). The sample consisted of at least 16-year old pupils (N=114). A strong positive correlation between the amounts of errors made in both tests was shown. Crystallized intelligence can equally be used to predict the result of both tests, because the correlations with both test results were strongly positive as well. Concerning both given tests it can be stated, that the choice of a different design does not seem to systematically influence the outcome of the test. The meaningfulness and the limitations of the findings were discussed.

Schlander, Katharina

Einfluss der Instruktion auf geschlechterspezifische Testleistungsunterschiede in figuraler Intelligenz

Bachelorarbeit, 25. Juni 2024

Intelligenztests gelten als wichtige psychologische Verfahren, die regelmäßig in (beruflichen) Auswahlsituationen eingesetzt werden. In dieser Arbeit sollen die üblicherweise auftretenden geschlechterspezifischen Unterschiede zugunsten männlicher Teilnehmer in figuralen Intelligenztests genauer untersucht werden. Die Selbsteinschätzung wird als möglicher Mediator der geschlechterspezifischen Unterschiede betrachtet. Zudem soll der Effekt einer manipulierten Instruktion auf die Selbsteinschätzung untersucht werden. Die Untersuchung von Unterschieden in Intelligenztestergebnissen erfolgte bisher meist nur mit binär erfasstem Geschlecht. In dieser Arbeit wurde Geschlecht über die Erfassung der Identifikationsstärke mit den Geschlechtern „weiblich“, „männlich“ und „divers“ umfassender betrachtet. Zusätzlich wurde das Fingerlängenverhältnis 2D:4D als biologischer Marker, der mit Intelligenztestleistungen sowie dem pränatalen Testosteron-Estradiol-Verhältnis zusammenhängt, untersucht. An der Studie nahmen N = 191 (n = 145 weiblich, n = 44 männlich, n = 2 divers) Versuchspersonen teil, die den figuralen Intelligenztest ECKE-S bearbeiteten, wobei die Instruktionen variierten: In einer Gruppe wurde der figurale Inhalt der Aufgabe betont, in der anderen wurde auf die Betonung verzichtet. Zwischen Instruktion und Testdurchführung schätzten die Versuchspersonen ihre Fähigkeit hinsichtlich der Aufgabe ein. Entgegen den Erwartungen zeigten sich keine Zusammenhänge zwischen dem Fingerlängenverhältnis und den Testergebnissen. Allerdings zeigten sich geschlechterspezifische Unterschiede zum Vorteil von Personen mit starker Identifikation mit dem männlichen Geschlecht. Auch eine partielle Mediation dieser Unterschiede über die Selbsteinschätzung wurde gezeigt, während die Instruktion keinen Einfluss hatte. Die gewählte Untersuchungsmethode bietet einen wertvollen ersten Ansatz einer umfassenderen Betrachtung von Geschlecht. Nicht nachgewiesene Zusammenhänge des 2D:4D-Verhältnisses sowie der Instruktion mit figuraler Intelligenz könnten sich auf methodische Schwächen zurückführen lassen. Der Mediationseffekt der Selbsteinschätzung konnte bestätigt werden.

Intelligence tests are considered important psychological tools regularly used in (professional) selection processes. This research aims to analyse the gender-specific differences that typically favour males in spatial intelligence tests. Self-assessment is considered a potential mediator of these gender-specific differences. The study also aims to investigate the effect of manipulated instructions on self-assessment. The differences in intelligence test scores are typically studied using a binary classification of gender. This study takes a broader approach by considering gender through the strength of identification with „female,“ „male,“ and „nonbinary“. Additionally, the finger length ratio 2D:4D, a biological marker associated with intelligence test performance and the relation of prenatal testosterone and estradiol levels, was examined. A total of 191 participants (145 female, 44 male, 2 nonbinary) took part in the study completing the spatial intelligence test ECKE-S with varied instructions: one group received instructions emphasizing the spatial content of the task, while the other did not. Participants rated their ability in the task between instruction and taking the test. Contrary to expectations, no associations between the finger length ratio and test results were found. However, gender-specific differences favouring individuals with strong identification with male gender were observed. A partial mediation of these differences through self-assessment was demonstrated, while the instruction had no effect. The chosen research method provides a valuable initial approach to a broader consideration of gender. The lack of identified associations between 2D:4D ratio and instructions with spatial intelligence may be due to methodological limitations. The mediating effect of self-assessment was confirmed.

Seidel, Kristin

Büroarbeitsverhalten. Theoretische und empirische Exploration in Verbindung mit der Konstruktion und Evaluation eines eignungs­dia­gnostischen Tests.

Diplomarbeit, 25. Februar 2003

Gegenstand der Arbeit ist die theoretische und empirische Exploration des Konzepts Büro­arbeitsverhalten (BAV) in Verbindung mit der Konstruktion und Evaluation eines eignungsdiagnostischen Tests. Der auf einer literaturbasierten Anforderungsanalyse be­gründete Test bedient sich sowohl dem konstruktorientierten als auch dem simulationsorientierten Ansatz. Als theoretische Grundlage dient das Berliner Intelligenstrukturmodell (BIS). Zwei nach rationalen Prinzipien entwickelte Testaufgaben der verbalen und numerischen Inhaltsklasse streben hinsichtlich der Ope­ra­tions­klassen Bearbeitungsgeschwindigkeit und Verarbeitungskapazität eine kombi­nierte Messung an.
Die neu entwickelten BAV-Testaufgaben wurden an zwei Stichproben mit N=245 sowie N=133 Bewerbern im Rahmen von eignungsdiagnostischen Untersuchungen durch die Deutsche Gesellschaft für Personalwesen (DGP) erprobt. Zur Evaluation des Tests wurden im Rahmen der Überprüfungen auf die Güte der Umsetzung des Kon­struktionsrationals Itemanalysen durchgeführt, Kennwerte zu Speed- und Power sowie zur Geschwindigkeit und Genauigkeit berechnet. Erste Erkenntnisse über die Art der entwickelten Items sowie die Testmerkmale weisen auf eine Passung mit den a priori aufgestellten Konstruktionsprinzipien hin. Darüber hinaus dienten empirische Analysen dazu, Anhaltspunkte über die Grundlagen des Konzepts BAV zu erlangen. Dazu wurde BAV zu Dimensionen des BIS, die durch einen zusätzliche eingesetzten con­fidential Test der DGP operationalisiert wurden, in Beziehung gesetzt. Die Er­geb­nisse faktoren- und regressionsanalytischer Techniken deuten darauf hin, dass mit den BAV-Aufgaben systematische Varianz erfasst werden kann, die nicht vollständig durch die Dimensionen des BIS erklärbar ist. Einen weiteren Beitrag zur Konstruktaufklärung leisten subgruppenspezifische Befunde zu Alter, Geschlecht und kogni­tiver Leistungsfähigkeit. Weitere Untersuchungen sind notwendig, um festzustellen, ob es sich bei BAV um eine neue Dimension intelligenten Verhaltens handelt und ob diese einen inkrementellen Beitrag zur Prognose von Ausbildungs- und Berufs­erfolg in Büroberufen leisten kann.

Die Diplomarbeit wurde mit dem Nachwuchsförderpreis des Arbeitskreis Assessment Center e.V. ausgezeichnet.

Des weiteren wurde diese Diplomarbeit im Vdm Verlag publiziert:

Seidel, Kristin. (2006). Arbeitseffizienz im Bürokontext. Neue Wege der Diagnostik. 180 Seiten. Verlag: Vdm Verlag.
68.- Euro. ISBN: 3836456648. EAN: 9783836456647

Speier, René

Integration von Unterbrechungen in Intelligenztestaufgaben: Auswirkungen einer berufsnäheren Testsituation auf die Kriteriumsvalidität

Bachelorarbeit, 28. Mai 2019

Intelligenztests werden häufig eingesetzt, um die qualifiziertesten Bewerber für einen Beruf zu identifizieren. Während Unterbrechungen beim Arbeiten in vielen Berufen alltäglich sind, werden Intelligenztests in einer ruhigen und ungestörten Umgebung durchgeführt. Diese situative Diskrepanz könnte deren Vorhersagekraft verringern. Daher wurden in dieser Arbeit Unterbrechungen in Intelligenztestaufgaben integriert und deren Auswirkungen auf Testergebnis, Konstrukt- und Kriteriumsvalidität untersucht. Es wird angenommen, dass es durch die Manipulation zum Absinken des Testergebnisses, einem stärkeren Einfluss der Arbeitsgedächtniskapazität (AGK) und einem höheren Zusammenhang mit Berufserfolgskriterien kommt. Die Analysestichprobe bestand aus 40 Abiturienten/innen (18 – 59 Jahre, 27 weiblich). Jede Versuchsperson bearbeitete einen klassischen Intelligenztest (Teile des I-S-T 2000 R; Liepmann, Beauducel, Brocke & Amthauer, 2007), eine Parallelversion mit integrierten Unterbrechungen und einen Arbeitsgedächtniskapazitätstest. Es zeigte sich hypothesenwidrig kein bedeutsames Absinken der Testergebnisse. Somit scheint der Befund, dass Unterbrechungen zu Leistungseinbußen führen, nicht ohne Weiteres auf Unterbrechungen in Intelligenztestaufgaben generalisierbar. Die AGK korrelierte hingegen erwartungsgetreu, bei konstantem Ergebnis im klassischen Test, positiv mit dem Ergebnis im manipulierten Test, was die besondere Bedeutung der AGK für den Umgang mit Unterbrechungen stützt. Erwartungswidrig korrelierte keines der Berufserfolgskriterien signifikant höher mit dem Ergebnis im manipulierten als im klassischen Test. Da die gewählten Kriterien jedoch nur schwache Indikatoren für Berufserfolg sind, bleibt offen, ob mit dem manipulierten Test bessere Auswahlentscheidungen getroffen werden könnten.

Intelligence tests are commonly used to identify the most qualified applicants for a profession. While interruptions to work are commonplace in many professions, intelligence tests are conducted in a quiet and undisturbed setting. This situational discrepancy may reduce their predictive power. Therefore, in this study interruptions were integrated into intelligence test tasks and their effects on test result, construct and criterion validity were examined. It is assumed that manipulation leads to a drop in the test result, a stronger influence of the working memory capacity (WMC) and a higher correlation with professional success criteria. The analysis sample was composed of 40 high school graduates (18 – 59 years, 27 female). Each subject processed a classic intelligence test (parts of the I-S-T 2000 R; Liepmann, Beauducel, Brocke & Amthauer, 2007), a parallel version with integrated interruptions and a WMC test. Unexpectedly no significant drop in test results were observed. Thus, the evidence that interruptions are disruptive cannot easily be generalized to interruptions in intelligence test tasks. Though, as expected WMC correlated positive with the results of the manipulated test, when the results of the classic test were constant, which supports the particular importance of WMC for dealing with interruptions. Contrary to expectations, none of the professional success criteria correlated significantly higher with the results in the manipulated test than in the classic test. Since the used criteria are only vague indicators for professional success, it remains uncertain whether better selection decisions could be made with the manipulated test.

Tammer, Katja

Gute Normen, schlechte Normen – Zur Beziehung zwischen Testnormierung und Testvalidität.

Bachelorarbeit, 26. Mai 2014

In dieser Arbeit werden mögliche Auswirkungen der Testnormierung auf die Kriteriumsvalidität untersucht und in Bezug auf den Einsatz von Leistungstests bei der Bewerberauswahl reflektiert. Zum einen wird davon ausgegangen, dass sich Normwerte gegenüber der Rohwertsumme negativ auf die Kriteriumsvalidität auswirken. Zum anderen wird angenommen, dass Bezugsgruppen im Sinne einer Symmetrie in Prädiktor und Kriterium übereinstimmen müssen. Ist dies nicht der Fall, sollte die Kriteriumsvalidität sinken. Basis der Untersuchung bildeten die im Rahmen einer Bewerberauswahl gewonnen Daten von N = 160 Personen (M = 18.41 Jahre, SD = 1.66 Jahre). Als Prädiktor diente das Grundmodul des IST-2000-R (Liepmann, 2008), als externe Kriterien die durchschnittliche Schulnote sowie die in der Abschlussprüfung der Ausbildung erzielte Note. Normwerte waren nicht immer mit geringeren Validitäten als die Rohwertsummen verbunden – entscheidende Faktoren waren hierbei das gewählte Normierungsvorgehen, sowie das betrachtete Kriterium. Eine Differenzierung zwischen Personengruppen im Prädiktor war nicht immer von Vorteil für die Kriteriumsvalidität, sondern nur, wenn die Bezugsgruppen im Prädiktor im Sinne einer Symmetrie mit denen im Kriterium übereinstimmten.

In this work, it is examined if test standardization has an impact on the criterion validity of a test. Possible implications for the use of achievement tests in the context of candidate selection are discussed. It is assumed that standardized scores have a negative effect on the criterion validity compared to the raw score. Furthermore, it is postulated that the reference groups must be the same in predictor and criterion in the sense of symmetry. Otherwise the criterion validity should be reduced. Data was obtained from N = 160 persons (M = 18.41 years, SD = 1.66 years), who had absolved a selection procedure. The predictor was the basic modul of the IST-2000-R (Liepmann, 2008), the external criteria were the average school grade and the grade in the final exam of the apprenticeship.
Standardized test scores were not always associated with lower validities than the raw score. Decisive factors were the chosen standardization procedure and the criterion considered. In terms of criterion validity it was not always advantageous to differentiate between certain groups of persons – reference groups in predictor and criterion should coincide in the sense of symmetry.

Ziegler, Marco

Die Validität einer verbalen Intelligenztestaufgabe unter Anwendung unterschiedlicher Normgruppen.

Bachelorarbeit, 30. Mai 2015

In dieser Arbeit wird untersucht, wie sich die Anwendung einer nach Bildung differenzierenden Norm auf die Testvalidität auswirkt. Es wird vermutet, dass für eine hohe Testvalidität bei unterschiedlichen Kriterien, Symmetrieüberlegungen zum Verhältnis zwischen Prädiktor und Kriterium angestellt werden müssen. Zur Überprüfung wurde eine Stichprobe von Berufsschülern (N=513) akquiriert, die den Subtest „Analogien“ aus dem WIT-2 Intelligenzstrukturtest sowie den Subtest „Regeln finden“ aus dem GET-HEP Verfahren bearbeiteten und Auskunft über Schulnoten des letzten allgemeinbildenden Abschlusses sowie aus der Berufsschulausbildung gaben. Überprüft wird die Kriteriumsvalidität (durch die Schulnoten) und die Konstruktvalidität (durch den Subtest „Regeln finden“) unter Anwendung der nach Bildung differenzierenden Norm. Es werden verschiedene Kombinationen aus Normanwendung und Aufteilung in Subgruppen (Stratifizierung) unterschieden und als Fälle deklariert. Jedem Fall werden unterschiedliche Eigenschaften hinsichtlich seiner Symmetrie zwischen Prädiktor (Subtest „Analogien“) und Kriterium (Schulnoten, Berufsschulnoten bzw. konvergenter Subtest) unterstellt, die sich auf die Höhe der Korrelationskoeffizienten auswirken. Die Auswertungen der Fallkontrastierungen zeigen, dass sich die Anwendung einer nach Bildung differenzierenden Norm auf die Testvalidität auswirkt und Überlegungen zur Symmetrie für die Schulnotenkriterien des letzten allgemeinbildenden Abschlusses keine und Berufsschulnotenkriterien teilweise eine Vorhersage über die Höhe der Testvalidität erlauben.

The validity of a verbal intelligence task applying different norm groups.

In this work the effect toward test validity due to the application of an educational norm group is investigated. It is assumed that high testvalidity for different criteria depends on a symmetrical relationship between predictor and criteria. To investigate the effects 513 apprentices executed two different subtests („Analogien“ from the WIT-2 and „Regeln finden“ from the GET-HEP Intelligence test) and provided information about their grades of their last general educational degree and about grades of their last degree in vocational school. Criterion related validity (via grades from participants last general educational degree and last degree in vocational school) and construct related validity (via the subtest „Regeln finden“) will be examined with reference to the educational normgroup. Different combinations of normgroup application and separation into subgroups (stratification) are getting declared as cases. Each case is assumed to have different features of symmetry that influence the correlational coefficient between predictor (subtest „Analogien“) and criteria (grades or convergent subtest). The comparison of these cases indicate that the application of an educational normgroup has effect on the testvalidity. Furthermore, the prediction of grades from participants last general educational degree do not follow the postulated symmetry assumptions while the predictions for grades from their last degree in vocational school partly pertain.

Zientek, Armin

Reduktion sprachlicher Instruktionsanteile durch Video-Animationen: Der Einfluss auf die Validität und die Akzeptanz von Intelligenztestungen.

Bachelorarbeit, 9. Juli 2017

Können sprachverminderte Videoinstruktionen einen Beitrag zur valideren und besser akzeptierten Testung von Intelligenz leisten? In dieser Abschlussarbeit wurden die Instruktionsbedingungen bei einem neuentwickelten Intelligenztest, dem RefuGi-KKT, variiert. Von insgesamt 128 Teilnehmenden erhielten 61 eine statische Bildinstruktion und 67 eine sprachverminderte Videoinstruktion. Die Teilnehmenden teilten sich in eine Geflüchtetenstichprobe (n = 57) sowie eine deutsche Stichprobe (n = 71). Die Erhebungen fanden jeweils in Gruppen über einen Onlinefragebogen in Computerräumen statt. Es zeigten sich keine Unterschiede in den Instruktions- und Verständnisbeurteilungen, sowie der Varianz der Testergebnisse in der Geflüchtetenstichprobe für die verschiedenen Bedingungen. In der Gesamtstichprobe zeigten sich keine Unterschiede in den Akzeptanzbeurteilungen. In der deutschen Stichprobe zeigte sich hypothesenwidrig ein bedeutender Leistungsunterscheid zwischen den Instruktionsbedingungen zugunsten Videoinstruktionen (U = 453, Z = -2.02, p = .043). Zudem zeigte sich für die Gesamtstichprobe eine erhöhte Paralleltestkorrelation des RefuGi-KKT mit der Kurzversion des CFT-20-R bei Videoinstruktionen gegenüber statischen Bildinstruktionen (Z = 1.883, p < .05.). Folglich wurde für Videoinstruktionen nur ein Leistungsunterschied für deutsche Personen und eine erhöhte Paralleltestkorrelation der Gesamtstichprobe, jedoch keine Leistungs- oder Akzeptanzunterschiede für Personen mit Fluchthintergrund signifikant. Somit bieten Videoinstruktionen in der vorliegenden Umsetzung keine bedeutenden Vorteile gegenüber statischen Bildinstruktionen.


Could language reduced video instructions help towards a more valid and accepted testing of intelligence? In the following thesis the condition of instruction was manipulated for a newly developed intelligence test, the RefuGi-KKT. Out of 128 participants 61 got a static instruction and 67 got a language reduced video instructions. 57 participants were refugees and 71 were Germans. The participants got tested in groups using an online survey in computer laboratories.
There are no significant differences between the acceptance and comprehension ratings as well as the variance of the test scores for the refugees for the different instructions. For the whole sample no differences between the two instructions concerning the acceptance ratings were proven. Against the assumption a significant performance difference between the two conditions for the benefit of video instructions was shown (U = 453, Z = -2.02, p = .043). Additionally, the data show a higher test correlation of the RefuGi-KKT with the CFT-20-R for video instructions instead of static instructions for the whole group (Z = 1.883, p < .05.). Hence for video instructions a performance difference for German participants and a higher test correlation for all participants, but no significant differences in performance, acceptance and comprehension ratings for refugees were shown. Therefore, video instructions in the existing realization have no major advantages over static instructions. [/av_toggle] [/av_toggle_container] [av_textblock size='' font_color='' color='' av-desktop-hide='' av-medium-hide='' av-small-hide='' av-mini-hide='' av-medium-font-size='' av-small-font-size='' av-mini-font-size='' av_uid='av-29x318']   [/av_textblock]