Validierungsstudien – Prof. Dr. Martin Kersting

Becker, Sabine

Konstruktvalidität – Evaluation zweier Development Center.

Diplomarbeit, 20. August 2002

Abstract (Deutsch)

Die Arbeit beschäftigt sich mit der Evaluation zweier in der deutschen Wirtschaft angewandter Development Center (DC), im Folgenden als DC-A und DC-B bezeichnet. Neben der Überprüfung auf die allgemeine Konstruktvalidität in den DCs, wird der Einfluss der Dimensionsanzahl, des Peer-Ratings und zweier Leistungstests auf die konvergente Validität betrachtet. Die Daten wurden in 3 ½ tägigen DC-Veranstaltungen an 94 Teilnehmern (89 m, 5 w) für DC-A und an 44 Teilnehmern (40 m, 4 w) für DC-B erhoben. Die Teilnehmergruppen setzten sich aus Personen, die Potential für eine angehende Führungskraft besitzen, zusammen. Die Altersspanne lag zwischen 28 – 45 Jahren. Jeder Teilnehmer wurde über mehrere Übungen anhand mehrerer Anforderungsdimensionen beobachtet und beurteilt. Zusätzlich wurde von den Teilnehmern ein Peer-Rating erhoben. Die so gewonnenen Daten wurden einer Multitrait-Multimethod-Analyse und einer explorativen Faktorenanalyse unterzogen. Die Überprüfung auf signifikanten Unterschied erfolgte mit dem Test auf Unterschiede zweier Korrelationskoeffizienten. Die Ergebnisse zeigen, dass Konstruktvalidität in beiden Development Centern nicht gegeben und der Einfluss der Dimensionsanzahl, des Peer-Ratings und der Leistungstests nicht signifikant ist. Verbesserungsvorschläge zur Erhöhung der Konstruktvalidität werden abschließend diskutiert.

Birk, Matthias

Zur Validität der Anforderungsanalyse.

Diplomarbeit, 9. September 2004

Abstract (Deutsch)

Wie valide lassen sich Stellen- und Ausbildungsanforderungen mittels eines standardisierten Fragebogens erfassen? Zur Untersuchung dieser Frage wurden Stelleninhaber (N=108) und Vorgesetzte (N=121) aus der Kommunalverwaltung sowie Laien (N=71) anhand eines Anforderungsanalyseverfahrens befragt. Die Grundidee der Arbeit ist es, die Validität der Anforderungsanalyse indirekt, nämlich über die Prüfung der Kriteriumsvalidität einer aufgrund der Ergebnisse der Anforderungsanalyse gewichteten Testbatterie, zu untersuchen (N=140). Die Validität der derart gewichteten Testbatterie wird mit der Validität verglichen, die erzielt wird, wenn die Gewichtung der Testbatterie aufgrund der Ergebnisse der mit Laien durchgeführten Anforderungsanalyse vorgenommen wird. Außerdem wurden die Testkomponenten von einer Expertengruppe direkt (ohne den Umweg über eine Anforderungsanalyse) gewichtet oder aber alle Testkomponenten wurden einfach gleichgewichtet. Auch die bei diesen Gewichtungen erzielten Validitätskoeffizienten sollen mit den Validitätskoeffizienten verglichen werden, die bei einer Gewichtung aufgrund der Ergebnisse der Anforderungsanalyse erzielt werden. Weitere Fragestellungen thematisieren die Urteilstendenzen. So wird beispielsweise gefragt, ob Stelleninhaber bei der Bearbeitung von anforderungsanalytischen Fragebogen stärker sozial erwünscht antworten als deren Vorgesetzte.
Die Validität im Sinne der Übereinstimmung der Anforderungsanalyse-Beurteilungen mit Experten fällt hoch aus. Hingegen eignen sich die Anforderungsanalyse-Beurteilungen wenig für die Gewichtung von Testkomponentaen, verglichen mit der direkten Gewichtung durch Experten und der gleichmäßigen Gewichtung aller Komponenten. Es zeigen sich Urteilstendenzen der Art, dass Stelleninhaber ihre eigenen Anforderungen höher beurteilen als deren Vorgesetzte; die Anforderungs-Beurteilungen beider korrelieren hoch mit der sozialen Erwünschtheit der Merkmale.
Laien erbringen vergleichbar valide Anforderungs-Beurteilungen wie Stellenexperten.

Dütschke, Elisabeth

Über die Kombination von Leistungs- und Persönlichkeitstests zur Erhöhung der prädiktiven Validität bei der Auswahl von Call-Center-Agenten.

Diplomarbeit, 16. Februar 2004

Abstract (Deutsch)

Die Diplomarbeit geht anhand eines Datensatzes aus der Wirtschaftspraxis der Frage nach, ob durch Kombination von Leistungs- und Persönlichkeitstests in der Personalauswahl die prädiktive Validität gesteigert werden kann. Da Messungen von Konstrukten mit den beiden Testkategorien nicht oder nur wenig interkorreliert sind, ist anzunehmen, dass in der kombinierten Anwendung ein bedeutendes Potential steckt, um Vorhersagen zu verbessern. Literaturanalysen zeigen, dass es bisher nur wenige Studien gibt, die speziell auf diese Thematik ausgerichtet sind.
Die empirische Prüfung der Fragestellung erfolgte mit Daten aus der Rekrutierung von Call-Center-Agenten für das Inhouse-Call-Center einer Direktbank. Der Rekrutierungsprozess war bereits vor Beginn der Arbeit abgeschlossen, so dass die Studie evaluativen Charakter hat. Zur Personalauswahl hatte die Bank drei Messungen aus dem Leistungsbereich (SPM, Skala Kombinationsfähigkeit aus der ISA, COG) und drei aus dem Persönlichkeitsbereich (SKASUK-Leistungsmotiv und –Dominanzstreben, Skala Anspruchsniveau aus den AH) verwendet. Als Kriterien standen die Personalbeurteilung und der Verkaufserfolg der Agenten zur Verfügung.
Keines der Testverfahren erwies sich als vorhersagekräftig. Die Kombination führte in der Folge auch nicht zu prädiktiver Validität. Die Ursachen für die fehlende Vorhersagekraft können nicht eindeutig festgemacht werden. Es ergaben sich Hinweise auf psychometrische Mängel bei den Persönlichkeitstests und den Kriterien. Möglicherweise waren auch nicht erfasste Störvariablen wirksam, oder die Korrespondenz von Prädiktoren und Kriterien ist unzureichend.
Explorativ ist der Zusammenhang zwischen Testergebnissen und dem Kriterium Kündigung betrachtet worden. Hier deutet sich an, dass Agenten, die das Unternehmen schon nach wenigen Monaten wieder verlassen, in ISA und COG schlechtere Leistungen zeigen.

Jacobs, Sonja

Postkorbverfahren in der Personalauswahl – eine Evaluationsstudie.

Diplomarbeit, 28. November 2002

Abstract (Deutsch)

Das Ziel der Arbeit ist die Evaluation des unveröffentlichten Postkorbs der Deutschen Gesellschaft für Personalwesen (DGP). Grundlage für die Evaluation ist eine empirische Untersuchung an einer studentischen Stichprobe (N = 91). Neben dem DGP-Postkorb wurden noch ein weiterer Postkorb, ein Intelligenztest, ein Aufmerksamkeitstest und ein Selbsteinschätzungsbogen eingesetzt. Auf der Basis dieser Daten erfolgt eine psychometrische Analyse der Testkennwerte, eine Überprüfung der Gütekriterien sowie eine qualitative Analyse der Items und des Postkorbmaterials. Die psychometrische Qualität der Items des DGP-Postkorbs erweist sich als unzureichend. Ebenso ist die Reliabilität als nicht zufriedenstellend zu bewerten. Im Rahmen einer Konstruktvalidierung ergibt sich zum einen ein korrelativer Zusammenhang zwischen der DGP-Postkorbleistung und der Intelligenztestleistung und zum anderen ein Zusammenhang zwischen der DGP-Postkorbleistung und der Aufmerksamkeitstestleistung. Es wird gezeigt, dass diese Zusammenhänge durch den gemeinsamen Anteil an notwendiger Konzentration für die Bearbeitung des Postkorbs erklärt werden können. Im Zusammenhang mit den anderen eingesetzten Verfahren waren keine nennenswerten Zusammenhänge aufzufinden. Auf der Basis der qualitativen Analyse wird gezeigt, dass die mangelnde psychometrische Qualität auf die unzureichende Konstruktion des Postkorbs und den entsprechenden Items zurückzuführen sein könnte. Abschließend werden Vorschläge für eine Revision des Postkorbs gegeben.

Klotz, Julia

Konstruktvalidierung von Tests, die durch Simulation von Büroaufgaben Arbeitseffizienz erfassen.

Diplomarbeit, 9. Dezember 2005

Abstract (Deutsch)

Fast ein Drittel aller in Deutschland Erwerbstätigen geht sogenannten Bürotätigkeiten nach. Zur Personalauswahl werden häufig sogenannte Büroarbeitstests eingesetzt. Dabei handelt es sich um Tests, die durch Simulationen von Büroaufgaben Arbeitseffizienz erfassen wollen. Prominente Beispiele für diese Art von Tests sind der ABAT-R (Lienert & Schuler, 1994) oder die Testaufgabe „E-Mails Bearbeiten“, die Bestandteil des neuen Wilde Tests (WIT-2, Kersting, Althoff und Jäger, 2006) ist. Solche Tests zeichnen sich durch eine gute Kriteriumsvalidität aus und erfreuen sich einer hohen sozialen Akzeptanz, ihre Konstruktvalidität ist aber weitgehend ungeklärt. Die Diplomarbeit setzt sich mit den kognitiven Anforderungen auseinander, die bei sogenannten „Büroaufgaben“ zu bewältigen sind. Aufgrund theoretischer Annahmen wird erwartet, dass zur Bewältigung von Aufgaben zur Simulation von Bürotätigkeiten (1) Konzentration, (2) schlussfolgerndes Denken und (3) eine hohe Arbeitsgedächtniskapazität notwendig sind. Diese Annahmen wurde an einer Gruppe von N = 111 Personen erfolgreich geprüft, die einerseits sechs Bürotests und andererseits eine umfassenden Testbatterie zu den drei genannten Konstrukten bearbeitet haben.

Knebelau, Maren

Evaluation des WILDE-Intelligenztests (WIT) und seiner Funktion als eignungsdiagnostisches Instrument.

Diplomarbeit, 6. März 2002

Abstract (Deutsch)

Gegenstand der Arbeit ist die Evaluation des WILDE-Intelligenz-Tests (WIT, Jäger & Althoff, 1983, 1994). Fokussiert werden die Eigenschaften, die der Test aktuell beim Einsatz im eignungsdiagnostischen Kontext zeitigt. Die Evaluation erfolgt durch Analyse der Testmaterialien und Literatur sowie mittels einer empirischen Untersuchung. Die zugrundegelegten Testergebnisse stammen von 382 Bewerbern für eine Fachhochschulausbildung, die im Rahmen der Eignungsuntersuchung eine Testbatterie mit sieben WIT-Subtests bearbeiteten. Auf Basis der Testergebnisse wurde zunächst die psychometrische Qualität der Items, Subtests und parallelen Testformen untersucht. Dabei zeigten sich für sechs der sieben Subtests Defizite entweder in Form unregelmäßiger und asymmetrischer Rohwertverteilungen, inadäquater Itemschwierigkeiten oder unzureichender Itemtrennschärfenkoeffizienten sowie Reliabilitätsmängel und Mittelwertunterschiede zwischen den Testformen. Im zweiten Schritt wurde eine Konstruktvalidierung der Testbatterie durchgeführt. Es ergab sich, dass die Subtests die intendierten Fähigkeitsbereiche nicht erfassen und daraus Schwierigkeiten bei der Interpretation der gemessenen Fähigkeiten resultieren. Zudem wurde die prognostische Validität der Testbatterie zur Vorhersage des Studienerfolgs, operationalisiert durch die Zwischenprüfungsnote, an 122 zugelassenen Bewerbern bestimmt. Die WIT-Subtests weisen eine Kriteriumsvalidität in zufriedenstellender Höhe auf. Abschließend wird der WIT auf der Grundlage der Befunde hinsichtlich seiner Stärken und Schwächen bewertet und daraus Ansatzpunkte für eine Revision abgeleitet.

Schröder, Philipp

Kriterienbezogene Evaluation des Reha-Assessments des Berufsförderungswerk Oberhausen.

Diplomarbeit, 27. Juni 2011

Abstract (Deutsch)

Herr Schröder prüfte im Rahmen seiner Diplomarbeit die Aussagekraft des WIT-2 im Rahmen des Reha-Assessments des Berufsförderungswerks Oberhausen. Als Kriterien lagen die Abschlussnote der Umschulung (N = 36) sowie der Erfolg in der beruflichen Qualifizierungs¬Maßnahme (bestanden vs. nicht-bestanden) vor (N = 71) vor.
Die eingesetzten WIT-2 Module korrelieren zwischen r= .31 und .71 substantiell mit dem ebenfalls eingesetzten Figure Reasoning Test (FRT) (N=1921).
Anhand der Kriterien konnte die Validität des WIT-2 aufgezeigt werden. Das Modul sprachliches Denken korreliert zu r=.39 mit der Abschlussnote (N=36). (Während der FRT nur in Höhe von r=.22 mit dieser Abschlussnote korreliert). Auch bezogen auf das Kriterium „Bestehen der Qualifizierungsmaßnahme“ ist der Zusammenhang des FRT (r=.09) mit dem Kriterium nominell kleiner als der entsprechende Zusammenhang aller genutzten Module des Wilde-Intelligenz-Test 2 (WIT-2 sprachliches Denken und „Kriterium „Bestehen der Qualifizierungsmaßnahme: r=.38).

Schröder, P. (2011). Kriterienbezogene Evaluation des Reha-Assessments des Berufsförderungswerk Oberhausen. Diplomarbeit. Düsseldorf: Heinrich Heine Universität Düsseldorf.