Rechtschreibungstest (RT)

Kersting, M. & Althoff, K. (2004). Rechtschreibungstest (RT). Göttingen: Hogrefe.

Mit Hilfe des Rechtschreibungstests (RT) ist es möglich, eine Einstufung der Rechtschreibleistung von Jugendlichen und Erwachsenen anhand einer definierten Vergleichsgruppe (Normgruppe) vorzunehmen. Der Test kann bei Personen ab 15 Jahren sowohl in der Berufseignungsdiagnostik als auch in der Förderdiagnostik sowie LRS-Diagnostik (Lese-Rechtschreibstörung) eingesetzt werden. Der RT ist in Form des Lückendiktats gestaltet. Den Testteilnehmerinnen und -teilnehmern wird ein Text, in dem eine Reihe von Wörtern ausgelassen sind, vorgelegt. Der vollständige Text wird dann von der Testleitung (Papier-Version) vorgelesen oder als Audio eingespielt (Computer-Version). Die Testteilnehmerinnen und -teilnehmer müssen nur die fehlenden Wörter in die entsprechenden Lücken eintragen. Die Testung beschränkt sich somit auf die Kontrolle der Schreibweise kritischer Wörter. Mit „kritische Wörter“ sind solche Wörter gemeint, die die wichtigsten Rechtschreibregeln angemessen repräsentieren.

Der RT umfasst drei einzeln einsetzbaren Diktate „Moselfahrt“ (57 Items), „Nichtraucher“ (68 Items) und „Rummelplatz“ (60 Items). Bei den drei Diktaten handelt es sich um Parallelversionen. Auf der Ebene der Standard- oder Normwerte stehen also für jedes der drei Diktate zwei psychometrisch gleichwertige Paarlinge zur Verfügung. Für die Diagnose reicht der Einsatz eines der drei Diktate aus. Das Vorhandensein mehrerer paralleler Rechtschreibtests kann z. B. genutzt werden, um das Bekanntwerden der Aufgaben in Reihenuntersuchungen zu reduzieren oder den Erfolg von Trainingsmaß-nahmen zu evaluieren.

Die Durchführungszeit beträgt für „Moselfahrt“ und „Rummelplatz“ ca. 15 Minuten und für das Diktat „Nichtraucher“ ca. 20 Minuten.

Der RT kann als Papier-Bleistift-Version oder – mit deutlich erhöhter Objektivität und Auswertungsökonomie – als Computerversion durchgeführt werden. Wie in der Papierversion wird der Text auch in der Computerversion „vorgesprochen“ (Audiodateien). Zum Schreiben nutzen die Teilnehmerinnen und Teilnehmer die Tastatur, so dass die Interpretation von Handschriften entfällt. Computerkenntnisse sind nicht notwendig.

Informationen auf dieser Website

Auf dieser Seite finden sich Informationen zum Rechtschreibtest RT.

Die folgenden Informationen sind gegenüber den Verfahrenshinweisen zum RT stark vereinfacht und. verkürzt. Die Website kann und soll die Lektüre der Verfahrenshinweise nicht ersetzen. Des Weiteren wird in diesem Sinne auch auf Quellenverweise und auf das Literaturverzeichnis verzichtet, die entsprechenden Angaben finden sich in den Verfahrenshinweisen. Darstellungen des RT sollten sich nicht auf die Kurz-Informationen der vorliegenden Website beschränken, sondern die umfassenderen und detailreicheren Verfahrenshinweise nutzen. Eine abschließende Beurteilung der Qualität des RT ist allein auf der Grundlage der verkürzten Informationen der vorliegenden Website nicht möglich. Hierzu bedarf es der umfassenden Informationen der Verfahrenshinweise.

Autoren des Tests sind Martin Kersting und Klaus Althoff. Der Test wird von der Deutschen Gesellschaft für Personalwesen e.V. herausgegeben und vom Hogrefe Verlag vertrieben. Anfragen zum Kauf oder zur Nutzung im Kontext von Forschung und Lehre sind ausschließlich an den Verlag zu richten.

Theoretische Grundlagen als Ausgangspunkt der Testkonstruktion

Was wird erfasst (Zielwörter)

Foto: Pixabay von Pexels

Der RT basiert auf dem Konzept der rationalen Itemkonstruktion und folgt den Re­geln der Konstruktion kontentvalider Testverfahren. Kontentvalidi­tät muss – wie bei der Ent­­wicklung des RT geschehen – bereits bei der Auf­gaben­konstruktion an­ge­strebt werden. Voraus­setzung für eine kon­­­tent­valide Testkonstruktion ist die De­­finier­barkeit von Item­universa. Zentraler Schritt der Konstruktion des RT war eine um­fassende Sammlung der Rechtschreibregeln und der Häufigkeit der Regel­ver­stöße. Dabei ergaben sich die folgenden Kategorien (nach Häufigkeit des Vor­kommens geordnet): Groß- und Kleinschreibung; Silbendehnung und -schärfung; Kon­sonanten­verwechslung; Verwechslung von s-ß und ts-tz; Zu­sammen- und Ge­trennt­­schrei­bung; Endungen; Superlative; Umlaute; Ge­bräuchliche Fremd­wörter; Ver­­wechslung von f-w-v-ph; Verwechslung von k-ch; Verwechslung von kw-qu. Diese Fehler­kate­­­gorien bilden die Grundmenge des interessierenden Sach­ver­halts „Recht­schreib­­­leistungen“.

Wie wird erfasst (Itemformat)

Der RT ist in Form des Lückendiktats gestaltet. Wie bereits oben dargestellt gilt: Den Testteilnehmerinnen und -teilnehmern wird ein Text, in dem eine Reihe von Wörtern ausgelassen sind, vorgelegt. Der vollständige Text wird dann von der Testleitung (Papier-Version) vorgelesen oder als Audio eingespielt (Computer-Version). Die Testteilnehmerinnen und -teilnehmer müssen nur die fehlenden Wörter in die entsprechenden Lücken eintragen. Die Testung beschränkt sich somit auf die Kontrolle der Schreibweise kritischer Wörter. Mit „kritische Wörter“ sind solche Wörter gemeint, die die wichtigsten Rechtschreibregeln angemessen repräsentieren.

Interpretation anhand von Normwerte

Foto: fauxels von Pexels

Die Interpretation der Testleistung im RT kann über den Vergleich der Leistung einer Person mit der Leistung einer so genannten Referenzgruppe (auch Normierungsgruppe oder Eichstichprobe genannt) erfolgen. Der Normwert (Standardwert, SW) ermöglicht die Bestimmung der relativen Position einer Einzelleistung in der Rangfolge der tatsächlichen Leistungen der definierten Referenzgruppe. Die Gewinnung solcher Normen bezeichnet man auch als Testeichung.

Die Normen der dritten, überarbeiteten Version des RT wurden anhand der Daten von insgesamt (alle drei Diktate) 1.737 Personen im Alter von 15 bis 30 Jahren gewonnen. Die für die Normierung berücksichtigten Personen verfügten über eine unterschiedliche Schulbildung, nämlich über die (angestrebte) Mittlere Reife einerseits oder das (Fach-)Abitur andererseits. Bezüglich der „Referenzgruppe Mittlere Reife“ werden in den Normtabellen zusätzlich zur Gesamtgruppe drei Altersgruppen (15/16 Jahre, 17/18 Jahre, 19 bis 30 Jahre) unterschieden.

Empirische Kennwerte als Grundlage der Qualitätssicherung und -beurteilung

Die Qualität eines Tests lässt sich nur dann vollständig erschließen, wenn aus empirischen Studien gewonnene Kennwerte vorliegen (https://kersting-internet.de/qualitaetssicherung/testbeurteilung/). In der DIN 33430 (DIN, 2016) ist konkret ausgeführt, welche Informationen für die Qualitätsbeurteilung von Tests relevant sind. Hierzu zählen beispielsweise empirisch ermittelten Werte zur Zuverlässigkeit (Reliabilität) und Gültigkeit (Validität). Die konkreten Informations-Anforderungen an Fragebogen und Tests wurden von Kersting (2018) zu einer Checkliste „Anforderungen an Verfahrenshinweise“ zusammengefasst. Die Checkliste gilt offiziell als „Standard zur Information und Dokumentation von Instrumenten zur Erfassung menschlichen Erlebens und Verhaltens des Diagnostik- und Testkuratoriums (DTK) der Föderation Deutscher Psychologenvereinigungen“, sie steht zum freien Download bereit (https://kersting-internet.de/qualitaetssicherung/din-33430-buch/din-screen/).

Empirische Studien mit dem RT

Um die Qualität des RT zu bestimmen und zu sichern, wurden insgesamt 1.737 Personen mit dem Test untersucht. Zur Klärung weiterer Fragen (Retest-Stabilität und Parallelität) wurden zusätzliche Untersuchungen mit 106 Personen durchgeführt. Die Verfahrenshinweise des RT informieren ausführlich über diese Güteprüfungen.

Itemkennwerte

Um eine gute Differenzierung der Personen in allen Bereichen der Merkmals­ver­teilung zu ermöglichen, sollte die durchschnittliche Schwierigkeit eines Tests im mittleren Be­reich liegen und die Verteilung der Itemschwierigkeiten die ganze Band­­breite abdecken. Beim Diktat „Nichtraucher“ streuen die Schwierigkeiten von .22 bis .94, beim Diktat „Rummelplatz“ streuen die Schwierig­keiten von .36 bis .94 und beim Diktat „Moselfahrt“ streuen die Schwierig­keiten von .15 bis .97.

Auch die Trennschärfen der Items wurden bestimmt. Einer Klassifikation von Ebel folgend werden Trennschärfen von ³ .40 als „sehr gut“, Items mit Trenn­schärfe­­koeffizienten zwischen .30 bis .39 als „brauch­bar“, solche mit Werten zwi­schen .20 bis .29 als „wenig brauchbar“ und Item­trennschärfen unter .19 als „un­brauch­bar“ be­zeichnet. Dieser Klassifikation zu­folge weisen 79% („Moselfahrt“), 82,4% („Nichtraucher“) und 86,7% („Rummel­platz“) der Items „brauchbare“ bis „sehr gute“ Trennschärfe­koeffizienten auf.

Reliabilität

Ein Test soll reliabel sein, also zuverlässig messen. D. h. er soll eine hohe Messgenauigkeit aufweisen, die Testergebnisse sollen mit einem geringen Messfehler behaftet sein. Die Reliabilität wird über verschiedene Methoden geschätzt. Ein verbreitetes Maß zur Schätzung der Reliabilität ist Cronbachs Alpha, das bei Tests bestimmt werden kann, bei denen alle Items ein (und nur ein) gemeinsames Merkmal (im Falle des RT die Rechtschreibfähigkeit) messen. Der RT erzielte in allen Normungsgruppen ein Cronbachs Alpha in Höhe von mindestens .90, die Retest-Stabilität (nach vier Wochen) betrug für alle drei Diktate .88.

Validität

Von zentraler Bedeutung für einen Test ist der Nachweis der Gültigkeit der aus den Testergebnissen abgeleiteten Interpretationen. Für den RT wurden unter­schiedliche Validierungsansätze verfolgt.

Kontentvalidität

Zur Prüfung der Kontentvalidität wurde das Konzept der kon­tent­­validen Paralleltests ange­wendet. Da alle drei Diktate weitgehend unabhängige Stichproben der gleichen Grund­gesamt­heit sind, können ihre Inter­korrelationen An­halts­punkte für eine Schätzung ihrer logischen bzw. in­haltlichen Gültigkeit liefern. Die ent­sprechenden Werte sind mit Interkorrelationen in Höhe von r=.86 bis r=.88 sehr zu­frieden­stellend.

Kriteriumsvalidität

Die RT-Leistung ist mit Werten zwischen r=.28 und r=.46 mit der Schulleistung im Fach Deutsch (konvergente Validität) logisch positiv korreliert. Der empirische Nachweis der diskriminanten Validität wurde ebenfalls erbracht, indem der Zusammenhang mit der Mathematiknote erwartungsgemäß ausblieb. Substanzielle Zusammenhänge bis zu einer Höhe von r=.69 zeigten sich mit der (vor der Testbearbeitung erhobenen) Selbsteinschätzung der Rechtschreibleistung.

Konstruktvalidität

Um einen Beitrag zur Einordnung der Rechtschreibleistungen in das nomo­logische Netzwerk etablierter Konstrukte zu leisten, wurden bei einer Gruppe von 512 Personen zusätzlich zum RT Intelligenz- und Wissenstests eingesetzt. Hin­sicht­lich der Inhaltsdimensionen ergaben sich deutliche Zusammen­hänge zwi­schen den Ergebnissen im RT und den Leistungen in Denkaufgaben mit verbalem Material (r=.32), geringere Zusammenhänge mit numerischem Aufgabenmaterial (r=.17) und keine Zu­­sammenhänge mit figuralem Aufgabenmaterial.

Akzeptanz

Es ist davon auszugehen, dass Rechtschreibtests seitens der getesteten Personen akzeptiert werden, sofern ein nachvollziehbarer Bezug zwischen der diagnostischen Fragestellung (z.B. Berufseignung, Schuleignung, LRS) und der Testung besteht. Die Tests sind nicht allzu belastend und die Privatsphäre der getesteten Personen wird nicht verletzt. Die Bewertung ist transparent, gut nachvollziehbar. Eine empirische Studie dazu, welche Akzeptanz der RT findet, wurde bislang aber nicht durchgeführt.

Weiterentwicklungen und Kooperationen

Der RT ist ein ausgereifter messtheoretisch fundierter Test. Wie für jedes Verfahren sind aber auch für den RT weitere Erkenntnisse wünschenswert, die auch durch Kooperationen zwischen Anwenderinnen / Anwendern einerseits und Testentwicklerinnen / -entwickler andererseits generiert werden könnten.

Forschungs- und Entwicklungsbedarf – Beispiele
  • Der RT wurde 2004 publiziert, die Aktualität der Normen müsste überprüft werden. Ein eigenständiger Bereich wäre da­rüber hinaus der Aufbau einer RT-Datenbank für Personen, für die Deutsch nicht die Muttersprache ist.
  • Auch die Frage der Akzeptanz des RT harrt noch einer empirischen Klärung.

Kooperation

Die oben genannten Forschungs- und Entwicklungsbedarfe ergeben sich aus den Ausführungen im vorliegenden Manual. Weitere Fragen von Forscherinnen / Forschern und Anwenderinnen / Anwendern sind überaus willkommen.

Ein Teil der oben genannten Fragen lässt sich bereits durch die Erfahrungen beantworten, die in der Praxis mit dem RT gesammelt werden. Es wäre sehr wertvoll, wenn Anwenderinnen / Anwender ihre Erfahrungen mit dem RT mitteilen und damit die Testpflege unterstützen würden. Diese Unterstützung könnte in Form von einem Erfahrungsbericht über konkrete Anregungen und Kritik bis hin zur Bereitstellung von (anonymisierten) Daten oder der gemeinschaftlichen Planung von Datenerhebungen stattfinden. Bitte kommen Sie (via E-Mail) auf uns zu!