Gütekriterien

Kurzdefinition:

Gütekriterien sind quantitative und qualitative Beschreibungsmaßstäbe, anhand derer Erhebungsverfahren, wie zum Beispiel Leistungstests in der Schule, bewertet werden können.

Beschreibung:

Die Messung von Schülerinnen- und Schülerleistungen ist als Messvorgehen den gängigen Gütekriterien verpflichtet: Objektivität, Reliabilität und Validität (vgl. Sacher 2006, S. 653).

Objektivität

„Unter Objektivität versteht man den Grad, in dem Ergebnisse einer Beobachtung unabhängig vom Beobachter sind.“ (Amelang & Bartussek 2006, S.119). Die Objektivität ist demnach gegeben, wenn die Daten, die sich durch eine Beobachtung oder Testung einer/s Proband/in ergeben, unabhängig sind von der Person, die testet. Amelang & Bartussek (2006, S. 119) unterscheiden drei Formen der Objektivität:

  1. Durchführungsobjektivität: Zufälliger oder systematischer Einfluss des/r TestleiterIn auf die Untersuchungsbedingung. Testinstruktionen sollten zum Beispiel immer in derselben Form vorgegeben werden. Höfliches und unhöfliches Verhalten eines/r TestleiterIn kann eine Untersuchung beeinflussen. Dieses Vorgehen ist insbesondere bei standardisierten Verfahren angezeigt, da die individuellen Ergebnisse von Personen in Bezug zu einer Vergleichsgruppe gebracht werden, die ihre Leistungen wiederum unter bestimmten Bedingungen gezeigt haben.
  2. Auswertungsobjektivität: Die von der/m TestleiterIn unabhängige Zuordnung von Zahlen zu Beobachtungen. Ein typisches Beispiel in der Schule ist die Beurteilung der mündlichen Teilnahme. Hier sollte das Ergebnis unabhängig von der Person sein, die das Handeln bewertet. Beachte: Die Auswertungsobjektivität deckt sich mit dem Begriff Inter-Rater-Reliabilität.
  3. Interpretationsobjektivität: Ein vorwiegend in der Diagnostik wichtiges Kriterium: Welche Schlüsse können aufgrund eines Testergebnisses über den Probanden und dessen Befindlichkeit formuliert werden? Interpretationsobjektivität ist dann gegeben, wenn die Zuordnung (Klassifikation) einer Person zu einer Gruppe auf der Basis von Testdaten eindeutig ist.

Reliabilität

Die Genauigkeit, mit der ein Verfahren ein Phänomen erfasst, nennt man Messgenauigkeit. In der klassischen Testtheorie drückt die Reliabilität das Maß des Messfehlers aus.

Ein Hinweis auf Reliabilität ist zum Beispiel, dass ein Verfahren, das mehrfach bei derselben Person eingesetzt wird, dasselbe Ergebnis zeigt (Re-Test-Reliabilität). Dabei entsteht immer das Problem, inwieweit Lerneffekte der ersten Testung die zweite beeinflussen. Solche Effekte reduzieren mitunter den Zusammenhang zwischen Testungen und müssen bei der Interpretation der Reliabilität berücksichtigt werden. Amelang & Bartussek (2006, S. 120) unterscheiden drei Formen der Reliabilität:

  1. Paralleltest-Reliabilität: Methode, bei der zwei ähnliche Verfahren eingesetzt werden, die gleich beschaffen sind und das Gleiche messen sollen. Die Möglichkeit von Lerneffekten soll so weitgehend ausgeschaltet sein. In der Konstruktion der Verfahren muß dabei der Zusammenhang der Verfahren sichergestellt werden.
  2. Half-Split-Reliabilität: Er werden aus dem Gesamttest Itempaare gebildet und diese auf zwei Verfahren verteilt (aus eins mach zwei). Die Items der beiden Verfahren korrelieren (vgl. Korrelation) dann miteinander.
  3. Inter-Rater-Reliabilität: Die Übereinstimmung der Urteile zweier Personen. Zugrundeliegende Frage: Inwieweit stimmen die Beurteilungen zweier BeurteilerInnen (Rater) hinsichtlich des Testergebnisses einer Probandin / eines Probanden überein?

Validität

Wottawa (1981, S. 73) beschreibt die Validität wie folgt: „Für die Anwendung von psychologischen Tests wird es erforderlich sein, daß diese Tests nicht nur genau messen, sondern daß man auch weiß, welche Schlüsse aufgrund der Testergebnisse möglich sind. Man möchte nicht nur die Zuverlässigkeit eines Tests kennen, man möchte auch wissen, wie gut man mit diesem Test andere Variablen vorhersagen kann. […] Diese Aussagekraft oder Gültigkeit eines Tests bezüglich einer bestimmten anderen Eigenschaft wird als ‘Validität’ bezeichnet.“

Bortz & Döring (2003, S. 199) halten die Validität für das wichtigste Testgütekriterium. „Die Validität eines Testes gibt an, wie gut der Test in der Lage ist, genau zu messen, was er zu messen vorgibt.“ Bortz & Döring (2003, S. 199ff.) unterscheiden:

  1. Inhaltsvalidität: Eine Augenscheinvalidität soll feststellen, ob das zu messende Merkmal umfassend repräsentiert wird durch das Erhebungsinstrument.
  2. Kriteriumsvalidität: Eine prognostische Validität, die ausdrückt, wie gut ein gemessenes Merkmal z.B. Berufseignung den späteren Berufserfolg vorhersagt.
  3. Konstruktvalidität: Aufgrund von Testwerten lassen sich statistische Hypothesen bestätigen.
Interne Verweise:
Angemessenheit

Bildungsstandards

Curriculum

Differenzierung

Kompetenzmessung

Lernerfolgsmessung

Notengebung

Verwendete Quellen:
Amelang,M & Bartussek, D.: Differentielle Psychologie und Persönlichkeitsforschung. 6. Auflage. Stuttgart: Kohlhammer. 2006.

Bortz, J. & Döring, N.: Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler. 3. Auflage. Berlin: Springer Verlag. 2003.

Sacher, W.: Lernstandsbeurteilung: Tests, Zensuren, Zeugnisse. In: Arnold, K.-H., Sandfuchs, U. & Wiechmann, J. (Hrsg.). Handbuch Unterricht. Klinkhardt: Bad Heilbrunn. 2006. S. 648-657.

Wottawa, H. Psychologische Methodenlehre. München: Juventa Verlag. 1981.

Weiterführende Literatur:
Becker, H.-J.; Glöckner, W.; Hoffmann, F.; Jüngel, G.: Fachdidaktik Chemie. Köln: Aulis. 1980.

Faßnacht, G.: Systematische Verhaltensbeobachtung. Eine Einführung in die Methodologie und Praxis. München: Ernst Reinhardt Verlag. 1979.

Internetverweise:

Wir weisen darauf hin, dass die aufgelisteten Seiten nicht Teil des Didagma-Projektes sind. Daher übernehmen wir keine Haftung für die Inhalte und die Richtigkeit dieser Seiten. Falls der Link defekt, oder der Seiteninhalt unpassend sein sollte würden wir uns freuen darüber informiert zu werden.

Überblick über die Korrelation, die Haupttestgütekriterien Objektivität, Reliabilität und Validität sowie weitere Nebengütekriterien

Gütekriterien von Noten

Materialien:

Verantwortlich: Rolf Arnold, FB Pädagogik, TU Kaiserslautern und Hans-Jürgen Wiegerling; Thomas Prescher;

« Back to Glossary Index