In jüngster Zeit wird diskutiert, monetäre Anreize an studentische Lehrveranstaltungsevaluationen zu knüpfen. Anhand empirischer Untersuchungen zeigt Tobias Wolbring Einflüsse der Notengebung und Dozierendenattraktivität, individuelle Unterschiede in der studentischen Urteilsstrenge sowie Selektionseffekte auf. Neben den sozialtheoretischen und methodischen Einsichten aus diesen Befunden arbeitet er die hochschulpolitischen Implikationen dieser Fallstricke bei der Lehrevaluation heraus.

Autorentext
Tobias Wolbring, Dr. rer. pol., ist Postdoctoral Fellow am Departement Geistes-, Sozial- und Staatswissenschaften der ETH Zürich.

Klappentext

Leseprobe
1 Einleitung In den vergangenen Jahren ist eine vermehrte Beschäftigung sozialwissenschaftlicher Forschungsarbeiten mit dem Thema Kausalität zu verzeichnen. Dies lässt sich etwa an einer Reihe neuerer Beiträge ablesen, die sich aus methodologischer, methodischer und statistischer Sicht mit Möglichkeiten und Grenzen des empirischen Nachweises von Ursache-Wirkungszusammenhängen (zum Beispiel Blossfeld 2009; Engelhardt 2005; Gangl 2010; Goldthorpe 2001; Heckman 2005; Imai et al. 2011; Morgan/Winship 2007; Sobel 2005; Winship/Sobel 2004), insbesondere mit Bezug zu evaluativen Fragestellungen (zum Beispiel Angrist/Pischke 2009; Blundell/Costa Dias 2009; Freedman 2006; Imbens/Wooldridge 2008; Schlotter et al. 2009; Schneider et al. 2007; Shadish/Cook 2009) befassen. Parallel dazu kann eine erneut aufwallende wissenschaftstheoretische Diskussionswelle zum Begriff der Kausalität und daran anknüpfende Anforderungen an die Gestaltung theoretischer Erklärungen beobachtet werden (zum Beispiel Bunge 2004; Hedstrom 2005; Mayntz 2004; Pearl 2000; Rubin 2005; Schmid 2006; Woodward 2003). In der vorliegenden Arbeit werden diese Entwicklungen aufgegriffen und für die Messung der Qualität von Lehre nutzbar gemacht. Genauer sollen studentische Lehrveranstaltungsevaluationen (im Folgenden LVE), also die Bewertungen universitärer Lehre durch Studierende anhand weitgehend standardisierter Fragebogen, behandelt und Determinanten studentischen Urteilens herausgearbeitet werden. Es sollen dabei einerseits die Schwächen gängiger Evaluationsverfahren an Hochschulen, generelle Fallstricke bei der Qualitätsmessung mittels studentischer Bewertungen und Ansatzpunkte zu deren Behebung aufgezeigt werden. Andererseits sollen die Vorzüge sowohl experimenteller Forschungsdesigns und Vorher-Nachher-Messungen als auch fortgeschrittener statistischer Analyse- und Korrekturverfahren wie etwa Mehrebenenanalyse, Panelanalyse, Imputation und Gewichtung illustriert werden. Studentische LVE eignen sich dabei aus verschiedenen Gründen in besonderer Weise für eine solche Illustration. Erstens ist man bei evaluativen Fragestellungen bekanntlich vorwiegend an dem Nachweis der Wirkung eines Programms, einer Intervention oder einer Maßnahme interessiert (Wirkungsevaluation). Damit ist (meist implizit) die kausale Wirkung eines Eingriffs gemeint. Es soll also Wissen darüber gewonnen werden, ob durch die Implementierung einer Maßnahme intendierte Effekte und unintendierte Nebenwirkungen eingetreten sind. Bei studentischen LVE ist man dabei einerseits an dem Lernerfolg und Kompetenzerwerb durch das Treatment ».Lehre« interessiert. Andererseits wird nicht nur die Wirkung der Maßnahme, sondern auch deren Implementierung anhand von Prozess- (zum Beispiel Erklärungen der Dozierenden, Veranstaltungstempo, Störungen) und Strukturindikatoren (Raumgröße, Textsammlung) evaluiert, wobei die Wahl des Bewertungsmaßstabs ohne weitere Vorgaben den Studierenden überlassen wird. Da an Hochschulen stets zahlreiche ähnliche und verschiedene Veranstaltungen evaluiert werden, bietet sich hier eine besonders günstige Gelegenheit, konfundierende Einflüsse auswendig zu machen und naheliegende Alternativerklärungen für empirische Befunde durch die Bildung geeigneter Versuchs- und Kontrollgruppen auszuschließen. Kausalanalysen können zweitens im Bereich der LVE eine direkte Praxisrelevanz entfalten, wenn sich mit ihrer Hilfe etwa zeigen lässt, dass schlichte statistische Zusammenhänge (zum Beispiel zwischen studentischer Bewertung und Lernerfolg) einer strengeren Prüfung nicht standhalten, externe Faktoren (wie Notengebung oder Attraktivität des Lehrpersonals) auf LVE-Bewertungen einwirken oder Kausalrichtungen anders gelagert sind als vermutet. Denn bei Evaluation steht in der Regel eine Erkenntnisfunktion (Stockmann/Meyer 2010) im Vordergrund. Ziel ist es also Programmwirkungen zu identifizieren. Gestützt auf die Resultate dieser wissenschaftlich fundierten Interventionsbewertung soll sodann entschieden werden, ob eine Maßnahme beibehalten, intensiviert, adjustiert oder unterlassen wird. Dies hängt mit dem Wunsch nach gezielten planerischen Eingriffen in die Welt zusammen, die in modernen Gesellschaften zentrale Bedeutung erlangt haben (Beck 1986; Weber 1922). Evaluationen sind dabei Produkt dieses modernen Rationalisierungs- und Fortschrittsmythos, fordern diesen aber zugleich. Auch Schwarzs (2006) Charakterisierung von Evaluation als ein modernes Ritual weist in diese Richtung. Im Sinne Durkheims (1912) Ritualbegriff erfüllen Evaluationen aufgrund ihrer Verstetigung elementare gesellschaftliche Funktionen und tragen zu aktuellen Okonomisierungstendenzen bei (Braun und Wolbring 2012). So wird mittels Evaluationen Exzellenz konstruiert (Munch 2007) und sozialer Status zugewiesen (Podolny 2005). Evaluationen stabilisieren damit moderne Gesellschaften an sich, da sie staatliches Handeln legitimieren sowie Zweifel an dessen Legitimität verarbeiten und zerstreuen (Meyer und Rowan 1977). Anregungen zur Verbesserungen bestehender Evaluationsverfahren wirken sich daher direkt auf die Erfüllung derartiger Funktionen aus und sind wichtig, um einer unhinterfragten Anwendung derartiger Methoden und damit der Publikation möglicherweise irreführender Lehrveranstaltungsrankings entgegenzuwirken. Dieser Sachverhalt praktischer Bedeutsamkeit gilt drittens fur LVE in verstärktem Maße, da an Hochschulen durch die Kopplung von Mittelzuweisungen an Evaluationsergebnisse individuelle und kollektive Leistungsanreize (für Dozierende, Fachbereiche, Fakultäten, Hochschulen) bestehen und noch verstärkt gesetzt werden sollen (vgl. zum Beispiel Anderson et al. 2011; Wissenschaftsrat 2008). Wenn finanzielle Entlohnungen und weitere Handlungsanreize von derartigen Messungen abhängen, sollte Klarheit darüber bestehen, welche Aussagen studentische Qualitätseinschätzungen erlauben und welche nicht. Schließlich sollten Einzelpersonen anhand meritokratischer Prinzipien entlohnt werden und nicht anhand von Kriterien, welche von zufälligen Schwankungen und systematischen Verzerrungen dominiert werden oder leicht manipulierbar sind. Die Frage nach der Datenqualität ist somit mit Pohlenz (2009) als Schlüsselfrage der Qualitätssicherung von Lehre und Studium. zu betrachten. Neben der Validität der Messungen werden hierbei auch Aspekte der Fairness derartiger Bewertungsverfahren berührt. Würde sich etwa herausstellen, dass LVE von lehrunabhängigen Faktoren beeinflusst werden, die von den Dozierenden nur schwer zu beeinflussen sind, so wäre das ein Fairness-Problem (siehe auch Rindermann 2001). In solchen Fällen wäre an entsprechende Korrekturmaßnahmen der Qualitätsmessungen zu denken, um ex post facto diese Defizite der LVE zu beheben oder zumindest zu weitreichende Schlüsse aus…