Evaluation

Ekkehard Nuissl

DOI: https://doi.org/10.35468/wbeb2022-091

E. bezeichnet ein Verfahren, um Gegenstände und Prozesse zu beschreiben und zu bewerten. Sie ist „ein Instrument zur empirischen Generierung von Wissen […], das mit einer Bewertung verknüpft wird, um zielgerichtete Entscheidungen zu treffen“ (Stockmann & Meyer, 2010, S. 64). E. ist verglichen mit Qualitätsmanagement (Qualität), Controlling, Benchmarking, Audit u. a. ein komplexeres und offeneres Konzept zur Erfassung und Bewertung. Gegenüber dem Monitoring und der Systemevaluation zeichnet sich die E. insb. durch den bewertenden Charakter aus.

Mithilfe einer E. können sowohl Prozesse als auch deren Ergebnisse (Outcome) und Wirkungen (Impact) erfasst und bewertet werden. Aus wissenschaftlicher Sicht erfordert eine E. intersubjektive Nachprüfbarkeit auf der Grundlage offengelegter Kriterien. Eine E. unterscheidet sich allerdings insofern von wissenschaftlicher Forschung, als sie nicht primär auf Erkenntnisgewinn abzielt, sondern i. d. R. praktische oder politische Entscheidungen vorbereitet. Eine E. soll Nutzen stiften, Prozesse transparent machen, Wirkungen dokumentieren und Zusammenhänge aufzeigen. Evaluationen sind in den vergangenen Dekaden zu einem Standard in nahezu allen Lebens- und Arbeitsbereichen geworden – man kann heute von einem „Evaluationszeitalter“ sprechen.

Im Wesentlichen gibt es drei Merkmale, die eine E. charakterisieren und deutliche Unterschiede bewirken: (1) formativ oder summativ, (2) intern oder extern, (3) fremd- oder selbstbewertend. Für jede E. werden – abhängig von ihrem Ziel – diese Merkmale spezifisch konfiguriert.

Zu (1). Die Unterscheidung von formativer und summativer E. betrifft die Beziehung der E. zu einem evaluierten Prozess. Bei der formativen E. wird der Evaluationsgegenstand in seinem Verlauf begleitet und bewertet; sie ist am ehesten vergleichbar mit der wissenschaftlichen Begleitung von Modellversuchen und Projekten und wird häufig als solche konzipiert. Formativer E. geht es darum, Erkenntnisse über den Prozess und die Ergebnisse sowie die Wirkung des evaluierten Objekts zu erhalten und direkt in den weiteren Verlauf des Prozesses einzuspeisen. Ziel der formativen E. ist v. a. eine Verbesserung der Abläufe und der Ergebnisse. Formative E. wird meist verbunden mit Wechselbezügen zwischen der E. und den Verantwortlichen für die Umsetzung der Ergebnisse, oft identisch mit den Auftraggebern. Dabei werden sowohl die Anlage der E. als auch deren Bewertungskriterien und Bewertungen gemeinsam festgelegt. Die summative E. resümiert die evaluierten Daten am Ende des Prozesses in einer anschließend diskutierten, abschließenden Bewertung. Sie ist am ehesten vergleichbar mit den Lernfortschrittsfeststellungen bei pädagogischen Prozessen (z. B. Tests) und schließt einen Vorgang in gewisser Weise ab.

Zu (2). Bei interner oder externer E. liegt der Unterschied im Kontext. Eine interne E. beschränkt sich auf das Objekt der E., wird von diesem initiiert, konzipiert und ausgewertet. Eine interne E. sind z. B. Rückmeldungen von Lernenden im Verlauf (formativ) oder am Ende (summativ) eines Lehr-Lern-Prozesses. Sie verbleiben im Kreis der Lehrenden und Lernenden der Bildungsmaßnahme. Eine externe E. wird von einer Instanz außer­halb des Objekts der E. initiiert, konzipiert und ausgewertet. Eine externe E. sind z. B. Schulevaluationen, die von Schulämtern in Auftrag gegeben und ausgewertet werden.

Zu (3). Bei Fremd- oder Selbstevaluationen geht es um die Frage, von wem die E. durchgeführt wird. Bei Fremdevaluationen sind Instanzen außerhalb des Evaluationsobjekts tätig, z. B. Gutachterinnen und Gutachter oder Expertinnen und Experten, oft Gremien und Kommissionen, die unterschiedliche Sichtweisen und Kompetenzen für die bewertende E. zusammenbringen. Sie sind häufig sehr kostspielig und finden in unterschiedlichen Stufen statt, meist einer ersten schriftlichen Befragung und Datenerhebung und anschließend einer persönlichen Begehung, Besichtigung und Befragung. Bei Selbstevaluationen werden Personen im Evaluationsobjekt (z. B. Schule, Hochschule, Weiterbildungseinrichtung) selbst tätig, sammeln Daten und beantworten (sich) Fragen. Selbstevaluationen sind zeitlich und finanziell weniger aufwendig, stehen jedoch immer vor der Schwierigkeit, eine notwendige Distanz herzustellen.

Bei allen Typen von Evaluationen gelten die Grundsätze empirischer Forschung: Validität, Reliabilität, Objektivität. Die erhobenen und in die E. einbezogenen Daten sowie deren Interpretation müssen den Sachverhalt treffen, belastbar sein und intersubjektive Gültigkeit haben. I. d. R. werden nicht alle in eine E. einbezogenen Daten gesondert hierfür erhoben; bereits vorhandene Daten, Dokumente und Unterlagen sind meist von gleicher Wichtigkeit. Aber auch an diese werden Qualitätsanforderungen gestellt, die im Vorfeld der eigentlichen E. festgelegt werden. In den vergangenen Dekaden, in denen Evaluationen in den unterschiedlichen gesellschaftlichen Bereichen immer wichtiger wurden, hat sich das Verständnis herausgebildet, dass ein Methodenmix (Forschungsmethoden) am geeignetsten ist, Antworten auf Evaluationsfragen zu finden. Zu diesem Methodenmix zählen insb. folgende Ansätze:

  • Dokumentenanalyse: Sie umfasst eine Analyse von Texten, Unterlagen und Materialien, die in einem definierten Zeitraum vor oder während der E. entstanden sind. Entsprechend des Evaluationskonzepts erfolgt eine Auswahl und Bereitstellung der Dokumente.
  • Sekundäranalyse: Diese enthält eine Auswertung vorhandener Daten, v. a. quantitativer Daten (z. B. zu Finanzierung, Teilnahme, Lehrkräfte, Arbeitsstunden), den Fragestellungen des Evaluationskonzepts folgend.
  • Befragung: Hierbei werden Akteure des Evaluationsobjekts zur Erklärung von Sachverhalten, zu Einschätzungen und Perspektiven mündlich und oder schriftlich befragt.
  • Beobachtung: Abläufe, Kommunikationen und Verhaltensweisen werden hierbei beobachtet und analysiert, um Aufschlüsse über das Evaluationsobjekt „in Aktion“ zu erhalten.

Analysen, Befragungen und Beobachtungen, also die Datenerhebungen, erfolgen in einer zeitlichen Abfolge, die von Umfang, Ziel und Konzept der E. bestimmt ist. I. d. R. erfolgen die Befragungen am Ende der Datenerhebung, weil sie auch ermöglichen, Rückfragen zu Analyseergebnissen zu stellen und Datenlücken zu schließen. Im Evaluationsdesign (oder -konzept) werden zu Beginn das Objekt differenziert (z. B. bei Schulen: Lehrende, Management, Gebäude, Verwaltung, Konfliktregelung, Zugänglichkeit usw.), das Erhebungsverfahren erarbeitet sowie der zeitliche und organisatorische Ablauf festgelegt. Die wichtigsten Entscheidungen und Aufgaben in der Phase der Konzipierung sind die Definition der zu klärenden Fragen, die Auswahl der dafür nötigen Erhebungsinstrumente und die Bestimmung der Indikatoren. Diese müssen geeignet sein, die erforderlichen Kenntnisse zur Beantwortung der Fragen zu erbringen, sie müssen umfassend für die Erarbeitung von Erhebungsinstrumenten und in sich kohärent zu sein, um den Methodenmix bei vergleichbaren Datenlinien zu ermöglichen. Indikatoren in der Weiterbildung können z. B. Kurs- und Teilnehmerzahlen, Kursgebühren oder Dropout-Quoten (Dropout) sein. Mittels der Indikatoren muss es auch möglich sein, eine sinnvolle und stimmige Analyse des Prozesses des Evaluationsobjekts vorzunehmen – i. d. R. schließen Evaluationen auch die Entwicklungsperspektive ein. Verlaufsstatistiken und Zeitreihen sind bei einer E. daher stets Bestandteil der Daten, besonders, wenn es um Organisationen geht.

Ein besonders wichtiger, jedoch schwer in Evaluationen erhebbarer Sachverhalt sind Wirkungs- und Nachhaltigkeitsanalysen (Erträge von Erwachsenen- und Weiterbildung). In beiden Fällen kann eine E. nur im Nachhinein Schlüsse ziehen, aber auch diese erst, wenn entsprechende Daten vom Evaluationsobjekt vorgehalten werden. Folgerichtig werden daher nicht nur die Wirkung und Nachhaltigkeit evaluiert, sondern auch der Blick des Objekts auf eben diese. Hinsichtlich der Wirkung organisationalen Handelns werden daher nicht nur Indikatoren zu dessen Folgen festgelegt, sondern auch zur Erfassung, Analyse und Bewertung der Wirkungen innerhalb der Organisation. Dies gilt auch für die Analyse der Nachhaltigkeit dieser Wirkungen. Der Aspekt der Nachhaltigkeit hat insb. bei der E. von befristeten Evaluationsobjekten (z. B. Programmen, Projekten, Einzelmaßnahmen) große Bedeutung – dort geht es um die E. der Maßnahmen, welche die Fortdauer des Objekts bereits während seiner Laufzeit sicherstellen. Bei einer interpretativen bzw. rekonstruktiven E. geht es nicht um die Messung von Wirkungen, sondern um deren diskursive Reflexion (Diskurs). Dieses Verfahren kann, wie alle partizipativen Elemente, die Akzeptanz von Evaluationsergebnissen bei allen Akteuren steigern, aber auch Entscheidungen erschweren.

Die Akzeptanz einer E. seitens der Mitglieder des Objekts (z. B. Lehrkräfte an Schulen, Mitarbeitende in Weiterbildungseinrichtungen) ist von entscheidender Bedeutung für ihre Qualität (über wissenschaftliche Kriterien hinaus) und Relevanz. Ohne Zustimmung der Betroffenen ist eine E. meist nicht einmal realisierbar. Es ist daher von großer Bedeutung, den Nutzen der E. bewusst zu machen – und einzulösen. Ein wesentlicher Nutzen liegt bereits in der Vorbereitung einer E. – die Reflexion des eigenen Tuns, die Vergewisserung seiner Sinnhaftigkeit. Ein weiterer Nutzen sollte auch im Ergebnis der E. liegen – den Empfehlungen für die weitere Arbeit, die weiteren Aktionen. Beides hängt von den hinter einer E. stehenden Wertvorstellungen ab, die in den angewandten Verfahren ihren Niederschlag finden.

Neben den Fragen und Indikatoren der E. geht es v. a. um die Personen, die sie durchführen. Auch die Evaluatorinnen und Evaluatoren bedürfen der Akzeptanz. Diese Akzeptanz kann durch Legitimation hergestellt werden – Legitimation über den Auftrag, Legitimation in der Kompetenz, Legitimation in Nähe oder Distanz, Legitimation in der Expertise. Ein wesentlicher Aspekt der Legitimation liegt jedoch auch in der Zurückhaltung und der wertschätzenden Neutralität. Da es bei einer E. um Werte geht, ist es sinnvoll, zwischen Werthaltungen (der Evaluierenden) und ihren konkreten Bewertungen zu unterscheiden. Die Handlungsempfehlungen sind auf transparenten Bewertungen zu basieren, wenn sie relevant und ihrerseits wirksam sein sollen. Der Auswahl der evaluierenden Personen kommt daher eine große Bedeutung zu. Wichtig ist dabei nicht nur deren Expertise, sondern auch deren Kompetenz, die gefragte Rolle im Evaluierungsprozess wahrnehmen zu können. Insb. ist zu vermeiden, dass Evaluierende in einer wie auch immer gearteten Beziehung zum Evaluationsobjekt stehen.

Die Auswahl der Personen, welche die E. realisieren, erfolgt i. d. R. über den Auftraggeber. Hier unterscheidet sich eine E. deutlich von wissenschaftlichen Analysen und Untersuchungen. Es geht nicht um Erkenntnis, sondern um definierte Funktionen: Aufklärung, Lernen, Kontrolle oder Legitimation. Die Instanz, welche den Evaluationsauftrag vergibt, betont stets eine dieser Funktionen. Insofern stehen die mit der E. beauftragten Personen hier in einem Kontext, der die E. initiiert, ermöglicht und gebraucht. Die mit der E. beauftragten Personen sind insoweit in der Pflicht. Dies kann in manchen Fällen auch zu Interessenkonflikten führen, wenn bspw. das Ergebnis der E. vom Auftraggeber nicht gewünscht ist. Ergebnisse der E. sind v. a. Erkenntnisprozesse der Evaluationsobjekte und der dort tätigen Personen sowie Handlungsempfehlungen. Die Handlungsempfehlungen sind nicht immer eine rationale oder folgerichtige Konsequenz der E. selbst; sie liegen gewissermaßen im Kontext der E. Bspw. ließen sich immanent aus den Ergebnissen der Kompetenzstudie PISA (Lernevaluation) Empfehlungen hinsichtlich geeigneter Schulformen nicht ableiten; sie wurden vielmehr im politischen Raum vorgenommen. Es ist daher auch Sache einer professionellen E., die eigenen Folgen und Wirkungen zu bedenken. E. hat von daher auch eine virulente ethische Dimension (Ethik); ihre Ergebnisse müssen wahr (d. h. empirisch gesichert), anschlussfähig und zumutbar sein.

In der Erwachsenen- und Weiterbildung wird eine E. angewandt, um Prozesse und Abläufe von Bildungsangeboten zu überprüfen, meist mittels kleinerer Erhebungen in eng definierten Kontexten. Die E. von Kursen bspw. durch die Teilnehmenden kann bei entsprechenden Ergebnissen auch zum Entzug der Lehrkompetenz führen (was an Schulen und Hochschulen kaum möglich ist). Eine E. in der Weiterbildung bezieht sich auch auf die Erfüllung von Qualitätsstandards, auf die Erreichung von Zielgruppen (Zielgruppenorientierung) und auf die Implementation von Innovationen (Nuissl, 2013; Reischmann, 2017). Immer häufiger werden auch Evaluationen durchgeführt, die sich mit der Organisation von Erwachsenenbildung in Einrichtungen und Betrieben befassen (Bildungsmanagement), ähnlich den Audits an Hochschulen, Schulen und Forschungseinrichtungen.

Dem professionellen und qualitätsbezogenen Diskurs in dem auch marktlich sehr dynamischen Feld der E. widmet sich die Deutsche Gesellschaft für Evaluation (DeGEval). Sie hat Standards dafür entwickelt, dass Evaluationen nützlich, realistisch und kostenbewusst sind sowie rechtlich, ethisch und wissenschaftlich korrekt durchgeführt werden (DeGEval, 2017, 2008).

Literatur

DeGEval – Gesellschaft für Evaluation. (2017). Standards für Evaluation (Erste Revision 2016). Mainz: ­DeGEval.

DeGEval – Gesellschaft für Evaluation. (Hrsg.). (2008). Empfehlungen für die Aus- und Weiterbildung in der Evaluation. Anforderungsprofile an Evaluatorinnen und Evaluatoren (2., unveränd. Aufl.). Mainz: DeGEval.

Kuper, H. (2005). Evaluation im Bildungssystem. Eine Einführung. Stuttgart: Kohlhammer.

Nuissl, E. (2013). Evaluation in der Erwachsenenbildung (Reihe Studientexte für Erwachsenenbildung, Bd. 17). Bielefeld: wbv Publikation.

Reischmann, J. (2017). Weiterbildungs-Evaluation: Lernerfolge messbar machen (Reihe Grundlagen der Weiterbildung, 2. Aufl.). Augsburg: Ziel.

Stockmann, R. & Meyer, W. (2014). Evaluation. Eine Einführung (2. Aufl.). Opladen: Barbara Budrich.

European Society for Research on the Education of Adults
Evangelische Erwachsenenbildung