Bewertungsmethodologien

Wenn man verstanden hat, was die Bewertung ist, welche Rolle sie im politischen Zyklus spielt und wer an ihr beteiligt ist, dann kommt die große Aufgabe, sie auch durchzuführen!

Evaluatoren stehen der gewaltigen Herausforderung gegenüber, alle verfügbare Evidenz und Daten zu sammeln, sie zu analysieren und interpretieren und schließlich über ihre Ergebnisse Bericht zu erstatten. Aber wo fängt man am besten an?

Was ist denn überhaupt eine Methodologie?

Ehe wir irgendetwas unternehmen, müssen wir erst definieren, was eine Bewertungsmethodologie ist. Kurz gesagt ist eine Bewertungsmethodologie ein Instrument, mit dem wir die einzelnen Schritte einer belastbaren Bewertung besser verstehen können. Eine Bewertungsmethodologie beinhaltet sowohl die konzeptionelle Gestaltung der Bewertung als auch den Ansatz, der verwendet wird, um den Umfang und die Gründe von Veränderungen zu erschließen.

Entmystifizierung des seltsamen Konstrukts der „kontrafaktischen Analyse“

Dieser letzte Punkt umfasst mit dem Verständnis der Erfolge einer Politik und der Gründe für diesen Erfolg zwei der Hauptziele der gesamten Aufgabe. Als vorrangiger Ausgangspunkt jeder Bewertung kann grundsätzlich die folgende Frage dienen:

„Was wäre geschehen, wenn die politische Intervention nicht stattgefunden hätte?“

Diese Frage lässt sich nur anhand einer kontrafaktischen Bewertung beantworten. Aber was ist denn nun dieses seltsame Konstrukt der „kontrafaktischen Bewertung“? Das hört sich kompliziert an, oder?

Machen Sie sich keine Sorgen – das Konzept ist gar nicht schwer zu verstehen. Eine kontrafaktische Bewertung ist einfach eine Bewertung der Situation, wie sie gewesen wäre, wenn die Intervention nicht stattgefunden hätte, verglichen mit der tatsächlichen Situation mit der umgesetzten Intervention. Das Fehlen einer politischen Maßnahme kann auch als interventionsfreie Situation bezeichnet werden. Durch den Vergleich dieses interventionsfreien Szenarios mit der tatsächlich gegebenen Situation lassen sich die Nettoeffekte öffentlicher Interventionen bestimmen.[1]

Eine kontrafaktische Bewertung kann vorgenommen werden, um die direkten und indirekten Wirkungen eines Programms oder einer Politik zu identifizieren und festzulegen.

  • Direkte Wirkungen sind als unmittelbare Konsequenz der Förderung zu erkennen, die Begünstigte im Rahmen eines Programms genießen.
  • Indirekte Wirkungen bezeichnen Effekte eines Programms, die über die direkten Wirkungen der öffentlichen Intervention auf Begünstigte hinaus für die Wirtschaft, Gesellschaft oder Umwelt entstehen.[2]

Eine kontrafaktische Situation kann anhand verschiedener Instrumente konstruiert werden, z. B. Shift-Share-Analysen, Vergleichsgruppen, Simulationen mithilfe ökonometrischer Modelle usw.
Die Ausgangslage für beide Szenarien ist zunächst identisch, ob mit der politischen Intervention oder in der kontrafaktischen Situation. Wenn die Intervention Wirkung zeigt, divergieren die beiden Szenarien zunehmend.[3]

Tools, um Sie in eine alternative Realität zu teleportieren

Was sind also die möglichen Tools, die Evaluatoren darin unterstützen können, eine Politik zu bewerten und verstehen, und wie unterscheiden sich diese?

Evaluatoren müssen auf der Grundlage der verfügbaren Informationen und Daten sowie in Anbetracht der Ziele und Bedarfe der Bewertung das richtige Tool bzw. die richtige Technik einsetzen. Diese Tools, die sogenannten Bewertungsmethoden, lassen sich verschiedenen Kategorien zuteilen.

Bewertungsmethoden beinhalten im Allgemeinen Abläufe und Protokolle, die bei der Durchführung von Bewertungen einen systematischen, stimmigen Ansatz sicherstellen. Methoden können sich auf die Erfassung oder Analyse von Daten und Informationen konzentrieren; sie können quantitativ oder qualitativ sein und beschreibenden, erläuternden oder prognostizierenden Zwecken dienen oder eine Informationsbasis für Maßnahmen schaffen. Die Wahl von Methoden richtet sich nach den zu beantwortenden Bewertungsfragen und der Art der jeweiligen Untersuchung (kausal, sondierend, normativ usw.). Ein breites Verständnis vielfältiger Methoden stellt sicher, dass Evaluatoren entsprechend ihren Bedürfnissen und dem jeweiligen Zweck geeignete Methoden wählen.[4]

Für eine kontrafaktische Bewertung können verschiedene Bewertungsmethoden herangezogen werden, aber die Belastbarkeit der Ergebnisse kann davon abhängen, welche Methode gewählt wird.

Dürfen wir vorstellen: die verschiedenen Kategorien von Bewertungsmethoden

Die zwei größten Kategorien von Bewertungsmethoden sind quantitative und qualitative Verfahren.

Die zahlenorientierte Kategorie

Eine Bewertung auf der Grundlage von quantitativen Methoden lässt sich verschiedentlich konzipieren, vor allem abhängig davon, wie die interventionsfreie Situation konstruiert wird.

  • Ein experimentelles Bewertungsdesign gilt als „Goldstandard“ der Bewertung. Bei diesem experimentellen Design mit randomisierten, kontrollierten Experimenten werden zufällig ausgewählte Gruppen gefördert (Begünstigte), während eine ebenfalls zufällig ausgewählte Kontrollgruppe keine Förderung erhält (Nichtbegünstigte). Experimentelle oder randomisierte Designs gelten im Allgemeinen als die robusteste Bewertungsmethodologie. Die Durchführung von Feldversuchen wirft jedoch verschiedene methodologische Probleme auf.
  • Ein quasi-experimentelles Bewertungsdesign ist einem experimentellen Design zwar sehr ähnlich, unterscheidet sich aber in einem Schlüsselelement: Es fehlt die zufällige Zuweisung zu Gruppen. Ein entscheidendes Problem einer Bewertung mit einem quasi-experimentellen Design ist die Identifikation von jeweils einer Gruppe von Begünstigten und Nichtbegünstigten des Programms, die statistisch identisch sind, außer dass die Programmförderung fehlt. Wenn die beiden Gruppe identisch sind (d. h. sie teilen die gleichen Merkmale hinsichtlich Größe, Geografie usw.), außer dass eine Gruppe am Programm teilnimmt und die andere nicht, dann müssen etwaige Unterschiede in den Ergebnissen auf das Programm zurückzuführen sein.
  • Ein nicht experimentelles Bewertungsdesign kann verwendet werden, wenn bei der Anwendung einer quasi-experimentellen Methode keine geeignete Kontrollgruppe identifiziert werden kann. Bei diesem Design werden Begünstigte und Nichtbegünstigte des Programms anhand von statistischen oder qualitativen Methoden verglichen, um Unterschieden zwischen den beiden Gruppen Rechnung zu tragen.

Für quantitative Bewertungen kommen verschiedene statistische Methoden infrage, u. a. das Propensity Score Matching (PSM), das allgemeine Propensity Score Matching (GPSM), das Differenz-in-Differenzen-Verfahren (DiD), die Regressions-Diskontinuitäts-Analyse (RDD) oder das berechenbare allgemeine Gleichgewichtsmodell (CGE).[5]

  • Naive Schätzungen: Bei diesem Ansatz werden die Vergleichsgruppen im Allgemeinen beliebig ausgewählt, was zu statistisch verzerrten quantitativen Ergebnissen führt. Dieser weniger robuste Ansatz wird manchmal für Bewertungen verwendet, wenn keine ausreichenden Daten und Kontrollgruppen verfügbar sind. Allerdings vermittelt er weniger präzises Wissen über ein spezifisches Programm sowie seine direkten und indirekten Wirkungen. Eine naive Schätzung beinhaltet implizit die Anwendung von Methoden, die auf unzureichender Evidenz, Ad-hoc-Umfragen unter einer Gruppe von Begünstigten, Meinungen von Verwaltungsbediensteten usw. beruhen. Diese Techniken eignen sich im Allgemeinen nicht, um die Fragen adäquat zu beantworten, die im Rahmen einer quantitativen Bewertung generell als entscheidend betrachtet werden.

Die personenorientierte Kategorie

Qualitative Bewertungsmethoden sind zumeist weniger auf Zahlen und mehr auf die Meinungen und Ansichten Einzelner ausgerichtet. Qualitative Methoden sind ähnlich vielfältig wie quantitative Verfahren.

  • Fokusgruppen sind eine qualitative und partizipatorische Bewertungstechnik, die einer sorgfältig ausgewählten Gruppe von Interessenträgern die Gelegenheit gibt, die Ergebnisse und Wirkungen politischer Interventionen zu diskutieren. Fokusgruppen sollten von externen Moderierenden geleitet werden und verschiedene Menschen aus verschiedenen Untergruppen von Interessenträgern umfassen (z. B. Verwaltungsbehörde, durchführende Stelle, Begünstigte, unabhängige Fachleute). Es ist möglich, Fokusgruppen für Begünstigte und Nichtbegünstigte separat durchzuführen und die Ergebnisse anschließend zu vergleichen. Diese Bewertungsmethode kann zeitraubend sein; außerdem müssen Fokusgruppen von Personen mit exzellenten Moderationskompetenzen geleitet werden. Gegenüber anderen qualitativen Methoden haben Fokusgruppen den Vorteil, dass sie ausführliche Diskussionen ermöglichen. Der Hauptnachteil dagegen ist, dass es oft nicht möglich ist, die Teilnahme eine diversen Gruppe von Interessenträgern zu sichern.
  • Interviews sind als Fragen und Antworten strukturierte Gespräche zwischen einem Evaluator und einem ausgewählten Interessenträger der Bewertung. Interviews können so durchgeführt werden, dass sie dem kontrafaktischen Prinzip genügen, indem Interviews mit Begünstigten ebenso wie Nichtbegünstigten stattfinden und Fragen zu einer hypothetischen interventionsfreien Situation beinhalten. Ein Vorteil dieses Ansatzes ist wiederum die Möglichkeit, detaillierte Informationen zu erheben. Allerdings können diese Informationen aufgrund von hoher Subjektivität oft verzerrt sein. Wenn Interviews belastbar sein sollen, muss einerseits die Stichprobe der Gesprächspartner repräsentativ sein; andererseits müssen die gestellten Fragen auf sorgfältigen Recherchen der Fachliteratur basieren.
  • Ansätze auf theoretischer Basis: Die „Theorie des Wandels“ wird häufig in theoriebasierten Bewertungen angewendet. Sie kann als eine detaillierte Beschreibung einer Reihe von Annahmen bezeichnet werden, die sowohl die einzelnen Schritte auf dem Weg zu einem langfristigen Ziel erklärt als auch die Verbindungen zwischen den Aktivitäten und Ergebnissen einer Politik oder eines Programms, die in jedem Schritt stattfinden bzw. erreicht werden. Dieser Bewertungsansatz setzt stillschweigend voraus, dass Programme auf einer expliziten oder impliziten Theorie beruhen, wie und warum ein Programm funktionieren wird. Um die Theorie des Wandels anwenden zu können, sollten die theoretisch kausalen Verbindungen zwischen den Interventionen und ihren spezifischen Wirkungen, die in den einzelnen Schritten beschrieben sind, logisch und empirisch nachprüfbar sein. Wie lässt sich dies aber erreichen? Evaluatoren müssen zunächst Hypothesen entwickeln, die sich anhand von kritischen Vergleichen auf die Probe stellen lassen. Hierfür sind die Erfahrungen von Interessenträgern mit der Funktionsweise derartiger Programme wichtig. Zugleich müssen vorangegangene Ergebnisse aus Bewertungsrecherchen berücksichtigt werden. Theoriebasierte Bewertungen sind in der Praxis darauf ausgelegt, die einem Programm zugrundeliegende Theorie zu testen, indem geprüft wird, wie oder warum Politiken oder Programme zu beabsichtigten oder beobachteten Ergebnissen führen. Theorien lassen sich auf der Grundlage vorhandener oder neuer (quantitativer wie auch qualitativer) Daten testen. Hierfür lassen sich verschiedene häufig verwendete Techniken der Datenerfassung anwenden (z. B. Interviews mit Schlüsselpersonen, Fokusgruppen, Workshops oder Fallstudien).

/file/30952_demethods_de.png

Wenn Kategorien konvergieren und sich überschneiden

Quantitative und qualitative Techniken konvergieren manchmal in sogenannten gemischten Bewertungsansätzen.

  • Umfragen oder Erhebungen sind qualitative oder gemischte (quantitative und qualitative) Methoden, bei denen ein deduktiver Analyseansatz angewendet wird. Was bedeutet das? Das bedeutet, dass davon ausgegangen wird, dass die von einer repräsentativen Stichprobe gesammelten Informationen die Realität der Gesamtbevölkerung abbilden, weil die Erhebung und ihre Hypothese theoretisch solide konzipiert sind (d. h. auf der Grundlage konsolidierten vorhandenen Wissens). Erhebungen können unter Begünstigten und Nichtbegünstigten durchgeführt werden und daher eine kontrafaktische Situation abbilden. Sie können potenziell auch eine große, diverse Gruppe von Interessenträgern abdecken. Allerdings nehmen Erhebungen oft sehr intensive Ressourcen in Anspruch.
  • Fallstudien können durch eine intensive Analyse von Dokumenten, statistischen Daten, Feldbeobachtungen und Interviews ein detailliertes Bild eines bestimmten Beispiels zeichnen. Sie ermöglichen eine detaillierte Prüfung der tatsächlich gegebenen Elemente entsprechend den Zielen der Bewertung. Das auf der Grundlage einer Fallstudie erarbeitete Bild ist im Kontext knapper Basisdaten oft zuverlässiger als die Outputs anderer Instrumente. Fallstudien liefern eine detaillierte Perspektive einer spezifischen Situation oder eines spezifischen Gebiets. Dies bedeutet leider, dass ihr Anwendungsbereich begrenzt ist und sie nicht auf die Gesamtbevölkerung extrapoliert werden können.

/file/30953_de4_de.png

/file/30954_dechallenges_de.png

 


[1] Lesen Sie mehr zu diesem Thema: GD Landwirtschaft (2017) Technisches Handbuch für den CMEF 2014-2020)

[2] Möchten Sie mehr über Methoden für die Ex-Post-Bewertung erfahren? Lesen Sie die Leitlinien für die Ex-post-Bewertung von LEP des Zeitraums 2007-2013 des Helpdesk

[3] Quelle: GD Landwirtschaft (2017) Technisches Handbuch für den CMEF 2014-2020)

[5] Für weitere Informationen über diese Techniken siehe die Leitlinien für die Ex-post-Bewertung von LEP des Zeitraums 2007-2013 des Helpdesk