Chancen und Grenzen der Schwarmintelligenz Werkstattbericht aus einem Crowd-Coding-Projekt

In den letzten Jahrzehnten sind die methodischen AnsĂ€tze der Sozialwissenschaften anspruchsvoller geworden. Gleichzeitig hat die technische Entwicklung, insbesondere die zunehmende Digitalisierung der Gesellschaft, dazu gefĂŒhrt, dass grĂ¶ĂŸere Datenmengen leichter und kostengĂŒnstiger gesammelt werden können. Die Nutzung von sozialen Medien und die Vernetzung durch das Internet bieten nicht nur die Chance, Daten ĂŒber individuelle Einstellungen und PrĂ€ferenzen in zuvor ungekanntem Ausmaß zu erheben. Die neuen KommunikationskanĂ€le schaffen auch den Zugang zu potenziellen Forschungsteilnehmern, die zuvor nicht einfach zu erreichen waren. Viele Forscherinnen und Forscher wenden sich deswegen dem sogenannten Crowd-Sourcing oder Crowd-Working zu. Allen Crowd-Working-Methoden liegt die Vorstellung der Schwarmintelligenz zugrunde. Die zentrale Idee dieser Vorstellung ist, dass die Masse (auf Englisch crowd) gemeinsam Probleme besser löst als ihre individuellen Teile es einzeln könnten.

In der traditionellen Textanalyse werden Texte von Menschen manuell kodiert, die zuvor dafĂŒr ausgebildet wurden. Zunehmend werden einige dieser Aufgaben automatisiert. Die automatisierte Inhaltsanalyse greift auf unterschiedliche Algorithmen zurĂŒck – die sich zum Beispiel eines vorher festgelegten Lexikons an Stichwörtern bedienen. Der Algorithmus berechnet dann auf Basis von WorthĂ€ufigkeiten oder auch Wortkombinationen, welche Texte sich Ă€hneln und welche nicht. Auf dieser Basis können die Texte zum Beispiel unterschiedlichen Themen zugeordnet werden.

Die neue Methode des Crowd-Coding als eine Form des Crowd-Working ist zwischen der manuellen und automatisierten Herangehensweise an die Textanalyse anzusiedeln. Wie in der klassischen manuellen Textanalyse greift auch das Crowd-Coding auf menschliche Kodierer zurĂŒck. Allerdings sind diese nicht zuvor fĂŒr diese TĂ€tigkeit ausgebildet worden. Sie sind keine Expertinnen. Deshalb eignet sich Crowd-Coding auch am besten fĂŒr kleinere, klar definierte Aufgaben, die kein spezifisches Fachwissen erfordern. Da nie nur ein Coder einen Text einordnet, sondern stets mehrere, wird die Intelligenz des Schwarms genutzt: .Angenommen wird, dass der Mittelwert aller aggregierten Antworten der Crowd sich dem wahren Mittelwert annĂ€hert. GegenĂŒber der automatisierten Textanalyse hat Crowd-Coding den Vorteil, dass es auch Aufgaben lösen kann, die von Algorithmen nicht oder nur unbefriedigend gelöst werden. Insbesondere wenn es um die Klassifizierung bildlicher Sprache oder andere interpretative Aufgaben geht, sind menschliche Kodierer besser geeignet (siehe auch Benoit et al. 2016, 279).

Konkret: Textanalyse von Wahlprogrammen

Wir haben Crowd-Coding in einem Forschungsprojekt angewandt und hatten dabei die Möglichkeit Chancen und Grenzen der Methode zu erfahren. Konkret ging es darum, die Wahlprogramme verschiedener Parteien aus 14 LĂ€ndern ĂŒber mehrere Wahlen hinweg zu analysieren. Ziel war die Erweiterung eines bestehenden Datensatzes: Das Manifesto-Projekt misst schon seit ĂŒber 35 Jahren, welche Themen von Parteien in ihren Wahlprogrammen besprochen werden. Einzelne Textabschnitte aus den Programmen werden dafĂŒr mit Hilfe von Kodierern jeweils einer von 56 Kategorien zugeordnet. Da das Kategorienschema seit den 1980er-Jahren fast unverĂ€ndert angewendet wird, kommen bestimmte Themenbereiche darin nicht vor – eben jene, die zum Zeitpunkt der Erstellung des Kategorienschemas noch nicht relevant oder Gegenstand politischer Debatten waren. Das ist zum Beispiel der Fall beim Thema Zuwanderung und Integration. Wir haben deshalb einen Teil der Wahlprogramme erneut untersucht und haben sie noch einmal nur in Hinblick auf diese Themen einordnen lassen.

Da Crowd-Coder keine Expertinnen in der Einwanderungs- und Integrationspolitik sind, war die zu bearbeitende Aufgabe kurz und einfach. Die Crowd-Coder haben zuerst eine kurze Anleitung bekommen, die die Aufgabenstellung beschreibt und Einwanderungs- und Integrationspolitik definiert. Nach der LektĂŒre dieser Anleitung wurde sofort mit der Kodierung begonnen. Dabei bestand eine Aufgabe immer aus mehreren zu beurteilenden Textabschnitten. Ein einzelner solcher Textabschnitte hat ungefĂ€hr die LĂ€nge eines Satzes, deshalb werden sie auch QuasisĂ€tze genannt. In der ersten Runde der Datenerhebung mussten die Crowd-Coder entscheiden, ob ein Quasisatz das Thema Einwanderung und/oder Integration behandelt oder nicht.

Um zu verhindern, dass Crowd-Coder absichtlich falsch oder nur zufĂ€llig antworten, wurde in jede Aufgabe ein Testsatz eingebaut, die fĂŒr den Crowd-Coder jedoch nicht als solcher erkennbar war. Der Crowd-Coder musste wie bei anderen QuasisĂ€tzen auch eine Zuordnung treffen, allerdings war im Testsatzfall die korrekte Zuordnung schon vorgegeben. Nachdem der Coder alle QuasisĂ€tze einer Aufgabe beantwortet hatte, wurde ihm angezeigt, welcher dieser SĂ€tze der Testsatz war und falls seine Einordnung falsch war, wie die richtige Antwort lautete. Wurden zu viele solcher TestsĂ€tze falsch zugeordnet, durfte der Crowd-Coder keine weiteren Aufgaben bearbeiten und seine bisherigen Kodierungen gingen nicht in den finalen Datensatz ein. Mithilfe dieses Tests konnte eine hohe ZuverlĂ€ssigkeit der Crowd-Coder garantiert werden.

In einer zweiten Runde wurden dann alle QuasisĂ€tze, die in der ersten Runde positiv kodiert wurden, mit einem verĂ€nderten Kodierschema erneut kodiert. Die Aufgabenstellung war nun, zu entscheiden, ob es sich bei dem vorliegenden Quasisatz um das Thema Einwanderung oder um das Thema Integration handelte. Zudem sollte in einem weiteren Schritt entschieden werden, ob der vorliegende Quasisatz eine skeptische oder eine befĂŒrwortende Haltung zum Thema ausdrĂŒckte (fĂŒr AusnahmefĂ€lle wie rein beschreibende oder technisch formulierte Aussagen gab es auch die mögliche Klassifizierung als „neutral“). Wie in der ersten Runde wurden auch jetzt in jede Aufgabe TestsĂ€tze eingebaut, durch die unzuverlĂ€ssige Crowd-Coder ausgeschlossen werden konnten, deren Kodierungen dann gelöscht wurden. Im Nachhinein haben wir evaluiert, wie gut dieser Mechanismus funktioniert hat und ob es uns tatsĂ€chlich gelungen ist, Kodierer auszuschließen, die unsere Anleitung nicht befolgt haben. Im Mittel hat die einzelne Kodiererin in der ersten Runde 94 Prozent der TestsĂ€tze richtig eingeordnet. Das ist ein sehr gutes Ergebnis und zeigt, dass die Kodierer tatsĂ€chlich ein gutes VerstĂ€ndnis davon hatten, was wir von ihnen erwarteten. In der zweiten Runde sank dieser Wert auf 89 Prozent, was immer noch ein gutes Ergebnis darstellt. Um es allerdings wieder zu einem sehr guten Ergebnis zu machen, kommt uns die Idee der Schwarmintelligenz zugute, die besagt, dass nicht die individuelle Kodiererin immer korrekt liegt, sondern dass das gemeinsame Ergebnis der Kodierer im Aggregat korrekt ist. Deshalb haben wir uns angeschaut, wie gut die Kodierer abschneiden, wenn man das mittlere Ergebnis von allen betrachtet, die einen Satz kodiert haben. Und die Annahme der Schwarmintelligenz bestĂ€tigt sich tatsĂ€chlich: Die Zahl der korrekt eingeordneten TestsĂ€tze liegt nun im Mittel wieder bei 95 Prozent.

Es gibt verschiedene Plattformen, die die Vermittlung von sogenannten Crowd-Workern anbieten. Die bekannteste Service-Plattform ist MTurk des großen Internetversandhauses Amazon. Ein weiterer Anbieter stammt aus den USA und heißt CrowdFlower. Alle Dienste vermitteln ĂŒber ihre Plattformen Zugang zu einer Reihe von Crowd-Workern in aller Welt. Wir haben uns fĂŒr CrowdFlower entschieden, da diese Plattform ihre Crowd-Worker ĂŒber viele unterschiedliche KanĂ€le rekrutiert. Turker hingegen, wie die Crowd-Worker auf MTurk genannt werden, kommen zum Beispiel fast ausschließlich aus den USA und Indien. Da wir aber Texte in mehreren unterschiedlichen Sprachen analysieren wollten, war es fĂŒr uns unerlĂ€sslich, dass wir auf Crowd-Worker aus vielen unterschiedlichen LĂ€ndern zugreifen konnten. CrowdFlower hat es uns zudem erlaubt, spezifische Sprach- und LĂ€ndereinstellungen vorzunehmen, so dass wir entscheiden konnten, welche Kenntnisse ein Crowd-Worker mitbringen musste, um eine bestimmte Kodierung fĂŒr uns zu erledigen. Diese BeschrĂ€nkungen sind wichtig, um eine hohe QualitĂ€t der erhobenen Daten zu erreichen. Als wir mit unserem Forschungsprojekt begonnen haben, gab es auch noch keine großen monetĂ€ren Unterschiede zwischen den Plattformen, die uns bei der Wahl eingeschrĂ€nkt hĂ€tten. Dies hat sich jedoch mittlerweile geĂ€ndert. Es ist wichtig darauf hinzuweisen, dass CrowdFlower inzwischen sehr teuer ist: Ein professioneller Account kostet um die 30.000 US-Dollar im Jahr. Es gibt zwar auch eine Option fĂŒr Forscherinnen und Forscher, jedoch mit Nutzungsvereinbarungen, die fĂŒr die meisten UniversitĂ€ten und Geldgeber schwierig sind, da alle Rechte an den Daten unter diesen Nutzungsvereinbarungen an CrowdFlower abgetreten werden.

Ethische Bedenken

Im Zusammenhang mit Crowd-Work werden immer wieder ethische Bedenken geĂ€ußert. Diese betreffen vor allem die Arbeitsbedingungen in der Crowd (siehe zum Beispiel den Beitrag von Ilka Gleibs auf dem LSE Impact Blog). Zum einen handelt es sich nĂ€mlich nicht um sozialversicherungspflichtige Jobs, zum anderen fehlt es an Mitbestimmungs- und Mitspracherechten. Deshalb sollten BeitrĂ€ge aus der Wissenschaft, die Crowd-Coding enthusiastisch als eine kostengĂŒnstige und zeitsparende neue Form der Datengewinnung begrĂŒĂŸen, mit Vorsicht genossen werden. Eine gute Forschungspraxis, die auf eine faire Bezahlung und einen respektvollen Umgang mit Forschungsteilnehmern besteht, ist auch beim Crowd-Coding unerlĂ€sslich. Deshalb hat uns auch interessiert, wie die Crowd-Worker im Nachhinein die Arbeit an den von uns gestellten Tasks bewertet haben. DafĂŒr konnten die Crowd-Worker zu unterschiedlichen Fragen ein bis fĂŒnf Punkte vergeben. Die durchschnittliche Zufriedenheit mit der Bezahlung lag bei vier Punkten. Ein recht gutes Ergebnis, aber vor allem bei der Bewertung der TestsĂ€tze und dem Schwierigkeitsgrad der Aufgabe sank die Zufriedenheit in der zweiten Runde deutlich, sie lag im Schnitt nur noch bei gut drei Punkten. Hierzu mĂŒssen wir selbstkritisch einrĂ€umen, dass wir offensichtlich den Aufwand unterschĂ€tzt haben. Zum Beispiel hatten die Crowd-Worker die Möglichkeit nach Aufdecken der richtigen Antworten zu den TestsĂ€tzen einen Kommentar zu hinterlassen, wenn sie den Testsatz zu schwer fanden oder mit unserer Antwort nicht einverstanden waren. Wir mussten feststellen, dass wir nicht in der Lage waren, auf alle diese Kommentare, in jedem Fall zeitnah zu reagieren und damit eine grĂ¶ĂŸere WertschĂ€tzung der Arbeit auszudrĂŒcken. Gute Forschung, die sich an ethische GrundsĂ€tze hĂ€lt, kostet Geld und das wird auch in der digitalen Arbeitswelt so bleiben.

Fazit

Zusammenfassend lĂ€sst sich sagen, dass Crowd-Codingeine vielversprechende Methode der inhaltlichen Textanalyse ist. Im Crowd-Coding können Texte auch dann eingeordnet und bewertet werden, wenn sie bildliche Sprache oder Interpretationen und Deutungen sozialer ZusammenhĂ€nge enthalten. Allerdings löst Crowd-Coding keinesfalls alle Probleme, die bei der Textanalyse auftreten. So spielen auch beim Crowd-Coding die Sprachbarrieren weiterhin eine große Rolle. Wie in der automatisierten Textanalyse sind auch beim Crowd-Coding englischsprachige Texte weitaus einfacher zu analysieren als andere Sprachen. Denn die TestsĂ€tze mĂŒssen jeweils in der Sprache gestellt werden, in der auch der zu analysierende Text geschrieben ist, damit sie nicht sofort als Testfragen erkannt werden und ihre Funktion verlieren. Nur wenige Forscherinnen und Forscher sprechen allerdings mehr als drei Sprachen, was insbesondere international vergleichende Untersuchungen vor Herausforderungen stellt. Wir hatten im WZB das GlĂŒck, an einem Forschungsinstitut zu arbeiten, das sich durch eine hohe InternationalitĂ€t auszeichnet. Ohne die großzĂŒgige Hilfe von Kolleginnen und Kollegen wĂ€re das Crowd-Coding so vieler unterschiedlicher Sprachen nicht möglich gewesen. Eine weitere Herausforderung ist die Entwicklung der Crowd-Work-Plattformen selbst. Im Falle von CrowdFlower haben uns der schnelle Preisanstieg und die plötzliche Änderung der Nutzungsrichtlinien vor unerwartete Probleme gestellt. Es bleibt abzuwarten, wie andere Plattformen sich im Druck von Wettbewerb und RentabilitĂ€tsanforderungen entwickeln werden.

 

Dieser Text ist auch in den WZB Mitteilungen Heft 155 2017  erschienen.

Quelle:

Benoit, Kenneth, Drew Conway, Benjamin E. Lauderdale, Michael Laver, and SlavaMikhaylov. 2016. “Crowd-Sourced Text Analysis: Reproducible and Agile Production of Political Data.” American Political Science Review 110 (2).

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert