Nun sag, wie hast du es mit der Ethik, Google?

Google Research hat innerhalb kurzer Zeit zwei führende Ethikforscherinnen entlassen. War deren Kritik an rassistischer KI zu unbequem?

von Eva Wolfangel

06.03.2021

9 Minuten

Tech-Ethikerin Timnit Gebru wurde im Dezember 2020 überraschend von Google entlassen. Sie hatte sich viel mit rassistischen Vorurteilen in Systemen künstlicher Intelligenz beschäftigt.

Google entlässt zwei seiner führenden Forscherinnen im Bereich Ethik von Künstlicher Intelligenz, nachdem diese einen wissenschaftlichen Artikel geschrieben haben, der das Höher-Weiter-Schneller des Konzerns in Frage stellt und mehr Konsequenz fordert in der Arbeit gegen rassistische und sexistische Verzerrungen im maschinellen Lernen. Das sagt einiges über Googles Prioritäten, aber auch über die Frage, wie frei Wissenschaftler:innen in den großen Tech-Konzernen agieren können. Eine große wissenschaftliche Konferenz zu Ethik und KI zieht die Konsequenz und schließt Google als Sponsor aus. Wie unabhängig kann Ethik-Forschung sein?

Der Verschleiß an Ethik-Forscherinnen bei Google Research ist hoch. Erst im Dezember hatte der Konzern überraschend Timnit Gebru entlassen, eine seiner bekanntesten Tech-Ethikerinnen, die sich viel mit rassistischen Vorurteilen in Systemen künstlicher Intelligenz beschäftigt hatte. Nun folgte auch deren Vorgesetzte, Margret Mitchell. Sie hatte sich der großen Protestwelle nach Gebrus Entlassung angeschlossen, in deren Rahmen mehr als 1400 Google-Mitarbeiter:innen und mehr als 1900 Unterstützer:innen aus der Wissenschaft einen Protestbrief unterschrieben hatten. Mitchell wurde daraufhin der Zugang zu ihren E-Mails sowie Googles internen Systemen gesperrt, und nun sei sie ebenfalls gekündigt worden, so die Forscherin.

Stattdessen hat Google hat nun bekannt gegeben, dass Marian Croak das neue Center for Responsible AI leiten werde. In einem Videointerview mit Google sagt die afroamerikanische Forscherin, die bei Google zuletzt Vice President of Engineering war, dass sie in der Debatte um die Ethik künstlicher Intelligenz recht viele Konflikte beobachte und sie sich mehr Diplomatie wünsche. Wichtig seien ihr nun zunächst Definitionsfragen. „Wessen Definition von Fairness oder Sicherheit werden wir verwenden?“, fragt sie.

Das wiederum wird von einigen Forscher:innen aus dem Technikethik-Bereich sehr kritisch gesehen: diese Debatte sei schon lange geführt worden. Wenn nun wieder über die Definition von Fairness gesprochen würde, lenke von der eigentlichen Diskussion ab, fürchten einige: nämlich der Frage der Existenz von unethischer Technologie, so Sorelle Friedler, Informatikerin am Haverford College. „Das schränkt das Thema einer Weise ein, mit der Google zufriedener ist.“ Doch das sei nicht im Sinne des ursprünglichen AI Ethics-Teams.

Rauswurf für Kritik an „statistischen Papageien“

Für viele scheint nun klar zu sein: die Gebru und Mitchell seien mit ihrer Kritik zu unbequem geworden, laut der sowohl im Konzern selbst als auch von der dort und anderswo entwickelten künstlichen Intelligenz Minderheiten rassistisch diskriminiert würden. Dafür spricht in der Tat einiges, zumal die Konsequenz der Kritik der beiden Forscher:innen möglicherweise gewesen wäre, dass Google sein Geschäftsmodell überdenken muss. Was also war diese Kritik? Einiges davon lässt sich erklären, wenn man genauer hinschaut, wo der Konflikt letztlich eskaliert ist.

Google AI Chef Jeff Dean weist uns hier die Spur. Er hatte sich angesichts des Protests genötigt gesehen, eine E-Mail zu veröffentlichen, die er an Gebrus Team geschickt hatte. Darin erklärt er, Kern des Streits sei ein Forschungsartikel gewesen, den Gebru mit anderen verfasst hatte und dessen Veröffentlichung er untersagt habe, weil dieser aktuelle Forschung zu wenig berücksichtige. Daraufhin habe Gebru gedroht zu kündigen – und Google habe dies noch am gleichen Tag akzeptiert. Selbst wenn es sich um ein Missverständnis gehandelt hat: offenbar hat Google die Gelegenheit genutzt, eine unbequeme Mitarbeiterin loszuwerden.

Nun ist der Artikel veröffentlicht worden (pdf) als Beitrag der Conference on Fairness, Accountability, and Transparency, die kommende Woche startet – ohne die Namen der beteiligten Google-Mitarbeiter:innen. Bis auf das Pseudonym Shmargaret Shmitchell, hinter dem sich wohl Margaret Mitchell verbirgt. Und auch wenn sich die Kritiker einig sind, dass der Artikel allein wohl kaum der Grund für eine Kündigung sein kann, so zeigt ein Blick hinein, was Google möglicherweise an Gebrus und Mitchells Position stört.

„On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?“ Lautet der Titel, also sinngemäß: „Über die Gefahren statistischer Papageien: Können Sprachmodelle zu groß sein?“ Die Autorinnen argumentieren, dass der Trend zu immer größeren Modellen und immer mehr Trainingsdaten in der Computerlinguistik dazu führt, dass nicht nur massiv Ressourcen verbraucht werden (in Form von Strom für riesige Serverfarmen), sondern auch dazu, dass künstliche Intelligenz immer schlechter kontrollierbar wird und Minderheiten diskriminiert, ohne dass es den Entwicklern bewusst ist.

Dazu muss man wissen, wie künstliche Intelligenz im Bereich Sprache lernt. Vereinfacht gesagt bekommen die Systeme des maschinellen Lernens von Forscher:innen dafür zwei Zutaten vorgelegt: Input- sowie gewünschte Output-Daten. Beim maschinellen Übersetzen also beispielsweise große Mengen an Text, der in verschiedenen Sprachen vorliegt. Daraus lernen die Systeme dann selbst Zusammenhänge zwischen Sprachen. Für jede Form des maschinellen Sprachlernens hat sich das Internet als gute Quelle erwiesen, schließlich ist es voller Sprachdaten und unendlich groß.

Mehr ist nicht immer besser

Doch genau hier lauert auch eine Gefahr, betonen die Autorinnen, zu denen neben Gebru auch Emily Bender von der University of Washington gehört: Große Datensätze, die auf Texten aus dem Internet basieren, würden „hegemoniale Standpunkte überrepräsentieren und Vorurteile kodieren, die möglicherweise marginalisierte Bevölkerungsgruppen benachteiligen.“

Dem stimmt der Computerlinguist Dirk Hovy zu, der an der aktuellen Studie nicht beteiligt war: „Wenn man mit Sprache arbeitet, lernen die Netze inhärente demographische Merkmale. Viele Daten, die wir haben, basieren auf Majoritäten-Sprache.“ Der Informatiker von der Bocconi-University in Mailand hat 2015 den ersten Workshop zu Ethik auf einer Konferenz der Computerlinguistik mitgegründet, weil ihm aufgefallen war, wie die Sprachmodelle Minderheiten diskriminierten.

In der Tat hat die Fachrichtung des maschinellen Lernens seit vielen Jahren ein Problem der rassistischen und sexistischen Verzerrung. Das zeigt sich unter anderem in automatischen Übersetzungsprogrammen wie Google Translate, die beharrlich Rollenklischees verstärken, indem sie zum Beispiel Berufe aus Sprachen ohne grammatikalisches Geschlecht entsprechend übersetzen. So übersetzt Google Translate beispielsweise „The doctor and the nurse“ immer als „Der Arzt und die Schwester“, obwohl es ebenso gut „Die Ärztin und der Pfleger“ heißen könnte. Das passiert auch dann, wenn es sich – für Menschen – eindeutig erkennbar um eine Ärztin handelt, weil sie beispielsweise im Satz zuvor erwähnt worden ist.

Natürlich verwundert es nicht, dass die Vorurteile, die in den Trainingsdaten stecken, von den lernenden Maschinen übernommen werden. Über viele Jahre haben Forscher:innen versucht, diesen Bias zu eliminieren, indem sie bestimmte Teile oder Informationen aus den Daten entfernten – doch die Systeme des maschinellen Lernens sind so gut darin, Muster in Daten zu finden, dass sie die rassistischen oder sexistischen Zusammenhänge oft selbst wieder rekonstruierten.

Eine typische Reaktion von KI-Forscher:innen darauf ist, die Menge der Trainingsdaten zu erhöhen und ebenso die der Parameter in der Hoffnung, dass die Ergebnisse repräsentativer werden. Parameter bezeichnen grob gesagt die Menge der Ausdifferenzierungsmöglichkeiten, die ein solches Netz hat. Manche vergleichen es mit der Anzahl der Synapsen im menschlichen Gehirn und damit der Auswahl möglicher Verbindungen, was allerdings nur eine sehr grobe Annäherung ist. Dirk Hovy erklärt es bildlicher: je mehr Perlen eine Kette hat, umso perfekter wird der Kreis, den man aus ihr bilden kann. Hat sie nur ein paar Perlen, wird der Kreis eher eckig – und im Falle maschinellen Lernens die Ergebnisse ungenauer.

Doch viel hilft nicht immer viel: Netze mit zu vielen Parametern neigen zum so genannten „Overfitting“: „Sie lernen dann nur auswendig“, erklärt Hovy, „damit können sie nicht mehr generalisieren.“ Das ist ähnlich wie ein Grundschüler, der Mathe auswendig lernt, und sagt: „Gestern habe ich gelernt, zwei plus zwei ist vier, deshalb kann drei plus eins nicht auch vier sein.“

Wie wenig allerdings riesige Mengen an Parametern gegen menschliche Vorurteile im maschinellen Lernen helfen, hat zuletzt das Beispiel des Sprach-KI-Modells GPT-3 von OpenAI gezeigt, das 175 Milliarden Parameter hat – und trotzdem rassistische und sexistische Verzerrungen aufwies, wie die OpenAI-Forscher:innen selbst schreiben.

Gebru und ihre Kolleginnen räumen ein, dass die riesigen Modelle zwar erfolgreich seien, wenn es um spezifische Anwendungsfälle ginge. Die gesellschaftlichen Nachteile überwiegen aber aus ihrer Sicht, da sie Sprache zwar erfolgreich imitieren, letztlich aber nicht verstehen. Da sie aber in der Lage sind, kongruente Texte zu produzieren, kommen sie der Neigung des menschlichen Gehirns entgegen, Sinn in Sprache zu finden. Aus ethischer Perspektive sei es wichtig, „den Nutzen ebenso wie die Risiken der Nachahmung von Menschen zu untersuchen.“

Eine Feedbackschleife für Vorurteile

Das sieht Hovy ebenfalls als ein Problem an: „Die Modelle plappern etwas nach, das für uns wie kongruente Sprache aussieht.“ Das entstehe zwar aus den Daten auf Basis menschlicher Vorurteile, verstärke diese aber wiederum, so dass sich Rassismen und Sexismen weiter verfestigen – im maschinellen Lernen ebenso wie in unserer Kultur. Gebru und ihre Kolleginnen schlagen vor, kleinere Modelle zu verwenden und ebenso kleinere Datensätze, um Zeit und Kapazitäten zu haben, diese zu kuratieren.

Der Ansatz von Bender, Gebru und Kolleginnen gehe allerdings nicht weit genug, sagt Joanna Bryson, Technikethikerin an der Hertie School of Governance. „Viele denken, man muss nur die richtigen Trainingsdaten wählen, um Vorurteile aus dem maschinellen Lernen zu bekommen.“ Aber es sei keine Frage, die sich allein technisch lösen lasse, auch nicht mit kleineren Modellen und kuratierten Datensätzen: „Diese Vorurteile liegen in unserer Kultur, das sind wir.“ Bryson hatte 2017 mit Kolleginnen unter anderem aus der Hirnforschung gezeigt, dass in unserer Art zu denken ähnliche Verzerrungen vorliegen. „Wir müssen unsere Kultur ändern. Allerdings ist perfekte Fairness nicht möglich, da alle menschlichen Erfahrungen von der Vielfalt der Lebenswelten ausgehen, und es keine Möglichkeit gibt, alle Unterschiede auszugleichen.“

Zudem sieht sie durchaus auch Vorteile der großen Modelle von Google und Co, die sorgfältig gegen die im Artikel von Gebru und Kolleginnen genannten Nachteile abgewogen werden müssten. Schließlich verbesserten sie automatische Spracherkennung und Übersetzungen enorm, auch für Minderheitensprachen. „Wie messen wir diesen Vorteil, wenn dadurch acht Milliarden Menschen auch nur ein winziges bisschen weniger Missverständnisse haben?“ Vielleicht sind die Kosten dann geringer als die Vorteile? „Das wird in dem Artikel zu wenig diskutiert.“

Bryson sieht allerdings – ähnlich wie die Autorinnen – keine starke wissenschaftliche Evidenz, dass riesige Sprachmodelle entsprechend große Verbesserungen bringen. „Häufig sind sie nur eine Ausrede, um große Mengen an Daten zu sammeln für andere Zwecke wie Überwachungs-Kapitalismus.“

Publication-Bias bei Google Research

Das Ganze wirft aber auch ein Licht auf die Ethik-Abteilungen der großen US-Konzerne wie Google. Wie unabhängig sind sie wirklich? Immer wieder wurde gemutmaßt, dass Google letztlich nur das erforschen lässt, was marktwirtschaftlich gesehen Vorteile bringt. „Doch in der Vergangenheit kam durchaus gute, unabhängige Forschung aus diesen Labors“, so Hovy, teils auch Grundlagenforschung, deren marktwirtschaftlicher Nutzen ungewiss ist. Doch dass Google-ForscherInnen ihre wissenschaftlichen Artikel zur Kontrolle im Unternehmen vorlegen müssen, spreche für etwas anderes. „Das gibt es in der freien Forschung nicht.“

Nach den aktuellen Vorfällen besteht der Verdacht, dass deren Forschungsergebnisse nur dann gewünscht sind, wenn sie dem Unternehmen auch ins Konzept passen. Ethik als Lippenbekenntnis, weil es ins Marketing passt? Während Googles Jeff Dean davon sprach, dass der Artikel nicht den wissenschaftlichen Standards entsprochen habe, weil er aktuelle Forschungen nicht berücksichtige, konnte Hovy keine derartigen Mängel feststellen. Er hat durchaus den Eindruck, dass Gebru und ihre Kolleginnen aktuelle Forschungen rund um das Thema entsprechend berücksichtigt haben – und dass die Schlussfolgerung, nach der kleinere Modelle gesellschaftlich sinnvollere Ergebnisse liefern können, berechtigt ist: „Das ist alles gut belegt.“ Und es stimmt auch mit seiner Erfahrung überein: „Wenn große Datenmengen und Modelle nicht entsprechend kuratiert werden, kann sich ein Bias durchziehen.“

Das sehen manche anders. Forscher:innen, die an sehr großen Sprachmodellen forschen, werfen dem Artikel Einseitigkeit vor, weil er nicht auf die Vorteile großer Modelle eingehe. Das allerdings sei unfair, betont Microsoft-Research Forscher Bhaskar Mitra auf Twitter: Nun würden zwar alle kritisieren, dass der Artikel nicht alle Vorteile großer Sprachmodelle aufliste, „gleichzeitig erwähnt die gesamte Literatur über große Sprachmodelle ausschließlich deren Vorteile und ignoriert potenzielle gesellschaftliche und ökologische Schäden.“

Nur wenige Wochen, nachdem Jeff Dean untersagt hatte, den kritischen Artikel über große Sprachmodelle unter dem Namen von Google Mitarbeitern zu publizieren, veröffentlichte Google Deep Mind am 11. Januar einen Rekord: Ein riesiges Sprachmodell mit 1,6 Billionen Parametern, das anhand eines 750 Gigabyte großen Datensatzes mit Texten aus Wikipedia, Reddit und anderen Internetseiten trainiert wurde – „zwei Größenordnungen größer als Wikipedia“, wie Google-KI-Forscher betonen. Da wäre ein Artikel, der genau diesen Größenwahn kritisiert, wohl zur Unzeit gekommen. Von möglichen Nachteilen ist in der Veröffentlichung keine Rede, ebenso wenig vom Problem künstlicher Intelligenz mit gesellschaftlichen Stereotypen aus Internet-Artikeln.

Google sei in diesem Jahr als Sponsor der Conference on Fairness, Accountability, and Transparency ausgeschlossen worden, teilte Mitorganisator Suresh Venkatasubramanian Ende Februar auf Twitter mit, „im Interesse der Community.“ Bis zum nächsten Jahr werden die Voraussetzungen überdacht, unter denen jemand Sponsor werden könne.

Sie haben Feedback? Schreiben Sie uns an info@riffreporter.de!