Allgemeiner Thread zu Diskriminierung - (Teil 2)

Vielleicht gehts bei dem Gedanken auch garnicht um eine allgemeingültige, „richtige“ Definition, sondern eine, auf die man sich „einigt“, damit jeder weiß wovon gesprochen wird und man nicht aneinander vorbei redet.

Eben ähnlich wie es godbrakka schon in seinem Beispiel der Geisteswissenschaftlichen Literatur erklärt.

Aber ich halte das in einer Dialogform, wie die Gespräche und Diskussionen hier stattfinden, für weitaus schwieriger und vielleicht auch nicht ganz so erstrebenswert, wie in einer in sich geschlossen Arbeit.

2 „Gefällt mir“

Und wo ist das eine andere Aussage, als die ich getätigt habe? Das Problem bleibt ja weiterhin das sich einigen.

1 „Gefällt mir“

True that.

1 „Gefällt mir“

Definitiv ein Punkt den ich offensichtlich und mit Blick auf andere Erfahrungen fälschlicherweise für überbrückbar hielt.

Jein. Das ganze würde Diskussionen nicht ersetzen, soll es ja auch gar nicht. Nur ein Ausgangspunkt wäre angedacht. Aber auch der müsste festgelegt werden und schon darüber könnte es wieder viel Gezeter geben. In meinem Kopf bräuchte es nur einen Turm, einen weit sichtbaren Fixpunkt zu dem sich jeder verorten kann. Es wäre gar nicht so wichtig wo der stünde, nur, dass es ihn gäbe. Aber wir würden trotzdem streiten, wo er aufzustellen wäre. Ist also alles hinfällig.

Wie gesagt, ein Fiebertraum.

Ich find auf jeden Fall, dass das grundsätzlich kein blöder Gedanke ist!

Ganz gut passend zu den letzten Posts hier ein ein paar Tage alter Beitrag von John McWorther im Atlantic, wo es darum geht wie unterschiedlich Begriffe wie eben „racism“ benutzt werden.
Interessiert hier ja vielleicht auch jemanden

Er hatte vor ein paar Wochen übrigens auch ein ganz starkes Interview im Spiegel zu Identitätspolitik. Leider online aber nur als Plus-Artikel verfügbar

3 „Gefällt mir“

aktuelles interview mit Daphne Nechyba über die verwendung unterschiedlicher begriffe:

Mir fällt außerdem auf, dass Schlagwörter wie Cancel-Culture oder politische Korrektheit oder der Vorwurf, jemand betreibe Identitätspolitik, oft zur Übertönung der Menschen dienen, die über strukturelle Probleme reden möchten. Gefragt wird dann oft „Warum darf ich dies und jenes nicht mehr tun oder sagen?“ anstatt „Warum sind gewisse Menschen unterrepräsentiert?“.

7 „Gefällt mir“

mMn interessanter blickwinkel wie nicht-neutrale daten zu nicht-neutralen algorithmen und somit zu nicht-neutralen technischen lösungen werden:

3 „Gefällt mir“

Ich finde den Artikel fachlich ganz gut. Allerdings wird in fast jedem Studiengang, der sich mit der Thematik beschäftigt ziemlich genau darauf geachtet, dass die Studenten keinen Bais produzieren bzw. ihn so gering wie möglich zu halten.

Ich sag ja auch schon die ganze Zeit, dass KI einfach nur Stochastik auf Steroiden ist. Ich glaube, das Google und Facebook, wahrscheinlich auch Alibaba die einzigen Unternehmen sind, die genug Daten haben, um mal zu überlegen ob sie eine richtige KI hinbekommen. Ich bezweifle, dass wir dies noch miterleben dürfen. Da müsste schon etwas einsteinartiges über die Erde wandeln.

das finde ich interessant
wie geht das rein praktisch, wenn die ursprungs-daten bereits biased sind, wie im artikel beschrieben? wie kann ich mir das vorstellen?
wie werden die daten dann kuratiert, wenn es wie es im artikel heisst:

Datenpolitik

Hier wird es für viele heikel: Wenn KI aus Daten der Vergangenheit Handlungs­anweisungen für die Zukunft schliesst, dann muss man, will man biases beseitigen, sie mit einem Idealbild der Wirklichkeit füttern. Kuratierung von Daten heisst dann zu formulieren, in welcher Welt wir leben möchten. Und das ist, so weit haben kritische Stimmen wie Domingos recht, eine immens politische Frage.

Unrecht haben sie, wenn sie meinen, es gebe auch neutrale Kuratierung, oder wenn sie gar sagen, dass nichts zu tun unpolitisch wäre. Denn dass KI-Modelle nicht neutral sind, ist kaum zu bestreiten: Der private Thinktank Open AI, der auch GPT-3 entwickelt hat, zeigte in einer Analyse, dass sein jüngstes Modell ein eigenes Neuron ausgebildet hatte, das gleichermassen auf «Islam» und auf «Terrorismus» anspringt.

jetzt mal platt formuliert: sitzen die studenten dann vor den daten und gleichen sie mit einer idealen wirklichkeit ab, die sie sich vorher ausgedacht haben und ändern ihre ursprungsdaten dann nach gutdünken?
wo und wie wird diese politisch ideologische kuration dokumentiert? wie stellt man sicher, dass die kuration die ergebnisse nicht in einem ausmaß verfälschen, dass sie unbrauchbar werden usw. usf. ?

denn es geht ja im artikel nicht ursächlich um die frage, ob studenten (oder andere datenerheber) ihre eigene weltanschauung - evtl unabsichtlich - in die datensätze einbringen, sondern darum, dass die urspungsdatensätze bereits weltanschaulich biased sind.
die bereinigung dieses bias in den datensätzen aber bedingt wiederum das einbringen der eigenen - oder einer anderen idealtypischen - weltanschauung, und das ist ja das paradoxon und die, wie es im artikel heisst, hochpolitische fragestellung.

1 „Gefällt mir“

Ganz platt formuliert: Wenn ich einen Algorithmus bauen will, der die Kreditwürdigkeit einschätzen soll, muss ich die Input-Daten vorher bereinigen. Bei einigen Punkten ist es einfach: Hautfarbe fliegt raus, Name fliegt raus, Wohnort fliegt raus.

Aber klar gibt es auch Themen, die schwerer zu bewerten sind, ob sie rausfliegen oder nicht. Sehr schwer wird es dann auch bei Algorithmen deren Ziel nicht ganz so eindeutig beschreibbar und überprüfbar ist, wie die Kreditwürdigkeit.

Und ein weiterer Punkt: unbiased Algorithmen zu erstellen ist meist viel aufwändiger und schaffen evtl nicht die gleiche Genauigkeit, wie biased Algorithmen. In einer kapitalistischen Welt auch ein Problem.

okay, das ist klar.
aber dann ist die frage, sind das dann schon alle punkte, die die diskriminierung im algorithmus determinieren? wie finde ich nicht offensichtliche punkte? wie stelle ich sicher, dass der algorithmus noch immer hinreichend das tut, was er soll, oder nicht wieder biased ergebnisse produziert?
und wer entscheidet darüber, welche punkte rausfliegen und welche drinbleiben? ist das ein demokratischer prozess oder spielen da bspw. wirtschaftliche interessen eine rolle etc pp.?

das ganze ist bei näherer betrachtung weitaus komplexer und komplizierter als man so denkt, insbesondere wenn man die stellschrauben auch noch demokratisch aushandeln möchte und nicht einfach totalitär festlegen.

2 „Gefällt mir“

Stimme dir voll zu. Ich denke, da ist die Technologie (wie so oft in der Geschichte) seinen Kontrollmechanismen voraus. Immer noch wie der wilde Westen.

2 „Gefällt mir“

derstandard mal wieder:

Nechyba plädiert auch für das Großschreiben des Adjektivs schwarz im Sinne einer politischen Selbstbezeichnung in Texten wie diesem. Da sich diese Schreibweise noch nicht allgemein durchgesetzt hat, können wir dem Wunsch hier nicht entsprechen.

:cluelesseddy:

2 „Gefällt mir“

Das kommt ganz drauf an fuer was der Algorithmus sein soll. Bei sowas wie Kreditvergabe oder so waere die bereinigung klar das heraus streichen von Identitaetsmerkmalen und dann waer er theoretisch bereinigt. Natuerlich kommt dann das problem dass das was uebrig bleibt schon den vorherigen Bias drin hat. Sprich du bekommst jetzt halt kein Kredit wegen deines vorheriges rating anstatt weil du in Nachbarschaft xyz wohnst. Gerade diese Bewertungs KI sachen haben da ein daten satz problem.
Explainable AI ist da der Forschungszweig der versucht das zumindest irgendwie nachvollziehbar zu machen aber gerade bei Finanzen, Versicherungen und Polizei ist es halt ganz schwierig weil
a. Niemand bereit ist seine vorherigen Algorithmen offen zu legen. Schufa z.bsp. sagt immer noch nicht wie ihr rating wirklich zusammen kommt.
b. Da a. kann man die alten datensaetze nur schwer bereinigen und neue einfach so aufzustellen ist fast unmoeglich.

Der Vollstaendigkeit halber… Die ganzen Finanz und Versicherungsgeschichten sind natuerlich nur n Teil der KI und ganz vieles hat einfach kein richtiges Bias problem. z.bsp. KI fuer bildanalyse von MRT oder Roentgen bildern zu krebserkennung hat keine Bias faehigen infos im datensatz oder verkehrsoptimierung etc.

1 „Gefällt mir“

Wobei Bias ja auch ganz absurde Ausmaße annehmen kann. Da wird dann eine Fischart daran erkannt, dass menschliche Finger auf dem Bild sind, weil der Fisch bei Anglern beliebt ist und es Tausende Fotos davon gibt. Aber sowas hat dann ja weniger mit Bias in der Richtung Diskriminierung zu tun.

exakt. darum geht es ja, dass wenn der ursprungsdatensatz bereits biased ist, die sog. KI auch entsprechend biased ergebnisse liefert.
und dann sind wir wieder bei den o.a. fragen: wer bereinigt die ursprungsdatensätze wie, warum, was und was nicht und mit welcher legitimation?

und das ist ja auch klar. wenn die ursprungsdatensätze nicht biased sind, dann wird die KI auch keine biased ergebnisse aufgrund von biased ursprungsdatensätze liefern. :woman_shrugging:

Das ist durchaus schwierig. Amazon hatte vor 3 Jahren ihr Bewerber-KI abgeschaltet, weil sie Männer bevorzugte. Dabei wusste die KI zwar nicht das Geschlecht der Bewerbenden, wurde aber mit vorhandenen Bewerbungen trainiert. Da diese überwiegend männlich waren, hat die KI dafür einen Bias entwickelt:

Im Artikel wird z.B. genannt, dass die KI Bewerbungen schlechter eingestuft hat, weil eine Person z.B. im „Womans Chess Club“ war. Auch wurden Schulen abgewertet, wenn sie rein weiblich waren.

Das sind aber noch relativ offensichtliche Fehler, die auch abgestellt werden können. Problematisch wird es, wenn die KI Strukturen erkennt, die für den menschlichen Betrachter nicht so eindeutig auf das Geschlecht hinweisen, wie z.B. eine Kombination bestimmter Eigenschaften die hauptsächlich bei Männern auftauchen. Das lässt sich dann eigentlich nur noch durch regelmäßige Reviews entdecken.

Ja klar, wenn man die Daten aufbereitet, dann kann schon ein gewisser Bais reinkommen. Vielleicht sucht man sich einen Datensatz, der sehr gut zum Algorithmus passt. Oder man denkt sich die Daten könnten vielversprechend sein. Deswegen sollte man auch immer auf unterschiedlichen Datensätzen testen.

Was die Rohdaten betrifft kann es halt sein, dass die Daten nicht Balanced sind. Wenn man sich die Urschen von Kriminalität in den Städten von ansieht und sich nur Städte aussucht, die einen hohen Anteil an afroamerikanischen Kriminalität haben, dann wäre da schon von beginn ein Bais in den Daten. Ist jetzt ein extrem Beispiel, aber ich denke du siehst den Punkt den ich machen will.

Edit: Zu deinem Beispiel, es kann halt sein, dass einfach sehr viel islamischer Terror in dem Datensatz ist und das der Algorithmus dadurch eine Verbindung zwischen dem Islam und Terrorismus sieht.