I forrige uge kom den nyvalgte amerikanske Rep. Alexandria Ocasio-Cortez overskrifter, da hun som en del af den fjerde årlige MLK Now-begivenhed sagde, at ansigtsgenkendelsesteknologier og algoritmer "altid har disse racemæssige uligheder, der bliver oversat, fordi algoritmer stadig fremstilles af mennesker, og disse algoritmer er stadig knyttet til grundlæggende menneskelige antagelser. De er bare automatiserede. Og automatiserede antagelser - hvis du ikke løser biasen, automatiserer du bare biasen. "
Betyder det, at algoritmer, der teoretisk er baseret på de objektive sandheder i matematik, kan være "racistiske?" Og i bekræftende fald, hvad kan der gøres for at fjerne denne forspænding?
Det viser sig, at output fra algoritmer faktisk kan give partiske resultater. Datavidenskabsmænd siger, at computerprogrammer, neurale netværk, maskinlæringsalgoritmer og kunstig intelligens (AI) fungerer, fordi de lærer at opføre sig ud fra de data, de får. Software er skrevet af mennesker, der har bias, og træningsdata genereres også af mennesker, der har bias.
De to faser i maskinlæring viser, hvordan denne bias kan krybe ind i en tilsyneladende automatiseret proces. I den første fase, træningstrinnet, lærer en algoritme baseret på et datasæt eller på bestemte regler eller begrænsninger. Den anden fase er inferensfasen, hvor en algoritme anvender det, den har lært i praksis. Denne anden fase afslører en algoritmes forspændinger. For eksempel, hvis en algoritme trænes med billeder af kun kvinder, der har langt hår, vil den tro, at enhver med kort hår er en mand.
Google kom berygtet under ild i 2015, da Google Fotos mærkede sorte mennesker som gorillaer, sandsynligvis fordi det var de eneste mørkhudede væsener i træningssættet.
Og bias kan krybe ind gennem mange veje. "En almindelig fejltagelse er at uddanne en algoritme til at foretage forudsigelser baseret på tidligere beslutninger fra partiske mennesker," fortæller Sophie Searcy, en senior datavidenskabsmand ved data-science-training bootcamp Metis, til Live Science. "Hvis jeg laver en algoritme til at automatisere beslutninger, der tidligere var truffet af en gruppe af låneansvarlige, tager jeg måske den lette vej og træner algoritmen om tidligere beslutninger fra disse låneansvarlige. Men så, selvfølgelig, hvis disse låneansvarlige var partiske, så den algoritme, jeg bygger, vil fortsætte disse forspændinger. "
Searcy citerede eksemplet på COMPAS, et forudsigelsesværktøj, der bruges på tværs af det amerikanske strafferetssystem til domfældelse, der forsøger at forudsige, hvor kriminalitet vil finde sted. ProPublica foretog en analyse af COMPAS og fandt, at værktøjet efter at have kontrolleret for andre statistiske forklaringer overvurderede risikoen for recidivisme for sorte tiltalte og undervurderede konsekvent risikoen for hvide tiltalte.
For at hjælpe med at bekæmpe algoritmiske fordrejninger sagde Searcy til Live Science, ingeniører og dataforskere skulle bygge mere forskelligartede datasæt til nye problemer samt forsøge at forstå og afbøde den bias, der er indbygget i eksisterende datasæt.
Først og fremmest, sagde Ira Cohen, en dataforsker hos forudsigende analysefirma Anodot, ingeniører skal have et træningssæt med relativt ensartet repræsentation af alle befolkningstyper, hvis de træner en algoritme til at identificere etniske eller kønsattributter. "Det er vigtigt at repræsentere nok eksempler fra hver befolkningsgruppe, selvom de er et mindretal i den samlede befolkning, der undersøges," fortalte Cohen til Live Science. Endelig anbefaler Cohen at tjekke for forudindtægter på et testsæt, der inkluderer mennesker fra alle disse grupper. "Hvis nøjagtigheden statistisk er markant lavere end for de andre kategorier for et bestemt løb, kan algoritmen have en bias, og jeg vil evaluere de træningsdata, der blev brugt til det," fortalte Cohen til LiveScience. For eksempel, hvis algoritmen korrekt kan identificere 900 ud af 1.000 hvide ansigter, men korrekt registrerer kun 600 ud af 1.000 asiatiske ansigter, kan algoritmen muligvis have en bias "mod" asiater, tilføjede Cohen.
Fjernelse af bias kan være utroligt udfordrende for AI.
Selv Google, der betragtes som en forløber inden for kommerciel AI, kunne tilsyneladende ikke komme med en omfattende løsning på dets gorilla-problem fra 2015. Wired fandt, at i stedet for at finde en måde for dens algoritmer at skelne mellem mennesker af farve og gorillaer, blokerede Google simpelthen dets billedgenkendelsesalgoritmer fra identificering af gorillaer overhovedet.
Googles eksempel er en god påmindelse om, at træning af AI-software kan være en vanskelig øvelse, især når software ikke testes eller trænes af en repræsentativ og forskelligartet gruppe af mennesker.