AI LYTTEDE TIL FOLKS STEMMER. DEREFTER GENEREREDE DET DERES ANSIGTER.

Send

Har du nogensinde konstrueret et mentalt billede af en person, du aldrig har set, udelukkende baseret på deres stemme? Kunstig intelligens (AI) kan nu gøre det ved at generere et digitalt billede af en persons ansigt ved hjælp af kun et kort lydklip til reference.

Navnet Speech2Face blev det neurale netværk - en computer, der "tænker" på en måde, der ligner den menneskelige hjerne - uddannet af forskere på millioner af uddannelsesvideoer fra internettet, der viste over 100.000 forskellige mennesker at tale.

Fra dette datasæt lærte Speech2Face sammenhænge mellem vokale signaler og visse fysiske træk i et menneskeligt ansigt, skrev forskere i en ny undersøgelse. AI brugte derefter et lydklip til at modellere et fotorealistisk ansigt, der matchede stemmen.

Resultaterne blev offentliggjort online 23. maj i fortrykket jounral arXiv og er ikke blevet peer review.

Heldigvis ved AI ikke (endnu) nøjagtigt, hvordan et specifikt individ ser ud, baseret på deres stemme alene. Det neurale netværk genkendte visse markører i tale, der pegede på køn, alder og etnicitet, funktioner, der deles af mange mennesker, rapporterede undersøgelsesforfatterne.

"Som sådan vil modellen kun producere gennemsnitlige ansigter," skrev forskerne. "Det vil ikke producere billeder af specifikke individer."

AI har allerede vist, at det kan producere uhensigtsmæssigt nøjagtige menneskelige ansigter, skønt dens fortolkninger af katte ærligt er lidt skræmmende.

Ansigterne, der blev genereret af Speech2Face - alle vendt mod fronten og med neutrale udtryk - stemte ikke nøjagtigt overens med folkene bag stemmerne. Men billederne fandt normalt de korrekte aldersområder, etniciteter og køn hos personer, ifølge undersøgelsen.

Algoritmens fortolkninger var imidlertid langt fra perfekte. Speech2Face demonstrerede "blandet præstation", når de konfronteres med sproglige variationer. For eksempel, da AI lyttede til et lydklip af en asiatisk mand, der talte kinesisk, producerede programmet et billede af et asiatisk ansigt. Men når den samme mand talte på engelsk i et andet lydklip, genererede AI ansigtet på en hvid mand, rapporterede forskerne.

Algoritmen viste også kønsmæssig bias, ved at knytte stemmer med lave toneangivelser til mandlige ansigter og højt tonede stemmer med kvindelige ansigter. Og fordi træningsdatasættet kun repræsenterer uddannelsesvideoer fra YouTube, "repræsenterer det ikke lige så hele verdens befolkning," skrev forskerne.

En anden bekymring omkring dette videodatasæt opkom, da en person, der havde optrådt i en YouTube-video, blev overrasket over at vide, at hans lighed var blevet inkorporeret i undersøgelsen, rapporterede Slate. Nick Sullivan, leder af kryptografi hos internetsikkerhedsfirmaet Cloudflare i San Francisco, opdagede uventet hans ansigt som et af eksemplerne, der blev brugt til at træne Speech2Face (og som algoritmen havde gengivet snarere ca.).

Sullivan havde ikke accepteret at blive vist i undersøgelsen, men YouTube-videoerne i dette datasæt anses vidt for at være tilgængelige for forskere at bruge uden at erhverve yderligere tilladelser, ifølge Slate.

Send