AI POČúVAL HLASY ĽUDí. POTOM VYTVORIL ICH TVáRE.

Send

Vytvorili ste niekedy mentálny obraz človeka, ktorého ste nikdy nevideli, iba na základe jeho hlasu? Umelá inteligencia (AI) to teraz môže urobiť a vygenerovať digitálny obraz tváre osoby, pričom použije iba krátky zvukový klip.

Vedci nazvali Speech2Face, neurónovú sieť - počítač, ktorý „myslí“ podobným spôsobom ako ľudský mozog - vyškolili vedci o miliónoch vzdelávacích videí z internetu, ktoré ukázali viac ako 100 000 rôznych ľudí hovoriacich.

Na základe tohto súboru údajov sa program Speech2Face naučil spojenia medzi hlasovými narážkami a určitými fyzickými črtami v ľudskej tvári. Vedci napísali novú štúdiu. AI potom použil zvukový klip na modelovanie fotorealistickej tváre zodpovedajúcej hlasu.

Zistenia boli zverejnené online 23. mája v predtlačovom vyhlásení arXiv a neboli recenzované.

Našťastie AI (zatiaľ) presne nevie, ako konkrétny jednotlivec vyzerá na základe vlastného hlasu. Neurónová sieť rozpoznala určité reči v reči, ktoré poukazovali na pohlavie, vek a etnicitu, čo sú vlastnosti, ktoré zdieľajú mnohí ľudia.

„Model tak bude vytvárať iba priemerne vyzerajúce tváre,“ napísali vedci. „Neprodukuje obrázky konkrétnych jednotlivcov.“

AI už preukázala, že dokáže vytvárať neuveriteľne presné ľudské tváre, aj keď jeho interpretácia mačiek je úprimne trochu desivá.

Tváre generované Speech2Face - všetky smerujúce dopredu a neutrálnymi výrazmi - sa presne nezhodovali s ľuďmi za hlasmi. Podľa štúdie však obrázky spravidla zachytávajú správne vekové rozpätie, etnicitu a pohlavie jednotlivcov.

Interpretácie algoritmu však neboli ani zďaleka dokonalé. Speech2Face preukázal „zmiešaný výkon“, keď čelil jazykovým variantom. Napríklad, keď AI počúvala zvukový klip ázijského muža hovoriaceho čínskymi, program vytvoril obraz ázijskej tváre. Keď však ten istý muž hovoril v angličtine iným zvukovým klipom, AI vytvorila tvár bieleho muža, uviedli vedci.

Algoritmus tiež ukázal rodovú zaujatosť, spájajúcu hlasy s nízkym rozstupom s mužskými tvárami a hlasy s vysokým rozstupom s ženskými tvárami. Pretože súbor údajov o školeniach predstavuje iba vzdelávacie videá z YouTube, „nepredstavuje rovnako celú svetovú populáciu“, píšu vedci.

Ďalšie obavy týkajúce sa tohto súboru údajov o videu sa objavili, keď osoba, ktorá sa objavila vo videu YouTube, bola prekvapená, keď sa dozvedela, že jeho podoba bola začlenená do štúdie, informoval Slate. Nick Sullivan, vedúci kryptografie s internetovou bezpečnostnou spoločnosťou Cloudflare v San Franciscu, si nečakane všimol jeho tvár ako jeden z príkladov používaných na školenie Speech2Face (a algoritmus sa reprodukoval skôr približne).

Sullivan nesúhlasil s tým, aby sa objavil v štúdii, ale videá YouTube v tomto súbore údajov sa podľa prieskumu Slate všeobecne považujú za dostupné pre vedcov na použitie bez získania ďalších povolení.

Send