
VASA-1 je novi Microsoftov model umjetne inteligencije. Nevjerovatna tehnologija koja može stvoriti realistične avatare od dva jednostavna sastojka: statične slike i glasovnog snimka. Ako ste zainteresovani da saznate više o VASA-1 i njegovi hiper-realistični avatari koje generiše AI, preporučujemo vam da nastavite čitati.
Činilo se da će Redmond sve svoje napore koncentrirati na razvoj ove vrste tehnologije u asistentu Copilot. Alat koji kombinuje jezičke modele sa Microsoft 365 aplikacijama, međutim, čini se da su njegovi planovi ambiciozniji. Dokaz za to nalazi se u VASA-1.
Šta je VASA-1?
VASA je akronim za Aplikacija Visual Affective Skills, koncept koji se može prevesti kao Primjena vizualno-afektivnih vještina. Broj "1" je jasna referenca da je ovo samo prva na dugačkom spisku verzija koje će stići u budućnosti da bi nas još više iznenadile.

Šta čini VASA-1 tako posebnim? Koja je vaša glavna inovacija? Već postoje mnoge aplikacije koje mogu oživjeti fotografije s pokretima sličnim onima u GIF-u. Ono što ovaj alat koji je kreirao tim istraživača AI iz Microsoft Research Asia uvodi je nešto mnogo sofisticiranije: sistem umjetne inteligencije koji može natjerati fotografije da pjevaju i plešu. Ne radi se o animaciji, nego o nečem drugom.
Rezultat je neverovatno realističan. Hiperrealističan bio bi najprikladniji izraz. Ovaj model može proizvesti pokrete usana savršeno sinkronizirane sa zvukom, kao i uhvatiti širok spektar nijansi lica i prirodnih pokreta glave. Sve u svemu, predstavlja živopisnu i autentičnu sliku kakva nikada prije nije viđena u drugim sličnim alatima.
Osim toga, alat također omogućava online generiranje 512x512 video zapisa brzinom do 45 sličica u sekundi (nešto manje ako se koristi u offline modu) sa zanemarljivom početnom latencijom. Ovo utire put za interakcije u realnom vremenu sa realističnim avatarima do kojih čak može doći oponašaju ljudska ponašanja u razgovoru.
VASA-1: Neki primjeri
Ova metoda pokazuje sposobnost rukovanja slikama i audio datotekama širokog spektra. Tako se mogu uključiti umjetničke fotografije, pa čak i audio zapisi sa različitih jezika, ne samo na engleskom. U ovaj post smo uključili neki primjeri koji nas zaista ostavljaju bez teksta. Teško je reći da lica koja se pojavljuju kako govore i gestikuliraju na video snimcima ne odgovaraju onima stvarnih ljudi, već su avatari stvoreni od slika i zvuka:
Svaki korisnik sa računarom srednje snage (na primjer, Nvidia RTX 4090 GPU) može koristiti ovaj alat za generiranje videa ovog realnog nivoa za samo nekoliko minuta.
Impresivno je vidjeti kako ove animacije tako efikasno kombinuju slike i zvuk, dajući glavi koja govori pred nama neobičan stepen realizma. Kako god, Stručnjaci ističu da još uvijek postoje greške koje otkrivaju lažnu prirodu ovih slika. Detalji neprimjetni za većinu nas, ali koji ne izmiču najbolje obučenim promatračima: neki suptilni nedostaci i znakovi koji otkrivaju intervenciju umjetne inteligencije.
Opasnosti alata koji je previše precizan
Ovaj alat je toliko odličan i tako realističan da se Microsoft nije usudio na korak izdavanja čak ni otvorene demo verzije. Briga za zloupotreba i potencijalne opasnosti koje bi predstavljalo za krađu identiteta savjetuje da postupate s velikim oprezom.
U svakom slučaju, na službenoj web stranici Projekat VASA-1, koji se nalazi na Microsoft stranici, nalazimo zanimljiv video koji traje nešto više od minute u kojem možemo svjedočiti procesu stvaranja ovih hiperrealističnih avatara:
U osnovi, metoda se sastoji od odabira slike (ljudsko lice), a zatim audio datoteke. AI ih tada "oženi". Tokom procesa kreiranja, korisnik može ocrtati brojne nijanse kroz dugmad i trake koje se pojavljuju na interfejsu. Ulaganjem samo malo vremena i kreativnosti, mogu se postići efektni rezultati.
U ovom trenutku, namjere programera VASA-1 su upravo suprotne od generiranja lažnih i phishing videa (ili, barem, tako kažu). to će reći, pomoći u otkrivanju i suzbijanju videozapisa deep fake. Možda je i istina, jer niko ne zna bolje od njih kako prevariti ljudski um kroz sve moćnije i preciznije AI alate.
Uprkos tome, VASA-1 programeri takođe insistiraju na isticanja najpozitivnijih aspekata njegovog stvaranja: poboljšanje pristupačnosti za osobe sa poteškoćama u komunikaciji, nuđenje kompanijske ili terapeutske podrške onima kojima je potrebna i druge prednosti koje proizilaze iz odgovorne upotrebe AI. Izazov je to omogućiti.