Microsoft së fundmi ka prezantuar një model të ri me AI që mund të gjenerojë video realiste të fytyrave njerëzore që flasin.
Klipi polarizues, i cili ka shkaktuar reagime në internet duke filluar nga humori deri te tmerri, është një nga truket e teknologjisë së re të AI të Microsoft-it të quajtur VASA-1.
Teknologjia është në gjendje të gjenerojë fytyra të gjalla të personazheve virtualë që flasin duke përdorur një imazh të vetëm dhe një klip audio me të folur.
Inteligjenca artificiale mund të bëjë që personazhet vizatimorë, fotografitë dhe pikturat të këndojnë ose të flasin, siç dëshmohet në pamjet e publikuara nga Microsoft si pjesë e hulumtimit të publikuar më 16 prill.
Videot fituan shpejt tërheqje në internet: Një postim në X, dikur Twitter, më 18 prill, ku shfaqej klipi i Mona Lisa-s dhe të tjerë, kishte mbledhur shtatë milionë shikime.
Microsoft just dropped VASA-1.
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024