Model nazvan MLLM - Guided Image Editing (MGIE), a koristi multimodalne velike jezične modele (MLLM) za tumačenje tekstualnih naredbi prilikom manipuliranja slikama.
Drugim riječima, alat ima mogućnost uređivanja fotografija na temelju teksta koji korisnik upisuje. Iako to nije prvi alat koji to može učiniti, 'ljudske su upute ponekad prekratke da bi ih trenutne metode uhvatile i slijedile', piše u opisu projekta - prenosi Tportal.
Tvrtka je MGIE razvila s istraživačima sa Sveučilišta Kalifornije u Santa Barbari. MLLM-ovi imaju moć transformirati jednostavne ili dvosmislene tekstualne upute u detaljnije i jasnije upute koje sam uređivač fotografija može slijediti.
Naprimjer, ako korisnik želi urediti fotografiju pizze s kobasicom kako bi je 'učinio zdravijom', MLLM-ovi to mogu protumačiti kao 'dodati nadjeve od povrća' i urediti fotografiju kao takvu.