Google a lansat un nou model de imagini AI integrat în Gemini, menit să ofere utilizatorilor un control mult mai precis asupra editării fotografiilor – o mișcare ce urmărește să reducă diferența față de ChatGPT și alte platforme rivale.

Actualizarea, numită Gemini 2.5 Flash Image, este disponibilă începând de marți pentru toți utilizatorii aplicației Gemini, dar și pentru dezvoltatori prin Gemini API, Google AI Studio și Vertex AI.

Noul model se remarcă prin capacitatea de a face editări detaliate pe baza comenzilor formulate în limbaj natural, fără să distorsioneze fețele, animalele sau alte elemente sensibile din fotografie – un punct slab al multor instrumente concurente. „Împingem calitatea vizuală la un nou nivel și îmbunătățim felul în care modelul urmează instrucțiunile”, a explicat Nicole Brichtova, product lead la Google DeepMind.

Modelul a atras deja atenția comunității tech după ce a apărut, sub pseudonimul „nano-banana”, pe platforma de evaluare colaborativă LMArena, unde a primit aprecieri pentru acuratețea editărilor.

O luptă acerbă pe piața AI de imagini

Industria generativei AI a devenit un câmp de bătălie între giganți. OpenAI a atras milioane de utilizatori odată cu lansarea GPT-4o și a generatorului său de imagini nativ, care a declanșat o avalanșă de meme-uri virale. La rândul său, Meta a anunțat recent că va integra modele Midjourney, iar startup-ul german Black Forest Labs domină testele de performanță cu modelele sale FLUX.

Google speră ca noul editor vizual din Gemini să reducă diferența față de OpenAI. ChatGPT are peste 700 de milioane de utilizatori săptămânali, în timp ce Gemini raportează doar 450 de milioane de utilizatori lunari.

De la proiecte casnice la protecția împotriva deepfake-urilor

Google spune că noul model a fost gândit cu accent pe scenarii practice, precum vizualizarea proiectelor de renovare sau design interior. Utilizatorii pot combina mai multe referințe – de pildă, o canapea, o fotografie cu livingul și o paletă de culori – într-o singură randare coerentă.

Totodată, compania insistă că a învățat din greșelile trecute și a implementat un echilibru mai bun între creativitate și siguranță. Modelul aplică filigrane vizuale și metadate pentru a marca imaginile generate, iar termenii de utilizare interzic explicit crearea de imagini intime non-consensuale.

„Vrem să le oferim oamenilor control creativ, dar asta nu înseamnă că orice este permis”, a subliniat Brichtova.

