Noua „Agentic Vision” a Gemini 3 Flash îmbunătățește răspunsurile vizuale
Update 13 secunde în urmă
Timp de citire: 1 minut
Articol scris de: Andrei Miroslavescu
Agentic Vision este o nouă capacitate pentru modelul Gemini 3 Flash, care îmbunătățește precizia sarcinilor legate de imagini prin „fundamentarea răspunsurilor în dovezi vizuale.” Potrivit 9to5google.com, modelele AI de frontieră, cum ar fi Gemini, procesează de obicei lumea dintr-o singură privire statică.
👉 Provocările modelelor AI în recunoașterea detaliilor fine
Dacă ratează un detaliu fin — cum ar fi un număr de serie pe un cip sau un semn de stradă îndepărtat — sunt nevoite să ghicească. Această nouă abordare „consideră viziunea ca o investigație activă,” combinând raționamentul vizual cu executarea codului și alte instrumente în viitor. Pentru a răspunde solicitărilor cu imagini, Gemini 3 Flash va formula „planuri pentru a mări, inspecta și manipula imaginile pas cu pas.” În mod specific, Agentic Vision valorifică un „ciclul Gândește, Acționează, Observă.”