Gemini 2.5 Flash Image — тестуємо новий ШІ-редактор фото від Google / NV

Автор: Артем Прокопенко

26 серпня Google представила Gemini 2.5 Flash Image, нову модель генерації та редагування зображень, раніше неофіційно відому серед користувачів як «нано-банан». Те, що почалося як жарт, перетворилося на нове «диво ШІ». Протестуймо його!

Термін nano-banana заполонив уяву громадськості ще до офіційного оголошення. Він з’явився на краудсорсинговій платформі LMArena: там користувачі помітили таємничу потужну модель редагування зображень, що працювала під «банановим» псевдонімом.

Якість роботи моделі настільки вразила юзерів, що вони почали спекулювати про її творця. І підозри впали саме на Google: компанія вже позначала свої попередні моделі як «нано», а представники Google раптово почали публікувати емодзі бананів у своїх соцмережах. І вже невдовзі меми про банани стали одним із найпопулярніших технологічних жартів літа 2025 року, а запит «Google nano banana» увійшов до топових трендів у TikTok і X.

Передплатіть NV Преміум та читайте без обмежень

Нам необхідна ваша підтримка, щоб займатися якісною журналістикою

Передплатити Я вже передплатник

Перший місяць 1 ₴. Відмовитися від передплати можна у будь-який момент

26 серпня Google підтвердила чутки в блозі розробників — вірусна таємнича модель дійсно належала їм. Відучора вона перейменована в Gemini 2.5 Flash Image і повністю інтегрована в екосистему мовної моделі Gemini. Протестувати її можуть усі користувачі Gemini, а також розробники через платформи Gemini API, Google AI Studio та Vertex AI.

«Коли ми вперше запустили генерацію зображень у Gemini 2.0 Flash на початку цього року, ви сказали нам, що вам подобається його низька затримка, економічна ефективність та простота використання. Але також дали нам відгук про те, що вам потрібні зображення вищої якості та потужніший творчий контроль», — так розробники Google мотивують впровадження версії 2.5.

Як працює Gemini 2.5 Flash Image

Основна особливість моделі — акцент на швидкість. Якщо більшість генераторів зображень на ринку, зокрема Midjourney чи Stable Diffusion, орієнтуються на якість і художню гнучкість, то Google позиціонує Flash Image як «робочого коня» для повсякденних завдань. Як зазначається у блозі розробників Google, модель оптимізована для сценаріїв, де важливіше швидко отримати результат, ніж витрачати хвилини на доопрацювання деталей.

У Google наголошують: кожне зображення, згенероване або відредаговане за допомогою Gemini 2.5 Flash Image, має невидимий водяний знак SynthID, що гарантує, що його можна ідентифікувати як створене ШІ.

Щоб полегшити взаємодію з розробниками, Google внесла значні оновлення до «режиму збірки» Google AI Studio. Він дає змогу користувачам тестувати можливості моделі за допомогою власних програм на базі ШІ, які можна реміксувати або створювати з нуля одним запитом. Наприклад, користувач може надіслати системі команду на кшталт: «Створіть мені програму для редагування зображень, яка дозволить завантажувати зображення та застосовувати різні фільтри». Щойно програма готова, її можна розгорнути безпосередньо з AI Studio або зберегти її код на GitHub.

Чи не найгучніша з заявлених переваг Gemini 2.5 Flash Image — це так звана «узгодженість персонажів» (character consistency), тобто збереження зовнішнього вигляду людини чи об'єкта під час кількох запитів та редагувань. На ринку генераторів зображень це є поширеною проблемою: моделі часто міняють зовнішність від одного редагування до наступного, спотворюючи її до невпізнаваності.

Модель Google же дає змогу одному й тому ж персонажу виглядати впізнавано в різних середовищах або на знімках продуктів, щоб вони залишалися узгодженими під різними ракурсами. Для демонстрації можливостей 2.5 компанія навіть створила в Google AI Studio спеціальний шаблон — Past Forward. Туди можна завантажити фото людини, і шаблон згенерує її подобу в різних епохах — від 1950-х до 2000-х, — намагаючись зберегти оригінальні риси обличчя.

Ось який вигляд має інтерфейс Past Forward. Ми протестували шаблон на основі світлини української акторки Катерини Шевчук. Її зовнішність дійсно була достатньо точно відтворена в усіх 6 згенерованих фото / Фото: колаж NV за допомогою Gemini

Редагування включно з ретушшю також стало точнішим і природнішим. Замість того, щоб покладатися на окремі інструменти, користувачі можуть просто описати в текстовому рядку, що вони хочуть змінити у світлині: розмити фон, видалити пляму з одягу, стерти небажаний об'єкт, змінити позу, розфарбувати чорно-біле зображення тощо.

База знань моделі Gemini дозволяє Flash Image краще розуміти контекст, розпізнавати об'єкти, ба навіть працювати з абстрактними ескізами. Google продемонстрував освітній шаблон, який демонструє здатність моделі зчитувати намальовану «від руки» інформацію. Наприклад, ми вписали математичний приклад та попросили шаблон його розв’язати — і він зробив це без помилок.

Фото: Google/NV

Ще одна корисна функція — це Multi-image fusion. Gemini 2.5 Flash Image може об'єднувати кілька зображень в одну цілісну сцену, дозволяючи користувачам розміщувати об'єкти в нових умовах. Компанія проілюструвала це за допомогою інструмента перетягування в AI Studio, який дозволяє легко поєднувати зображення без складного ручного редагування. Вдалося і нам.

Ось як працює шаблон Gemini Co-Drawing. Ліворуч можна вставити фото предмета, праворуч — світлину середовища, куди треба помістити предмет. Місце його розташування користувач вибирає вручну за допомогою миші / Фото: Google/NV

Що буде далі

У Google зазначили, що розробка Gemini 2.5 Flash Image триває. Майбутні покращення включають надійніше відображення довгих текстових запитів у зображеннях, кращу узгодженість та вищу точність відображення дрібних візуальних деталей. Компанія заохочує відгуки через свій форум розробників та соціальні мережі.

Читайте також:

3D-світи в один клік. Чи змінить ігрову індустрію новий ШІ Genie 3 від Google?

Як пише Business Insider, на основі отриманих відгуків Google стверджує, що користувачі віддають перевагу її моделі над моделями OpenAI та інших конкурентів, виходячи з показника Elo — методу розрахунку відносного рівня майстерності генеративних моделей.

Упродовж останніх років Google намагалася наздогнати OpenAI, яка першою здобула масове визнання завдяки ChatGPT та DALL·E. Випуск Gemini 2.5 Flash Image — черговий крок у стратегії, що має закріпити за компанією статус одного з ключових гравців на ринку.

Інтеграція моделей Gemini у власні сервіси Google створює ефект екосистеми: користувачі отримують зручний доступ до ШІ без необхідності встановлювати окремі додатки. Flash Image у цьому сенсі стає практичним прикладом того, як ШІ може непомітно інтегруватися у повсякденні інструменти.

Найближчим часом Flash Image може стати не просто ще однією утилітою для редагування картинок, а рушійною силою зміни того, як людство працює з візуальним контентом. Якщо раніше генеративна графіка сприймалася як експеримент або інструмент для миттєвих мемів, то тепер вона поступово переходить у категорію базових сервісів, які визначатимуть вигляд освіти, маркетингу, електронної комерції та навіть наукової візуалізації.

Google робить ставку на те, що саме природність взаємодії з картинками через мову, а не складне професійне редагування, стане новим стандартом. І якщо ці амбіції справдяться, Flash Image може перетворити звичні для нас фото- і графічні редактори (як-от Adobe Photoshop) на рудимент.

Читайте також:

Прощавай, Photoshop? Тестуємо Gemini 2.5 Flash Image — ШІ-редактор зображень від Google

Передплатіть NV Преміум та читайте без обмежень

Як працює Gemini 2.5 Flash Image

Що буде далі