Прощай, Photoshop? Тестируем Gemini 2.5 Flash Image — ИИ-редактор изображений от Google

IT-индустрия

27 августа 2025, 20:00

26 августа Google представила Gemini 2.5 Flash Image, новую модель генерации и редактирования изображений, ранее неофициально известную среди пользователей как «нано-банан». То, что началось как шутка, превратилось в новое «чудо ИИ». Протестируем его!

Термин nano-banana заполонил воображение общественности еще до официального объявления. Он появился на краудсорсинговой платформе LMArena: там пользователи заметили таинственную мощную модель редактирования изображений, работавшую под «банановым» псевдонимом.

Качество работы модели настолько поразило юзеров, что они начали спекулировать о ее создателе. И подозрения пали именно на Google: компания уже обозначала свои предыдущие модели как «нано», а представители Google внезапно начали публиковать эмодзи бананов в своих соцсетях. И уже вскоре мемы о бананах стали одной из самых популярных технологических шуток лета 2025 года, а запрос «Google nano banana» вошел в топовые тренды в TikTok и X.

Подпишитесь на NV Премиум и читайте без ограничений

Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой

Первый месяц 1 ₴. Отписаться можно в любой момент

26 августа Google подтвердила слухи в блоге разработчиков — вирусная таинственная модель действительно принадлежала им. Со вчерашнего дня она переименована в Gemini 2.5 Flash Image и полностью интегрирована в экосистему языковой модели Gemini. Протестировать ее могут все пользователи Gemini, а также разработчики через платформы Gemini API, Google AI Studio и Vertex AI.

«Когда мы впервые запустили генерацию изображений в Gemini 2.0 Flash в начале этого года, вы сказали нам, что вам нравится его низкая задержка, экономическая эффективность и простота использования. Но также дали нам отзыв о том, что вам нужны изображения высшего качества и мощный творческий контроль», — так разработчики Google мотивируют внедрение версии 2.5.

Как работает Gemini 2.5 Flash Image

Основная особенность модели — акцент на скорость. Если большинство генераторов изображений на рынке, в частности Midjourney или Stable Diffusion, ориентируются на качество и художественную гибкость, то Google позиционирует Flash Image как «рабочую лошадь» для повседневных задач. Как отмечается в блоге разработчиков Google, модель оптимизирована для сценариев, где важнее быстро получить результат, чем тратить минуты на доработку деталей.

В Google отмечают: каждое изображение, сгенерированное или отредактированное с помощью Gemini 2.5 Flash Image, имеет невидимый водяной знак SynthID, что гарантирует, что его можно идентифицировать как созданное ИИ.

Чтобы облегчить взаимодействие с разработчиками, Google внесла значительные обновления в «режим сборки» Google AI Studio. Он позволяет пользователям тестировать возможности модели с помощью собственных программ на базе ИИ, которые можно ремиксовать или создавать с нуля одним запросом. Например, пользователь может отправить системе команду вроде: «Создайте мне программу для редактирования изображений, которая позволит загружать изображения и применять различные фильтры». Как только программа готова, ее можно развернуть непосредственно из AI Studio или сохранить ее код на GitHub.

Едва ли не самое громкое из заявленных преимуществ Gemini 2.5 Flash Image — это так называемая «согласованность персонажей« (character consistency), то есть сохранение внешнего вида человека или объекта при нескольких запросах и редактированиях. На рынке генераторов изображений это является распространенной проблемой: модели часто меняют внешность от одного редактирования к следующему, искажая ее до неузнаваемости.

Модель Google же позволяет одному и тому же персонажу выглядеть узнаваемо в разных средах или на снимках продуктов, чтобы они оставались согласованными под разными ракурсами. Для демонстрации возможностей 2.5 компания даже создала в Google AI Studio специальный шаблон — Past Forward. Туда можно загрузить фото человека, и шаблон сгенерирует его подобие в разных эпохах — от 1950-х до 2000-х, — стараясь сохранить оригинальные черты лица.

Вот как выглядит интерфейс Past Forward. Мы протестировали шаблон на основе фотографии украинской актрисы Катерины Шевчук. Ее внешность действительно была достаточно точно воспроизведена у всех 6 сгенерированных фото / Фото: коллаж NV с помощью Gemini

Редактирование, включая ретушь, также стало более точным и естественным. Вместо того, чтобы полагаться на отдельные инструменты, пользователи могут просто описать в текстовой строке, что они хотят изменить в фотографии: размыть фон, удалить пятно с одежды, стереть нежелательный объект, изменить позу, раскрасить черно-белое изображение и тому подобное.

База знаний модели Gemini позволяет Flash Image лучше понимать контекст, распознавать объекты, и даже работать с абстрактными эскизами. Google продемонстрировал образовательный шаблон, который демонстрирует способность модели считывать нарисованную «от руки» информацию. Например, мы вписали математический пример и попросили шаблон его решить — и он сделал это без ошибок.

Фото: Google/NV

Еще одна полезная функция — это Multi-image fusion. Gemini 2.5 Flash Image может объединять несколько изображений в одну целостную сцену, позволяя пользователям размещать объекты в новых условиях. Компания проиллюстрировала это с помощью инструмента перетаскивания в AI Studio, который позволяет легко объединять изображения без сложного ручного редактирования. Удалось и нам.

Вот как работает шаблон Gemini Co-Drawing. Слева можно вставить фото предмета, справа – фотографию среды, куда нужно поместить предмет. Место его расположения пользователь выбирает вручную с помощью мыши / Фото: Google/NV

Что будет дальше

В Google отметили, что разработка Gemini 2.5 Flash Image продолжается. Будущие улучшения включают более надежное отображение длинных текстовых запросов в изображениях, лучшую согласованность и более высокую точность отображения мелких визуальных деталей. Компания поощряет отзывы через свой форум разработчиков и социальные сети.

Как пишет Business Insider, на основе полученных отзывов Google утверждает, что пользователи предпочитают ее модели моделям OpenAI и других конкурентов, исходя из показателя Elo — метода расчета относительного уровня мастерства генеративных моделей.

В последние годы Google пыталась догнать OpenAI, которая первой получила массовое признание благодаря ChatGPT и DALL-E. Выпуск Gemini 2.5 Flash Image — очередной шаг в стратегии, который должен закрепить за компанией статус одного из ключевых игроков на рынке.

Интеграция моделей Gemini в собственные сервисы Google создает эффект экосистемы: пользователи получают удобный доступ к ИИ без необходимости устанавливать отдельные приложения. Flash Image в этом смысле становится практическим примером того, как ИИ может незаметно интегрироваться в повседневные инструменты.

В ближайшее время Flash Image может стать не просто еще одной утилитой для редактирования картинок, а движущей силой изменения того, как человечество работает с визуальным контентом. Если раньше генеративная графика воспринималась как эксперимент или инструмент для мгновенных мемов, то теперь она постепенно переходит в категорию базовых сервисов, которые будут определять вид образования, маркетинга, электронной коммерции и даже научной визуализации.

Google делает ставку на то, что именно естественность взаимодействия с картинками через язык, а не сложное профессиональное редактирование, станет новым стандартом. И если эти амбиции оправдаются, Flash Image может превратить привычные для нас фото- и графические редакторы (например Adobe Photoshop) в рудимент.

Другие новости

Все новости