Гугл на ночь глядя (на самом деле для себя в 10 утра) обновил Нано Банана до версии 2 gemini.google.com/app/aistudio.google.com/prompts/new_chat Ну что тут скажешь. Всё такой же отвал башки, конечно. Они и были-то на голову выше…
Гугл на ночь глядя (на самом деле для себя в 10 утра) обновил Нано Банана до версии 2
gemini.google.com/app/
aistudio.google.com/prompts/new_chat
Ну что тут скажешь. Всё такой же отвал башки, конечно. Они и были-то на голову выше всех остальных, а теперь ещё и ощутимо скорость подкрутили.
Сделал инфографику из моей инструкции по промптингу изображений. И закинул случайную фотку с телефона (я не представляю, как человечество будет регулировать дипфейки в 2026 году).
Из их официального пресс-релиза ничего особо не вытянешь интересного. Для желающих — закинул перевод основных пунктов ниже. Надо раскрыть цитату нажатием в правый-нижний угол, там стрелочка вниз будет
— Расширенные знания о мире: модель основана на базе реальных знаний Gemini и использует информацию и изображения из веб-поиска в режиме реального времени для более точного отображения конкретных объектов.
— Точный рендеринг и перевод текста: Nano Banana 2 позволяет создавать точный, разборчивый текст для рекламных макетов или поздравительных открыток.
— Согласованность сюжетов: сохраняйте сходство персонажей до пяти и достоверность до 14 объектов в одном рабочем процессе, что позволяет создавать раскадровки и повествования без изменения внешнего вида вводимых данных.
— Точное следование инструкциям: Благодаря усовершенствованному следованию инструкциям модель более точно соответствует вашим сложным запросам
— Характеристики вывода в продакшн: Создавайте привлекающие внимание объекты с полным контролем различных соотношений сторон и разрешений от 512 пикселей до 4K
— Улучшение качества изображения: Nano Banana 2 обеспечивает яркое освещение, более насыщенные текстуры и более четкие детали, сохраняя высокое эстетическое качество
Стали быстрее, лучше рендерим текст, делаем 4к, держим внимание до 14 объектов.
Последний тезис про объекты я решил затестить нашим эпичным Лукоморьем. И вы знаете, я картинок 30 сгенерил, прежде чем получил то, что более-менее меня удовлетворяло. И дело не в том, что по умолчанию там другой культурный код и Кощей получался скорее зомби, чем королём-личом. Дело как раз в работе над большим количеством персонажей.
Особенность работы генеративных инструментов — они делают изменение текущей картинки новым слоем. Пока это 2-3 изменения — ничего страшного. А потом просто это всё начинает в глазах рябить, так что единственная возможность — начать заново. Наглядно это в комментариях показал. Так что взять какое-то насыщенное персонажами полотно и исправлять его понемногу не получится.
Впрочем, на примере таких масштабных картин проще всего объяснять принципы и особенности работы с генеративными изображениями. Надо просто работать в стиле классических художников — сначала создавать каждого персонажа в отдельности, потом из них собирать единое произведение.
Ещё лично для меня работа над генерацией изображений максимально похожа на работу с живым человеком. В какой-то момент ты просто раздосадовано машешь рукой и думаешь «ай, да ладно, давайте уже публиковать».
Кому интересно — неудачные дубли Лукоморья первым комментом