Почему нейросеть иногда делает "вау", а иногда — "трэш": как устроена логика генерации и откуда берутся ошибки

Прежде чем переходить к практической части и собирать консистентную AI-персону, важно понять несколько базовых принципов работы нейросетей. Эти принципы напрямую влияют на то, что мы получаем на выходе: почему один и тот же промпт иногда даёт идеальный результат, а иногда — странный, нелогичный или просто не похожий на то, что мы хотели.

В этом уроке мы разберёмся, как нейросеть "думает", почему она склонна «додумывать» недостающие детали, как на результат влияет датасет обучения, и что можно сделать, чтобы повысить предсказуемость генераций.

1) Нейросеть не "считает" и не "знает", она угадывает наиболее вероятное

Представим простой вопрос: может ли нейросеть ответить, что 2 + 2 = 5?

Да, может.

Это хороший пример, потому что он показывает ключевую вещь: нейросеть не выполняет вычисления, как калькулятор. Она не проверяет истинность ответа. Вместо этого она подбирает наиболее вероятное продолжение текста или наиболее вероятный результат на основе того, чему её обучили.

Если в обучающих данных достаточно часто встречались ошибочные или "шумные" примеры (или контекст, где 2+2 ассоциируется с 5), нейросеть может решить, что такой ответ — вероятный. А иногда она может выбрать не самый правильный ответ просто потому, что в конкретной формулировке запроса "по статистике" это выглядит более ожидаемым продолжением.

Из этого вывод: нейросеть — это система вероятностей.

Она выдаёт не "истину", а наиболее вероятный результат для данного запроса.

2) Если данных нет — нейросеть начинает "додумывать"

Следующая важная идея: когда нейросети не хватает информации, она не говорит "не знаю". Вместо этого она пытается заполнить пробелы — выдумывает недостающие детали, чтобы всё выглядело правдоподобно.

Это проявляется в генерации изображений особенно ярко. Если мы не указали важные характеристики, нейросеть будет опираться на то, что для неё является нормой — то есть на самый типичный образ из её обучающей базы.

И именно поэтому одинаковые запросы могут давать результаты "как будто про разное".

3) "Норма" нейросети зависит от того, на каких данных её обучили

В уроке показан наглядный пример на модели уровня General (Safe / Not Safe Work): мы просим сгенерировать "девушку" — и получаем определённый типаж. По результату можно сделать разумное предположение, что в датасете модели часто встречались девушки азиатской внешности в возрасте примерно 18–25 лет. Это не означает, что модель "не умеет" рисовать других людей — но означает, что по умолчанию она будет склоняться именно к таким параметрам, если мы не уточняем.

Дальше мы просим "девушку 35 лет" — и модель действительно делает лицо взрослее, но сохраняет множество "дефолтных" признаков:

те же тёмные волосы,
похожая стилистика,
и часто — та же внешность, которая преобладала в датасете.

И тут появляется практический вывод: если мы хотим европейку, определённый цвет волос, конкретный стиль, нужные пропорции — это нужно явно прописывать. Иначе нейросеть будет снова и снова возвращаться к своему "среднестатистическому" варианту.

4) Что происходит, если не уточнить важные детали (пример с грудью и одеждой)

Очень показательная часть — про детали тела.

Если мы не указываем размер груди, нейросеть подставляет "норму" из обучающих данных. Условно, "по умолчанию" 35-летняя европейка в представлении модели может оказаться девушкой с грудью около 2 размера — не потому что это "правильно", а потому что это самый вероятный вариант для её статистики.

Если нам нужна большая грудь, это нужно описывать словами (или усиливать через лоры / референсы). Иначе нейросеть решит сама.

Та же логика работает с любыми деталями:

одежда (зелёный топ, платье, бельё),
прическа,
макияж,
аксессуары,
фактура кожи,
возрастные признаки,
и так далее.

Если что-то для нас критично — это должно быть в запросе, иначе нейросеть "додумает".

5) Почему NSFW-детали часто получаются плохо без референса

Дальше рассматривается важный кейс: обнажённое тело.

Если нейросеть не обучалась (или обучалась с сильной цензурой) на достаточном количестве примеров обнажённого тела, она не будет "понимать" анатомию в деталях. В результате появляются типичные артефакты:

"символические" соски (просто затемнение вместо формы),
странная геометрия груди,
неестественные переходы света и текстуры,
ошибки в анатомии.

Здесь важно различать два сценария:

Сценарий А: есть референс обнажённого тела

Если мы даём фото обнажённой девушки и просим изменить позу или композицию, модель часто выдаёт качественный результат, потому что у неё есть подсказка, как выглядит тело и какие детали нужно сохранить.

Сценарий Б: референс в одежде, а мы просим "раздеть"

Если на входе девушка в майке/одежде и мы просим снять одежду, не дав референса обнажённой груди, нейросеть будет вынуждена "придумывать" то, чего не видит. Она попробует ориентироваться на общую форму тела под одеждой, но это не равно реальному референсу. Поэтому детали часто будут слабее и менее натуральными.

Практическая мысль отсюда простая: если хотим правдоподобные детали — нужны правильные входные данные.

6) Можно ли влиять на результат не только промптом и выбором модели? Да — через LoRA

Кроме промпта и выбора модели, есть ещё один рычаг управления — LoRA.

LoRA — это способ повысить вероятность того, что нейросеть будет воспроизводить определённые особенности:

конкретного персонажа,
конкретный тип внешности,
стиль,
пропорции,
визуальные паттерны.

По сути, LoRA — это "усилитель", который подталкивает модель к нужному распределению вероятностей. Если мы "учили" LoRA на персонаже или добавляем готовую LoRA под задачу, то нейросети становится проще выдавать именно тот образ, который нам нужен.

В ZenCreator часть моделей тоже поддерживает LoRA — это один из инструментов, который помогает сильнее контролировать выход.

Итоги урока: три правила, которые реально повышают качество генераций

В конце мы сводим всё к нескольким практическим принципам, которые напрямую влияют на стабильность и качество результата.

1) Промпт должен быть максимально конкретным

Если что-то не указано — нейросеть заполнит пробелы сама. И часто её "самый вероятный вариант" окажется не тем, что мы хотели.

Хороший промпт обычно отвечает на вопросы:

кто в кадре,
где находится,
какая поза/действие,
какой свет,
какая камера/ракурс,
стиль изображения,
формат (портрет/фулл рост, студия/улица, и т.д.).

Чем больше важных для нас деталей мы задаём, тем меньше нейросети приходится "догадываться".

2) Модели действительно разные — и каждая имеет свою "норму"

В примерах показано, что разные text-to-image модели по-разному понимают "женщину":

одна делает более нейтральный реалистичный образ,
другая сразу уходит в эротический визуальный язык (длинные волосы, акцент на груди, полу-обнажённость),
третья выдаёт портрет вместо изображения в полный рост,
четвёртая меняет типаж и фон так, что результат сильнее выглядит "нейросетевым".

Это не "лучше/хуже" в вакууме — это про то, что каждая модель обучалась на разных данных и имеет разные сильные стороны.

3) Важно заранее понимать, что для модели является дефолтом

Если мы мысленно держим в голове, "какую норму" выбирает модель, нам проще:

правильно формулировать промпт,
понимать, почему она стабильно тянет результат в определённую сторону,
выбирать подходящую модель под задачу,
решать, где нужны референсы и LoRA.

Финальная формула

Чтобы получать предсказуемый и качественный результат, мы делаем три вещи:

Подробно описываем промпт и не оставляем критичные вещи "на догадку".
Пробуем разные модели, потому что у каждой свой датасет, свой стиль и свои слабые места.
Используем дополнительные рычаги контроля (референсы, LoRA), когда нужны точные детали или консистентность.

Эта база нужна именно для практической части: дальше, когда мы начнём собирать консистентного персонажа, мы будем постоянно упираться в то, что нейросеть "нормализует" детали, если их не закрепить входными данными. Понимание этой логики экономит время и резко снижает количество "почему она сделала не то?" в процессе генераций.

Введение в нейросети