Вы сейчас просматриваете Как я собираю продающие видео из трёх картинок

Как я собираю продающие видео из трёх картинок

Пару лет назад я таскал с собой свет, петлю и штатив. Теперь достаточно трёх файлов: фото героя, фото товара и фон. Нейросети делают остальное. Сегодня разложу по полочкам, как я превращаю статичные изображения в живые видеопрезентации товаров, где и когда подключаю Midjourney, Veo, Suno, GPT и ChatGPT, какие промпты реально работают и где чаще всего ломается магия. Буду говорить просто и по делу — как другу за кофе. Ключевая мысль: создание контента с ИИ — это не про «эффект вау любой ценой», а про аккуратную сборку деталей.

Почему именно нейросети для товарного видео

Классическая съёмка — это студия, модели, реквизит и длинная постпродакшн-цепочка. Нейросети позволяют симулировать весь этот продакшн: мы комбинируем несколько изображений, описываем сцену и получаем ролик с аккуратной камерной пластикой. Это особенно полезно в креативных проектах с нейросетями, где важны вариативность и скорость: тестируешь три идеи за вечер, показываешь клиенту и не сжигаешь бюджет.

Сценарий №1. Платье «садится» на модель и выглядит как в каталоге

Задача: взять фото сложного платья (узор, тонкие бретельки) и надеть его на модель, сохранив все нюансы. Для меня это показатель качества движка: простые фасоны удаются всем, а вот сложный крой быстро выдаёт слабые места.

Как я делаю:

  1. Сцена и исходники. Беру модель в поясном портрете, ровный свет, без сильных теней. Отдельно — фото платья. Отдельно — фон (вилла с пальмами или городская улица).
  2. Разметка. Выделяю у модели «subject», у платья — «costume». Бретельки почти всегда «рвутся», поэтому мягкой кистью довожу маску вручную. Ластиком убираю лишнее, чтобы не было «двойной бретельки».
  3. Фон. Для чистоты эксперимента беру фон без лишних людей и мелких объектов. Если фон шумный — заранее ретуширую и упрощаю рисунок, иначе алгоритм отвлекается.
  4. Промпт. Сначала формулирую на русском, затем прошу ChatGPT перевести и аккуратно уточнить детали ткани, посадку и освещение. В итог вставляю английскую версию — так стабильнее. Рабочий пример: “Woman wearing the reference dress standing by a palm-lined villa at golden hour; the dress must exactly match the reference photo (pattern, straps, fit, fabric sheen). Slow handheld camera move, shallow depth of field, natural warm light, no text or captions.”
  5. Параметры. Длина 5–10 секунд, соотношение сторон под площадку (9:16 — Reels/Shorts, 16:9 — YouTube/лендинги).

На что обращаю внимание — Сложный рисунок ткани. Если узор «плывёт», усиливаю формулировку «exactly match the reference» и добавляю «no hallucinated seams». — Бретелька не совпала. Делаю вторую итерацию маски тонкой кистью и добавляю в промпт «keep thin straps intact». — Камера «шатает». Уточняю «subtle parallax, micro-movement only».

Сценарий №2. Продукт в руках модели: тюбик крема и «честная демонстрация»

Задача: заменить абстрактный тюбик на нужный бренд, оставив ту же позу и эмоцию. Плюс — подобрать фон, который поддерживает палитру упаковки.

Как я делаю:

  1. Загружаю референс модели, выделяю «object», но ластиком стираю старый крем — показываю системе, что этот объект не участвует в финале.
  2. Загружаю новый тюбик крема как отдельный объект с чёткой маской.
  3. По фону. Если исходник холодный, а упаковка — в тёплых голубых/бирюзовых оттенках, беру светлую кухню/ванную или террасу у моря. Нейтральные материалы (камень, дерево, стекло) помогают не спорить с брендингом.
  4. Промпт. Формулировка, которая даёт стабильный захват продукта и позы: “The red-haired woman from the first image holds the blue hand-cream tube from the second image and presents it to camera, center frame, natural soft light, clean background, realistic hand pose, no changes to the subject’s appearance.”
  5. Проверка. Смотрю на пальцы: если «сшито» неправильно — добавляю «correct finger articulation, realistic grip».

Как я делаю: — Добавляю фон третьим изображением: улицы Санторини, лавка с белыми стенами. Тогда уточняю промпт: “Place the subject and product in the third image background; maintain color harmony and soft midday light.”

Сценарий №3. Замена персонажа в сцене: «пересадить» другую модель в нужное окружение

Задача: в проекте бренд использует одну и ту же модель. Исходная сцена классная, но в кадре — другой человек. Нужно незаметно заменить.

Как я делаю:

  1. Изображение 1 — нужная модель (subject). Изображение 2 — сцена с окружением (фон, реквизит).
  2. Если сцена захватила не фон, а случайный объект (например, стиральную машину «съедает» маска), инвертирую выделение: беру фон, убираю постороннее.
  3. Промпт. Даю задачу явно — кого взять и куда поставить, плюс поза: “Take the woman from image #1 and place her into the scene from image #2; she is standing slightly turned and leaning on the washing machine; match perspective, lighting, and shadows; keep the subject’s face and hairstyle unchanged.”
  4. Итог проверяю по трём точкам: совпадение направления света, масштаб ноги-пол, естественная тень под ладонью.

Сценарий №4. «Врач восточной медицины»: сцена-визитка услуги

Задача: собрать видеовизитку специалиста без фотосессии. Беру молодого мужчину, костюм врача и интерьер клиники — всё из разных источников.

Порядок действий:

  1. Изображение 1 — портрет молодого человека (subject).
  2. Изображение 2 — медицинский халат или человек в халате (отмечаю «costume»/«outfit»).
  3. Изображение 3 — фон клиники (оставляю auto, без агрессивных фактур и постеров).
  4. Промпт. Чтобы получилась уверенная, ровная подача, использую формулировку: “Young male doctor in a white coat standing in a modern oriental-medicine clinic; calm, confident look into camera, subtle breathing motion, clean white lighting, no text overlays.”
  5. Проверяю: шея-воротник и линия плеч — если «тянет», даю вторую итерацию маски и уточняю «correct collar alignment».

Где в этом пайплайне помогают ChatGPT и GPT?

Я использую ChatGPT как «переводчика задач на язык машины» и как редактора формулировок: вместо расплывчатого «сделай красиво» получаю конкретику про свет, фокус, глубину резкости и материал. Иногда стоит задать вопрос самому себе: «Что я бы сказал оператору на площадке?» — и отдать это ChatGPT. Прямой пример: из «девушка в платье на фоне виллы» ChatGPT собирает промпт уровня продакшна: “Woman wearing the reference dress; warm late-afternoon sun, gentle backlight on hair; slow dolly-in; keep fabric texture and pattern intact; background villa with palm trees softly out of focus.” GPT я подключаю, когда нужен быстрый перебор вариантов: короткие лозунги для упаковки, пять разных «тон-оф-войса» для одного и того же текста, список планов для монтажной «склейки». Здесь важна скорость — отобрал лучшее и вернулся к визуалу.

Где и зачем включаю Midjourney?

Midjourney у меня отвечает за референсы и фактуру: достраиваю фон, ищу «вкусные» материалы, создаю дополнительную картинку товара в стилистике бренда. Сильно помогает Omni-референс — даёт «склейку» общего настроения. Пример рабочего промпта для быстрого бэкграунда: “Minimal studio backdrop in soft beige with subtle texture, realistic light falloff, 16:9, photorealistic.” Такой фон не спорит с упаковкой, а поднимает общий класс снимка.

Когда нужен Veo?

Veo — мой инструмент, если нужна лёгкая мимика, «дыхание» кадра, аккуратный сдвиг камеры. Схема простая: импорт статичных слоёв (герой, товар, фон), короткий сценический промпт и 5–8 секунд движения. Для говорящих роликов Veo уместен, когда важны губы и взгляд. Пример рабочей подсказки: “Subtle head motion, natural blinking, confident look into camera; micro-parallax on background; keep hands steady while presenting the product.” Если вижу «пластилиновые» пальцы — сокращаю кадр до 5 секунд и усиливаю «steady hands».

Где пригодится Suno?

Suno — для музыки и звуков. Слишком драматичная дорожка убивает доверие в рекламном видео, а Suno позволяет быстро подобрать нейтральную, «серьёзно-лёгкую» основу под товарный ролик. Простая формулировка стиля часто спасает: “Clean minimal corporate background, soft piano and light percussion, 8 seconds, loopable.” Не соревнуюсь с визуалом — поддерживаю ритм.

Частые ошибки и как их лечу

— «Жирные» тени на коже. Источник — слишком контрастный исходник. Решение: выравниваю свет до генерации и добавляю в промпт «soft, diffused lighting». — Узор платья расползается по швам. Уточняю «preserve seam lines, no pattern distortion on curves». Иногда помогает лёгкая деформация по сетке до генерации — меньше «плясок» на выходе. — Руки «ломаются» при захвате тюбика. Маска + уточнение «realistic finger articulation», иногда меняю ракурс — полуповорот даёт чище. — Фон крадёт внимание. Правлю насыщенность фона минус 10–15%, в промпте добавляю «background slightly desaturated».

Мини-чеклист перед генерацией

  1. Снял шум с исходников, почистил фон.
  2. Промпт перевёл на английский, убрал лишние слова.
  3. Маски аккуратные: бретельки, пальцы, контуры горлышка тюбика.
  4. Длина 5–10 секунд, соотношение сторон под площадку.
  5. Вышло — проверил три точки: свет, руки, швы/узор.

Пара моих историй

Первый проект с платьем я завалил: бретелька «вылетала» из плеча, а узор собирался в «ромб» на талии. Спасла комбинация двух мелочей: вручную дорисовал маску и добавил в промпт «no fabric warping on waist». Со второй итерации ткань легла как надо. С кремом другая история: красивый голубой тюбик «дрался» с тёплым фоном. Сначала пытался «жёстко» прописать цвет в промпте, но лучше сработало простое решение — сменил фон на холодный и уточнил «color harmony with product palette». Пальцы перестали выглядеть пластиковыми — и сцена «поехала». С заменой персонажа я долго воевал с перспективой: модель «висела» над полом. Решение оказалось не в промпте, а в масштабе: на 3–5% уменьшил героя и сместил точку опоры — тень легла правильно, кадр собрался.

Полезные формулы промптов, которые у меня стабильно стреляют — Платье и вилла: “Woman wearing the reference dress by a palm-lined villa; exact match to the reference fabric and straps; slow dolly-in; soft golden-hour lighting; no text.” — Крем в руках: “The red-haired woman from the first image presents the blue hand-cream from the second image to camera; realistic grip; center framing; neutral wall background; subtle depth of field.” — Замена персонажа у стиральной машины: “Take the woman from image #1 and place her into the scene from image #2; she leans on the washing machine; match light direction and shadow length; keep hairstyle and facial features unchanged.” — Врач восточной медицины: “Young male doctor in a white coat in a clean clinic interior; calm, confident delivery; natural white lighting; no captions or logos.”

Стратегия для быстрого теста гипотез

Я никогда не гоняю сразу десяток вариантов по высоким настройкам. Сначала делаю «черновик» на средней детализации, смотрю проблемные зоны, правлю промпт/маски — и только потом вывожу финал. Это экономит кредиты и время. В креативных проектах с нейросетями скорость итераций важнее «идеала с первого раза».

Куда здесь вписываются нейросети по ролям — ChatGPT и GPT — формулируют чёткие, «операторские» задачи, помогают переводить замысел в язык понятных инструкций. — Midjourney — создаёт чистые, стильные референсы фона и помогает держать палитру. — Veo — добавляет микродвижение, дыхание и уверенный взгляд; нужен там, где статике не хватает жизни. — Suno — собирает аккуратный музыкальный фон на 6–10 секунд, который сочетается с товаром.

Почему это работает на рынке?

Бренду важны узнаваемость, скорость и контроль. Нейросети дают вариативность и предсказуемость: мы не зависим от локаций и погод, а сцены повторяемы. Для создания контента с ИИ это ключевой плюс: быстрее тестируем гипотезы, раньше видим конверсию, дешевле масштабируем.

Если собрать исходники, грамотно разметить маски и говорить с нейросетями на их языке, «магия» становится рутиной — в хорошем смысле. Три картинки, пара точных промптов и немного дисциплины превращают идею в ролик, который не стыдно показывать клиенту. Попробуйте сегодня один из сценариев выше и сравните с тем, как вы делали это раньше. Если было полезно — подписывайтесь, впереди ещё больше разборов про нейросети, создание контента с ИИ и практические кейсы для ваших креативных проектов с нейросетями.