A/B-тестирование в рекламе работает только при правильной методологии. Большинство «тестов» на рынке — это запустили два креатива на 3 дня, посмотрели на CTR и решили, что один лучше. С точки зрения статистики, это решение случайное.

Гайд закрывает практическую сторону: как формулировать гипотезу, считать выборку, понимать значимость и принимать решения, которые реально работают.

Что такое A/B-тест

A/B-тест — сравнение двух (или более) вариантов на одинаковой аудитории в одинаковых условиях для определения, какой вариант эффективнее по выбранной метрике.

Простой пример:

  • Вариант A: креатив с заголовком «Аудит маркетинга за 3 дня»
  • Вариант B: креатив с заголовком «Бесплатный AI-разбор маркетинга»
  • Метрика: CTR (или конверсия в форму)
  • Выборка: одинаковый бюджет, одинаковая аудитория
  • Результат: B имеет CTR 3,8%, A — 2,2% при p-value 0,02 → B статистически лучше

Что можно и нужно тестировать

В рекламных объявлениях

  • Заголовок (1-3 слова разница часто даёт +30% CTR)
  • Картинка/креатив
  • Призыв к действию (CTA)
  • Цена/бесплатно/в скобках
  • Эмодзи/без эмодзи
  • Социальное доказательство (отзывы, цифры)

На посадочных страницах

  • H1 заголовок
  • Главное изображение/видео
  • Расположение и текст CTA
  • Длина страницы
  • Форма (количество полей)
  • Социальное доказательство

В рекламных кампаниях

  • Аудитория (look-alike vs интересы vs ретаргет)
  • Стратегия ставок (ручная vs автоматическая)
  • Формат (баннер vs карусель vs видео)
  • Время и день показа

Анатомия правильного A/B-теста

Шаг 1. Гипотеза

Не «давайте попробуем» — а конкретное утверждение с обоснованием.

Слабо: «Тестируем два заголовка»

Сильно: «Гипотеза: заголовок с упоминанием бесплатности (B) даст CTR на 25% выше, чем без (A), потому что аудитория малого B2B чувствительна к стоимости первого касания. Если подтвердится — масштабируем формат на все кампании AI-разбора».

Шаг 2. Выбор главной метрики

Одна метрика, по которой принимается решение. Дополнительные — для контекста.

Пример главных метрик для разных уровней:

  • Креатив: CTR
  • Объявление + лендинг: CR в форму
  • Полная кампания: CPL (стоимость лида) или CPA (стоимость сделки)

Опасность: оптимизировать на CTR, забыть про конверсию. Креатив может иметь высокий CTR, но привлекать нерелевантных, и итоговый CPL — хуже.

Принимайте решение по метрике, ближайшей к деньгам (CPL/CPA), а не по верхней (CTR).

Шаг 3. Расчёт выборки

Это критично. Малая выборка = случайный результат.

Формула (упрощённая, для CTR/CR):

n = (Z_α/2 + Z_β)² × 2 × p × (1 − p) / d²

Где:

  • n — выборка на каждый вариант
  • Z_α/2 — для 95% значимости = 1,96
  • Z_β — для 80% мощности = 0,84
  • p — базовая конверсия (например, 0,04 для 4%)
  • d — минимальная детектируемая разница (0,008 для +0,8 п.п.)

В жизни используется онлайн-калькулятор (Optimizely Sample Size Calculator, ABTestGuide). Достаточно ввести базовую конверсию и ожидаемую разницу.

Практические бенчмарки:

Базовый CTR Ожидаемый прирост Выборка на вариант
2% +25% (до 2,5%) 13 000 показов
4% +25% (до 5%) 6 500 показов
8% +25% (до 10%) 3 200 показов
4% +50% (до 6%) 1 700 показов

То есть для теста 2 креативов с базой CTR 4% и ожиданием +25% — нужно 13 000 показов на каждый = 26 000 суммарно. При CPC 30 ₽ и CTR 4% это около 1040 кликов = ~31 000 ₽ бюджета.

Если бюджет тестирования меньше — снижайте уровень значимости (до 90%) или увеличивайте детектируемую разницу.

Шаг 4. Запуск

Условия:

  • Одинаковая аудитория для обоих вариантов
  • Одинаковый бюджет/распределение трафика 50/50
  • Один период (без перекосов по дням)
  • Минимум 7 дней (захват полной недели)
  • Без других изменений в кампании за время теста

Технически:

  • В Яндекс Директе — через эксперименты с разделением по сегментам Метрики
  • В VK Ads — через дублирование объявлений в одной группе
  • На сайте — через сервисы (Google Optimize до закрытия, Convert.com, VWO, Yandex Опыты)

Шаг 5. Анализ результата

Не смотрите на абсолютные числа. Смотрите на:

Statistical significance: p-value < 0.05 (95% confidence). Использовать калькулятор (например, AB Testing Calculator на сайте Mindbox).

Practical significance: разница достаточно большая, чтобы её было выгодно внедрять. +0,1% CTR может быть статистически значим, но не оправдывает усилий по внедрению на 200 объявлений.

Sample size adequacy: достигнута ли расчётная выборка. Часто тесты досрочно «решают», что вариант B лучше — но выборка ещё не достигнута, и результат может перевернуться.

Шаг 6. Решение

Три возможных исхода:

  1. B статистически значимо лучше → внедряем B
  2. A значимо лучше → оставляем A, формулируем новую гипотезу
  3. Разницы нет (или незначима) → оставляем существующее (А) или формулируем новую гипотезу

Никаких «B немного лучше, давайте оставим B». Это путь к накоплению ложных решений.

Топ ошибок A/B-тестирования

1. Останавливают тест досрочно

«За 3 дня B уже на 30% лучше — внедряем!» — типичная ошибка. На малых выборках разница 30% может быть случайной. Жди до достижения расчётной выборки + минимум 7 дней.

2. Тестируют сразу 5+ вариантов без увеличения выборки

5 вариантов = в 5 раз больше выборка. Иначе не достигнете значимости ни в одной паре сравнений.

3. Меняют условия по ходу теста

Изменили ставку, добавили минус-слова, поменяли аудиторию — тест испорчен. Сравнение невалидно.

4. Не фиксируют гипотезу заранее

Запустили тест → посмотрели на результаты → нашли «победителя» → придумали гипотезу под результат. Это не A/B-тест, это p-hacking. Гипотеза должна быть до запуска.

5. Игнорируют sequence effects

Посетитель видит вариант A в понедельник, вариант B во вторник. На вторник он уже «прогрет» — конверсия выше не из-за креатива, а из-за повторного контакта.

Решение: разделение по cookie/IP, чтобы каждый видел только один вариант на весь тест.

6. Тестируют слишком мелкие изменения

«Точка в конце CTA или нет» — да, это можно тестить, но эффект будет 1-3% максимум, и нужны огромные выборки. Тестируйте сильные гипотезы с ожидаемой разницей 20-50%.

7. Не учитывают сезонность

Тест в декабре в B2B даёт совсем другой результат, чем в марте. Если можете — тестируйте в стандартный период.

Инструменты по платформам

Яндекс Директ — Эксперименты в Яндекс Метрике

В Метрике создаётся эксперимент → распределяется трафик по сегментам → в каждой кампании Директа задаётся условие сегмента. Метрика автоматически считает значимость.

Подходит для тестирования посадок, креативов, стратегий ставок.

VK Ads

Встроенный A/B-тест в кабинете. Создаёшь объявление, дублируешь, меняешь один элемент. VK сам распределяет показы 50/50 в одной группе.

Telegram Ads

Нет встроенного инструмента. Запускаешь два объявления параллельно с одинаковой аудиторией и бюджетом. Анализируешь вручную.

Сайт (посадки и формы)

  • Yandex Опыты — встроенный в Метрику бесплатный сплит-тест
  • VWO, Convert.com — платные SaaS с продвинутыми функциями
  • Optimizely — крупный игрок, для энтерпрайза
  • Самописные решения — A/B на feature-flags для разработчиков

Чек-лист перед запуском теста

  • Гипотеза сформулирована конкретно и письменно
  • Выбрана главная метрика (одна)
  • Рассчитана выборка через калькулятор
  • Бюджет на достижение выборки заложен
  • Период запуска без сезонных шумов
  • Технически разделение трафика 50/50
  • Все остальные параметры зафиксированы
  • Минимальная длительность 7 дней
  • Критерий принятия решения определён (p-value, размер эффекта)

Что после положительного теста

Не «запустили B вместо A и забыли». Хороший процесс:

1. Документация: записали гипотезу, метрики, результат, решение.

2. Внедрение: B становится новой базой («контролем»).

3. Следующий тест: новая гипотеза против B.

4. Накопление инсайтов: через 6-12 тестов формируется паттерн «что работает в нашей нише».

A/B-тестирование — это итеративный процесс. Один удачный тест — повод для следующего.

Реалистичные ожидания

Из 10 запущенных гипотез:

  • 4-5 не дадут значимости (выборка мала, гипотеза слабая)
  • 2-3 покажут, что вариант B хуже (учимся на этом)
  • 2-3 покажут реальный прирост 10-30%
  • 1 (если повезёт) даст прирост 50%+

Это норма. «99% тестов работают» — это либо лажа, либо p-hacking.

Когда A/B-тестирование не нужно

  • Объёмы трафика слишком малы (выборка не достижима за разумное время)
  • Изменение структурное (нельзя протестить «новый продукт vs старый»)
  • Гипотеза очевидна (нет смысла тестить, нужно ли вообще ставить картинку)
  • Нет ресурсов на статистику и анализ

В этих случаях лучше принять решение на основе экспертизы и наблюдений.

A/B-тестирование — это методология, а не магия

Правильное A/B-тестирование требует дисциплины: гипотезы, выборки, значимости, документации. Без этого «тестирование» превращается в трату бюджета на угадывание.

Если хотите выстроить процесс A/B-тестирования рекламы и сайта в вашем бизнесе — это входит в наш пакет «Поток заявок». Делаем гипотезы, запуск, аналитику и итерации.