A/B-тестирование в рекламе работает только при правильной методологии. Большинство «тестов» на рынке — это запустили два креатива на 3 дня, посмотрели на CTR и решили, что один лучше. С точки зрения статистики, это решение случайное.
Гайд закрывает практическую сторону: как формулировать гипотезу, считать выборку, понимать значимость и принимать решения, которые реально работают.
Что такое A/B-тест
A/B-тест — сравнение двух (или более) вариантов на одинаковой аудитории в одинаковых условиях для определения, какой вариант эффективнее по выбранной метрике.
Простой пример:
- Вариант A: креатив с заголовком «Аудит маркетинга за 3 дня»
- Вариант B: креатив с заголовком «Бесплатный AI-разбор маркетинга»
- Метрика: CTR (или конверсия в форму)
- Выборка: одинаковый бюджет, одинаковая аудитория
- Результат: B имеет CTR 3,8%, A — 2,2% при p-value 0,02 → B статистически лучше
Что можно и нужно тестировать
В рекламных объявлениях
- Заголовок (1-3 слова разница часто даёт +30% CTR)
- Картинка/креатив
- Призыв к действию (CTA)
- Цена/бесплатно/в скобках
- Эмодзи/без эмодзи
- Социальное доказательство (отзывы, цифры)
На посадочных страницах
- H1 заголовок
- Главное изображение/видео
- Расположение и текст CTA
- Длина страницы
- Форма (количество полей)
- Социальное доказательство
В рекламных кампаниях
- Аудитория (look-alike vs интересы vs ретаргет)
- Стратегия ставок (ручная vs автоматическая)
- Формат (баннер vs карусель vs видео)
- Время и день показа
Анатомия правильного A/B-теста
Шаг 1. Гипотеза
Не «давайте попробуем» — а конкретное утверждение с обоснованием.
Слабо: «Тестируем два заголовка»
Сильно: «Гипотеза: заголовок с упоминанием бесплатности (B) даст CTR на 25% выше, чем без (A), потому что аудитория малого B2B чувствительна к стоимости первого касания. Если подтвердится — масштабируем формат на все кампании AI-разбора».
Шаг 2. Выбор главной метрики
Одна метрика, по которой принимается решение. Дополнительные — для контекста.
Пример главных метрик для разных уровней:
- Креатив: CTR
- Объявление + лендинг: CR в форму
- Полная кампания: CPL (стоимость лида) или CPA (стоимость сделки)
Опасность: оптимизировать на CTR, забыть про конверсию. Креатив может иметь высокий CTR, но привлекать нерелевантных, и итоговый CPL — хуже.
Принимайте решение по метрике, ближайшей к деньгам (CPL/CPA), а не по верхней (CTR).
Шаг 3. Расчёт выборки
Это критично. Малая выборка = случайный результат.
Формула (упрощённая, для CTR/CR):
n = (Z_α/2 + Z_β)² × 2 × p × (1 − p) / d²
Где:
n— выборка на каждый вариантZ_α/2— для 95% значимости = 1,96Z_β— для 80% мощности = 0,84p— базовая конверсия (например, 0,04 для 4%)d— минимальная детектируемая разница (0,008 для +0,8 п.п.)
В жизни используется онлайн-калькулятор (Optimizely Sample Size Calculator, ABTestGuide). Достаточно ввести базовую конверсию и ожидаемую разницу.
Практические бенчмарки:
| Базовый CTR | Ожидаемый прирост | Выборка на вариант |
|---|---|---|
| 2% | +25% (до 2,5%) | 13 000 показов |
| 4% | +25% (до 5%) | 6 500 показов |
| 8% | +25% (до 10%) | 3 200 показов |
| 4% | +50% (до 6%) | 1 700 показов |
То есть для теста 2 креативов с базой CTR 4% и ожиданием +25% — нужно 13 000 показов на каждый = 26 000 суммарно. При CPC 30 ₽ и CTR 4% это около 1040 кликов = ~31 000 ₽ бюджета.
Если бюджет тестирования меньше — снижайте уровень значимости (до 90%) или увеличивайте детектируемую разницу.
Шаг 4. Запуск
Условия:
- Одинаковая аудитория для обоих вариантов
- Одинаковый бюджет/распределение трафика 50/50
- Один период (без перекосов по дням)
- Минимум 7 дней (захват полной недели)
- Без других изменений в кампании за время теста
Технически:
- В Яндекс Директе — через эксперименты с разделением по сегментам Метрики
- В VK Ads — через дублирование объявлений в одной группе
- На сайте — через сервисы (Google Optimize до закрытия, Convert.com, VWO, Yandex Опыты)
Шаг 5. Анализ результата
Не смотрите на абсолютные числа. Смотрите на:
Statistical significance: p-value < 0.05 (95% confidence). Использовать калькулятор (например, AB Testing Calculator на сайте Mindbox).
Practical significance: разница достаточно большая, чтобы её было выгодно внедрять. +0,1% CTR может быть статистически значим, но не оправдывает усилий по внедрению на 200 объявлений.
Sample size adequacy: достигнута ли расчётная выборка. Часто тесты досрочно «решают», что вариант B лучше — но выборка ещё не достигнута, и результат может перевернуться.
Шаг 6. Решение
Три возможных исхода:
- B статистически значимо лучше → внедряем B
- A значимо лучше → оставляем A, формулируем новую гипотезу
- Разницы нет (или незначима) → оставляем существующее (А) или формулируем новую гипотезу
Никаких «B немного лучше, давайте оставим B». Это путь к накоплению ложных решений.
Топ ошибок A/B-тестирования
1. Останавливают тест досрочно
«За 3 дня B уже на 30% лучше — внедряем!» — типичная ошибка. На малых выборках разница 30% может быть случайной. Жди до достижения расчётной выборки + минимум 7 дней.
2. Тестируют сразу 5+ вариантов без увеличения выборки
5 вариантов = в 5 раз больше выборка. Иначе не достигнете значимости ни в одной паре сравнений.
3. Меняют условия по ходу теста
Изменили ставку, добавили минус-слова, поменяли аудиторию — тест испорчен. Сравнение невалидно.
4. Не фиксируют гипотезу заранее
Запустили тест → посмотрели на результаты → нашли «победителя» → придумали гипотезу под результат. Это не A/B-тест, это p-hacking. Гипотеза должна быть до запуска.
5. Игнорируют sequence effects
Посетитель видит вариант A в понедельник, вариант B во вторник. На вторник он уже «прогрет» — конверсия выше не из-за креатива, а из-за повторного контакта.
Решение: разделение по cookie/IP, чтобы каждый видел только один вариант на весь тест.
6. Тестируют слишком мелкие изменения
«Точка в конце CTA или нет» — да, это можно тестить, но эффект будет 1-3% максимум, и нужны огромные выборки. Тестируйте сильные гипотезы с ожидаемой разницей 20-50%.
7. Не учитывают сезонность
Тест в декабре в B2B даёт совсем другой результат, чем в марте. Если можете — тестируйте в стандартный период.
Инструменты по платформам
Яндекс Директ — Эксперименты в Яндекс Метрике
В Метрике создаётся эксперимент → распределяется трафик по сегментам → в каждой кампании Директа задаётся условие сегмента. Метрика автоматически считает значимость.
Подходит для тестирования посадок, креативов, стратегий ставок.
VK Ads
Встроенный A/B-тест в кабинете. Создаёшь объявление, дублируешь, меняешь один элемент. VK сам распределяет показы 50/50 в одной группе.
Telegram Ads
Нет встроенного инструмента. Запускаешь два объявления параллельно с одинаковой аудиторией и бюджетом. Анализируешь вручную.
Сайт (посадки и формы)
- Yandex Опыты — встроенный в Метрику бесплатный сплит-тест
- VWO, Convert.com — платные SaaS с продвинутыми функциями
- Optimizely — крупный игрок, для энтерпрайза
- Самописные решения — A/B на feature-flags для разработчиков
Чек-лист перед запуском теста
- Гипотеза сформулирована конкретно и письменно
- Выбрана главная метрика (одна)
- Рассчитана выборка через калькулятор
- Бюджет на достижение выборки заложен
- Период запуска без сезонных шумов
- Технически разделение трафика 50/50
- Все остальные параметры зафиксированы
- Минимальная длительность 7 дней
- Критерий принятия решения определён (p-value, размер эффекта)
Что после положительного теста
Не «запустили B вместо A и забыли». Хороший процесс:
1. Документация: записали гипотезу, метрики, результат, решение.
2. Внедрение: B становится новой базой («контролем»).
3. Следующий тест: новая гипотеза против B.
4. Накопление инсайтов: через 6-12 тестов формируется паттерн «что работает в нашей нише».
A/B-тестирование — это итеративный процесс. Один удачный тест — повод для следующего.
Реалистичные ожидания
Из 10 запущенных гипотез:
- 4-5 не дадут значимости (выборка мала, гипотеза слабая)
- 2-3 покажут, что вариант B хуже (учимся на этом)
- 2-3 покажут реальный прирост 10-30%
- 1 (если повезёт) даст прирост 50%+
Это норма. «99% тестов работают» — это либо лажа, либо p-hacking.
Когда A/B-тестирование не нужно
- Объёмы трафика слишком малы (выборка не достижима за разумное время)
- Изменение структурное (нельзя протестить «новый продукт vs старый»)
- Гипотеза очевидна (нет смысла тестить, нужно ли вообще ставить картинку)
- Нет ресурсов на статистику и анализ
В этих случаях лучше принять решение на основе экспертизы и наблюдений.
A/B-тестирование — это методология, а не магия
Правильное A/B-тестирование требует дисциплины: гипотезы, выборки, значимости, документации. Без этого «тестирование» превращается в трату бюджета на угадывание.
Если хотите выстроить процесс A/B-тестирования рекламы и сайта в вашем бизнесе — это входит в наш пакет «Поток заявок». Делаем гипотезы, запуск, аналитику и итерации.