Какая минимальная выборка нужна для A/B-теста?

Зависит от ожидаемой разницы. Для теста 2 креативов с ожидаемой разницей CTR в 20% (с 4% до 4,8%) нужно минимум 4-6 тысяч показов на каждый вариант. Для разницы в 10% — 16-25 тысяч на вариант. Меньше — статистическая значимость не достигнется, и любой результат будет случайным.

Как долго должен идти A/B-тест?

Минимум 1 полная неделя (захватить выходные и будни). Оптимум — 2 недели. Максимум — 4 недели (дальше начинаются внешние факторы: сезонность, конкуренция, изменения рынка). Если за 2 недели не накопилась статистическая значимость — выборка слишком мала, тест надо переформулировать.

Что такое статистическая значимость?

Это вероятность, что разница между вариантами не случайна. В рекламе используют доверительный интервал 95% (p-value < 0.05). Это значит: вероятность ошибки — менее 5%. Для маркетинга достаточно 90-95%. Для медицины и финансов нужно 99%+. Без значимости — это не результат теста, а гадание.

Можно ли тестировать несколько элементов одновременно?

Если ставите 4 креатива (A/B/C/D) — это всё ещё A/B (точнее A/B/C/D). Если меняете в каждом по 3 элемента — это уже мультивариантный тест (MVT), требующий выборки в 3-5 раз больше. Лучше разбить на серию A/B-тестов: сначала найти лучший заголовок, потом картинку, потом CTA.

A/B-тестирование рекламы: методология, выборка, инструменты в 2026

Q: Можно ли тестировать несколько элементов одновременно?

Если ставите 4 креатива (A/B/C/D) — это всё ещё A/B (точнее A/B/C/D). Если меняете в каждом по 3 элемента — это уже мультивариантный тест (MVT), требующий выборки в 3-5 раз больше. Лучше разбить на серию A/B-тестов: сначала найти лучший заголовок, потом картинку, потом CTA.

A/B-тестирование в рекламе работает только при правильной методологии. Большинство «тестов» на рынке — это запустили два креатива на 3 дня, посмотрели на CTR и решили, что один лучше. С точки зрения статистики, это решение случайное.

Гайд закрывает практическую сторону: как формулировать гипотезу, считать выборку, понимать значимость и принимать решения, которые реально работают.

Что такое A/B-тест

A/B-тест — сравнение двух (или более) вариантов на одинаковой аудитории в одинаковых условиях для определения, какой вариант эффективнее по выбранной метрике.

Простой пример:

Вариант A: креатив с заголовком «Аудит маркетинга за 3 дня»
Вариант B: креатив с заголовком «Бесплатный AI-разбор маркетинга»
Метрика: CTR (или конверсия в форму)
Выборка: одинаковый бюджет, одинаковая аудитория
Результат: B имеет CTR 3,8%, A — 2,2% при p-value 0,02 → B статистически лучше

Что можно и нужно тестировать

В рекламных объявлениях

Заголовок (1-3 слова разница часто даёт +30% CTR)
Картинка/креатив
Призыв к действию (CTA)
Цена/бесплатно/в скобках
Эмодзи/без эмодзи
Социальное доказательство (отзывы, цифры)

На посадочных страницах

H1 заголовок
Главное изображение/видео
Расположение и текст CTA
Длина страницы
Форма (количество полей)
Социальное доказательство

В рекламных кампаниях

Аудитория (look-alike vs интересы vs ретаргет)
Стратегия ставок (ручная vs автоматическая)
Формат (баннер vs карусель vs видео)
Время и день показа

Анатомия правильного A/B-теста

Шаг 1. Гипотеза

Не «давайте попробуем» — а конкретное утверждение с обоснованием.

Слабо: «Тестируем два заголовка»

Сильно: «Гипотеза: заголовок с упоминанием бесплатности (B) даст CTR на 25% выше, чем без (A), потому что аудитория малого B2B чувствительна к стоимости первого касания. Если подтвердится — масштабируем формат на все кампании AI-разбора».

Шаг 2. Выбор главной метрики

Одна метрика, по которой принимается решение. Дополнительные — для контекста.

Пример главных метрик для разных уровней:

Креатив: CTR
Объявление + лендинг: CR в форму
Полная кампания: CPL (стоимость лида) или CPA (стоимость сделки)

Опасность: оптимизировать на CTR, забыть про конверсию. Креатив может иметь высокий CTR, но привлекать нерелевантных, и итоговый CPL — хуже.

Принимайте решение по метрике, ближайшей к деньгам (CPL/CPA), а не по верхней (CTR).

Шаг 3. Расчёт выборки

Это критично. Малая выборка = случайный результат.

Формула (упрощённая, для CTR/CR):

n = (Z_α/2 + Z_β)² × 2 × p × (1 − p) / d²

Где:

n — выборка на каждый вариант
Z_α/2 — для 95% значимости = 1,96
Z_β — для 80% мощности = 0,84
p — базовая конверсия (например, 0,04 для 4%)
d — минимальная детектируемая разница (0,008 для +0,8 п.п.)

В жизни используется онлайн-калькулятор (Optimizely Sample Size Calculator, ABTestGuide). Достаточно ввести базовую конверсию и ожидаемую разницу.

Практические бенчмарки:

Базовый CTR	Ожидаемый прирост	Выборка на вариант
2%	+25% (до 2,5%)	13 000 показов
4%	+25% (до 5%)	6 500 показов
8%	+25% (до 10%)	3 200 показов
4%	+50% (до 6%)	1 700 показов

То есть для теста 2 креативов с базой CTR 4% и ожиданием +25% — нужно 13 000 показов на каждый = 26 000 суммарно. При CPC 30 ₽ и CTR 4% это около 1040 кликов = ~31 000 ₽ бюджета.

Если бюджет тестирования меньше — снижайте уровень значимости (до 90%) или увеличивайте детектируемую разницу.

Шаг 4. Запуск

Условия:

Одинаковая аудитория для обоих вариантов
Одинаковый бюджет/распределение трафика 50/50
Один период (без перекосов по дням)
Минимум 7 дней (захват полной недели)
Без других изменений в кампании за время теста

Технически:

В Яндекс Директе — через эксперименты с разделением по сегментам Метрики
В VK Ads — через дублирование объявлений в одной группе
На сайте — через сервисы (Google Optimize до закрытия, Convert.com, VWO, Yandex Опыты)

Шаг 5. Анализ результата

Не смотрите на абсолютные числа. Смотрите на:

Statistical significance: p-value < 0.05 (95% confidence). Использовать калькулятор (например, AB Testing Calculator на сайте Mindbox).

Practical significance: разница достаточно большая, чтобы её было выгодно внедрять. +0,1% CTR может быть статистически значим, но не оправдывает усилий по внедрению на 200 объявлений.

Sample size adequacy: достигнута ли расчётная выборка. Часто тесты досрочно «решают», что вариант B лучше — но выборка ещё не достигнута, и результат может перевернуться.

Шаг 6. Решение

Три возможных исхода:

B статистически значимо лучше → внедряем B
A значимо лучше → оставляем A, формулируем новую гипотезу
Разницы нет (или незначима) → оставляем существующее (А) или формулируем новую гипотезу

Никаких «B немного лучше, давайте оставим B». Это путь к накоплению ложных решений.

Топ ошибок A/B-тестирования

1. Останавливают тест досрочно

«За 3 дня B уже на 30% лучше — внедряем!» — типичная ошибка. На малых выборках разница 30% может быть случайной. Жди до достижения расчётной выборки + минимум 7 дней.

2. Тестируют сразу 5+ вариантов без увеличения выборки

5 вариантов = в 5 раз больше выборка. Иначе не достигнете значимости ни в одной паре сравнений.

3. Меняют условия по ходу теста

Изменили ставку, добавили минус-слова, поменяли аудиторию — тест испорчен. Сравнение невалидно.

4. Не фиксируют гипотезу заранее

Запустили тест → посмотрели на результаты → нашли «победителя» → придумали гипотезу под результат. Это не A/B-тест, это p-hacking. Гипотеза должна быть до запуска.

5. Игнорируют sequence effects

Посетитель видит вариант A в понедельник, вариант B во вторник. На вторник он уже «прогрет» — конверсия выше не из-за креатива, а из-за повторного контакта.

Решение: разделение по cookie/IP, чтобы каждый видел только один вариант на весь тест.

6. Тестируют слишком мелкие изменения

«Точка в конце CTA или нет» — да, это можно тестить, но эффект будет 1-3% максимум, и нужны огромные выборки. Тестируйте сильные гипотезы с ожидаемой разницей 20-50%.

7. Не учитывают сезонность

Тест в декабре в B2B даёт совсем другой результат, чем в марте. Если можете — тестируйте в стандартный период.

Инструменты по платформам

Яндекс Директ — Эксперименты в Яндекс Метрике

В Метрике создаётся эксперимент → распределяется трафик по сегментам → в каждой кампании Директа задаётся условие сегмента. Метрика автоматически считает значимость.

Подходит для тестирования посадок, креативов, стратегий ставок.

VK Ads

Встроенный A/B-тест в кабинете. Создаёшь объявление, дублируешь, меняешь один элемент. VK сам распределяет показы 50/50 в одной группе.

Telegram Ads

Нет встроенного инструмента. Запускаешь два объявления параллельно с одинаковой аудиторией и бюджетом. Анализируешь вручную.

Сайт (посадки и формы)

Yandex Опыты — встроенный в Метрику бесплатный сплит-тест
VWO, Convert.com — платные SaaS с продвинутыми функциями
Optimizely — крупный игрок, для энтерпрайза
Самописные решения — A/B на feature-flags для разработчиков

Чек-лист перед запуском теста

Гипотеза сформулирована конкретно и письменно
Выбрана главная метрика (одна)
Рассчитана выборка через калькулятор
Бюджет на достижение выборки заложен
Период запуска без сезонных шумов
Технически разделение трафика 50/50
Все остальные параметры зафиксированы
Минимальная длительность 7 дней
Критерий принятия решения определён (p-value, размер эффекта)

Что после положительного теста

Не «запустили B вместо A и забыли». Хороший процесс:

1. Документация: записали гипотезу, метрики, результат, решение.

2. Внедрение: B становится новой базой («контролем»).

3. Следующий тест: новая гипотеза против B.

4. Накопление инсайтов: через 6-12 тестов формируется паттерн «что работает в нашей нише».

A/B-тестирование — это итеративный процесс. Один удачный тест — повод для следующего.

Реалистичные ожидания

Из 10 запущенных гипотез:

4-5 не дадут значимости (выборка мала, гипотеза слабая)
2-3 покажут, что вариант B хуже (учимся на этом)
2-3 покажут реальный прирост 10-30%
1 (если повезёт) даст прирост 50%+

Это норма. «99% тестов работают» — это либо лажа, либо p-hacking.

Когда A/B-тестирование не нужно

Объёмы трафика слишком малы (выборка не достижима за разумное время)
Изменение структурное (нельзя протестить «новый продукт vs старый»)
Гипотеза очевидна (нет смысла тестить, нужно ли вообще ставить картинку)
Нет ресурсов на статистику и анализ

В этих случаях лучше принять решение на основе экспертизы и наблюдений.

A/B-тестирование — это методология, а не магия

Правильное A/B-тестирование требует дисциплины: гипотезы, выборки, значимости, документации. Без этого «тестирование» превращается в трату бюджета на угадывание.

Если хотите выстроить процесс A/B-тестирования рекламы и сайта в вашем бизнесе — это входит в наш пакет «Поток заявок». Делаем гипотезы, запуск, аналитику и итерации.

A/B-тесты сплит-тестирование Яндекс Директ VK Ads статистическая значимость оптимизация рекламы