Upload
pcamprussia
View
556
Download
2
Embed Size (px)
Citation preview
Культура A/B тестов
,1
Что бывает• "Ну я же говорил"
• "Вот, надо было делать так как я сказал"
• "А давайте попробуем вот это, а это пробовать не будем?"
• "Я точно знаю что нужно именно так"
Или же просто упёрлись: какие ещё сделать фичи – не знаем, но конверсию растить надо.
,2
Что такое A/B?
• Части аудитории показываем одно, части - другое (в нашем случае - "новое" и "старое")
• Считаем показатели - конверсию, клики и т.п.
• Выбираем то, что имеет лучшие показатели – те, которые нам интересны.
,3
А также
А если нечего выбирать? Тогда либо ждём ещё, либо выбираем то, что больше нравится.
,4
Если что – то я не настоящий сварщик, и я часто просто знаю где можно посмотреть.
Математика• На самом деле, правильный A/B тест показывает что "с такой-то вероятностью вариант А работает на Х% лучше чем вариант B"
• Но часто на это забивают - считают например CTR при небольшом количестве попыток. Ну и ладно ))
• Есть формулы, всё это растёт из статистики. Например, для того чтобы с 80% вероятностью увидеть изменение на 5 и более процентов - нужно порядка 1200 измерений.
• Да, чем больше экспериментов – тем лучше результат.
,5
КультураПравило: каждое изменение на сайте должно проходить через A/B тест. То есть надо сравнивать показатели "с фичей" и "без фичи"
Да, любое новое на сайте должно внедряться только после AB теста.
На самом деле – втаскивать культуру долго и нудно. Но оно этого стоит.
,6
Что это даёт• Мы знаем в количественных мерках что даёт то или иное изменение. То есть - перекрашивание кнопки из красной в зелёную дало 5% уменьшения продаж
• И это знание стоит достаточно дорого
,7
Например• "Петя сделал вот эту хрень и у нас продажи поднялись на 2%". (Или не поднялись.)
• Благодаря X, Y и Z мы выросли на такие-то показатели. А благодаря своевременному выключению A, B, и С - не упали.
,8
И неожиданно• "Товарищ продакт, вот тебе два макета, я не знаю какой лучше"
• "-А можно я сделаю вот эту хрень, это же круто? - Можно, вот тебе 10% аудитории на опыты"
• Т.к. умеем измерять – то порог "go" на фичи становится ниже: если не будет работать, то просто выкинем, и всё.
• Да, работаем медленнее, но результаты осязаемее.
,9
Ещё математика• Разные эксперименты влияют друг на друга. То есть лучше одному пользователю показывать _только_ один эксперимент. Но правда трафика на это не напасёшься.
• Лучше измерять всю воронку - часто бывает что показатели второго шага сильно проседают, а третьего – очень сильно вырастают. И наоборот ))
• Первые дни статистика разъезжается, нельзя смотреть на "45% увеличения", если уровень доверия маленький.
,10
Что делать• Отдельный каталог всех AB тестов – идущих и прошедших (Это, на самом деле, достаточно муторная работа. Зато мы знаем что заработало, что не заработало - с картинками и цифрами.)
• Отдельная страница со всеми пожеланиями. Начиная от "давайте перекрасим кнопку" и заканчивая бизнес фичами. Бизнес фичи - нужны для планирования.
И отдельная роль, которая за этим следит. ,11
Что делать• Регулярное ревью списка задач - постановка в план на разработку
• Регулярные ревью результатов - с публичными результатами (письмо на all@ например)
• Результаты и прогресс должны быть публичными, простыми для понимания и легко доступными (впрочем, это вообще можно сказать про многое)
• Привязывание достижений в цифрах к результатам работы сотрудников. Хотя бы просто как "Спасибо Пете за 2% к конверсии".
,12
Что сложного• Не все понимают что это важно. Вообще, кажется это вопрос веры.
• Сделать два лендинга в полтора-два раза сложнее чем сделать один лендинг.
• Кто-то зажигается, кто-то нет.
• Статистика сложная, результатов много
• Результата надо ждать.
• В коде появляется куча if'ов, надо не забывать вычищать.
,13
Инструментарий• Django-lean, например, нам не подошёл.
• Инструмент должен быть простой для пользования: можно легко посмотреть статистику, можно легко посмотреть на текущие эксперименты, можно посмотреть как выглядит каждый эксперимент.
• Нужно чтобы весь тест мог быть сделан одним программистом.
• Данных - много. Особенно если считать показатели воронки. Инструмент должен уметь это переваривать.
• Отдельные задачи на изготовление фичи, отдельные на убирание или на оставление.
Скорее всего - один FTE только на инструментарий.,14
Инструментарий• Есть какие-то тулзы, бесплатные, дешёвые и не очень дешёвые – но всё равно пришлось писать своё.
• Гугловый инструмент годится чтобы менять тексты на лендингах (т.е. это целиком для клиентской части).
• Хотя известны компании, которые AB тесты ведут в Google Analytics.
• У букинг.ком список клиентских тестов с выразительными названиями зашит в js плейнтекстом ))
,15
Что можно измерять• Баннеры с блондинками vs баннеры с брюнетками. Два разных телефона - на какой больше звонят.
• Страницы лендингов – "а давайте подвинем эту фигнюшку на два пикселя правее и посмотрим как это повлияет". (Ну, если полгода подождать)
• "Пользователи, которые видели Х - как влияет это на результат"
Блондинки лучше.
,16
Что конкретно• Поставить счётчики на каждый шаг в воронке.
• Когда человек проходит этот шаг воронки и он участвует в определённом эксперименте – начинать считать его действия дальше в воронке. (Т.е. не путать на втором шаге воронки людей, пришедших с лендинга и людей пришедших с первого шага)
• Считать сессии, а не людей.
,17
Из опыта• Дизайнеры перестали спорить.
• Дизайнеры начали приносить по два макета.
• Разработчики начали придумывать и делать тесты сами
• Увеличился порог толерантности к глупым пожеланиям – можно сделать и посмотреть, а вдруг?
• Нет больше "А я же говорил". (Ну, кроме откровенно глупых пожеланий)) )
• Не все зажглись. ((
• Гендиру можно в цифрах доказать что чёрный цвет фона – гавно ))
,18
Упрощаем• Забиваем на корелляцию
• Забиваем на "один пользователь – один тест"
• Вся аудитория участвует в тестировании – 50/50
• Верим в 5% улучшения при 80% уверенности
• Тупо считаем конверсию, заказы – ничего больше.
,19
Зато хоть что-то происходит
Если очень хочется• Можно считать транзакции в штуках, а можно в деньгах. А можно - вообще в комиссии.
• Можно заморочиться на канал, откуда пришёл пользователь и делать отдельные тесты для отдельных каналов.
• Можно делать ABC тесты и смотреть какой тест на что влияет – считать корелляцию и т.п.
,20
Это вера• И она требует евангелизма.
• Например - мы обязаны сделать Х тестов на каждой неделе
• Например - каждый раз на продакшене должно работать Х тестов
• И вообще – веру надо прививать иногда и силой.
• Быстро – не получится, граблей будет много, но это стоит того, чтобы делать.
,21
Если интересно - 40 минут на почитать:
http://elem.com/~btilly/effective-ab-testing/
Денис Танаев
А по вопросам тревела - [email protected]
twitter.com/deetan
+7 903 599 5555
,22