денис танаев (Mail.ru) втаскиваем культуру a-b тестов в организацию

Культура A/B тестов

,1

Что бывает• "Ну я же говорил"

• "Вот, надо было делать так как я сказал"

• "А давайте попробуем вот это, а это пробовать не будем?"

• "Я точно знаю что нужно именно так"

Или же просто упёрлись: какие ещё сделать фичи – не знаем, но конверсию растить надо.

,2

Что такое A/B?

• Части аудитории показываем одно, части - другое (в нашем случае - "новое" и "старое")

• Считаем показатели - конверсию, клики и т.п.

• Выбираем то, что имеет лучшие показатели – те, которые нам интересны.

,3

А также

А если нечего выбирать? Тогда либо ждём ещё, либо выбираем то, что больше нравится.

,4

Если что – то я не настоящий сварщик, и я часто просто знаю где можно посмотреть.

Математика• На самом деле, правильный A/B тест показывает что "с такой-то вероятностью вариант А работает на Х% лучше чем вариант B"

• Но часто на это забивают - считают например CTR при небольшом количестве попыток. Ну и ладно ))

• Есть формулы, всё это растёт из статистики. Например, для того чтобы с 80% вероятностью увидеть изменение на 5 и более процентов - нужно порядка 1200 измерений.

• Да, чем больше экспериментов – тем лучше результат.

,5

КультураПравило: каждое изменение на сайте должно проходить через A/B тест. То есть надо сравнивать показатели "с фичей" и "без фичи"

Да, любое новое на сайте должно внедряться только после AB теста.

На самом деле – втаскивать культуру долго и нудно. Но оно этого стоит.

,6

Что это даёт• Мы знаем в количественных мерках что даёт то или иное изменение. То есть - перекрашивание кнопки из красной в зелёную дало 5% уменьшения продаж

• И это знание стоит достаточно дорого

,7

Например• "Петя сделал вот эту хрень и у нас продажи поднялись на 2%". (Или не поднялись.)

• Благодаря X, Y и Z мы выросли на такие-то показатели. А благодаря своевременному выключению A, B, и С - не упали.

,8

И неожиданно• "Товарищ продакт, вот тебе два макета, я не знаю какой лучше"

• "-А можно я сделаю вот эту хрень, это же круто? - Можно, вот тебе 10% аудитории на опыты"

• Т.к. умеем измерять – то порог "go" на фичи становится ниже: если не будет работать, то просто выкинем, и всё.

• Да, работаем медленнее, но результаты осязаемее.

,9

Ещё математика• Разные эксперименты влияют друг на друга. То есть лучше одному пользователю показывать _только_ один эксперимент. Но правда трафика на это не напасёшься.

• Лучше измерять всю воронку - часто бывает что показатели второго шага сильно проседают, а третьего – очень сильно вырастают. И наоборот ))

• Первые дни статистика разъезжается, нельзя смотреть на "45% увеличения", если уровень доверия маленький.

,10

Что делать• Отдельный каталог всех AB тестов – идущих и прошедших (Это, на самом деле, достаточно муторная работа. Зато мы знаем что заработало, что не заработало - с картинками и цифрами.)

• Отдельная страница со всеми пожеланиями. Начиная от "давайте перекрасим кнопку" и заканчивая бизнес фичами. Бизнес фичи - нужны для планирования.

И отдельная роль, которая за этим следит. ,11

Что делать• Регулярное ревью списка задач - постановка в план на разработку

• Регулярные ревью результатов - с публичными результатами (письмо на all@ например)

• Результаты и прогресс должны быть публичными, простыми для понимания и легко доступными (впрочем, это вообще можно сказать про многое)

• Привязывание достижений в цифрах к результатам работы сотрудников. Хотя бы просто как "Спасибо Пете за 2% к конверсии".

,12

Что сложного• Не все понимают что это важно. Вообще, кажется это вопрос веры.

• Сделать два лендинга в полтора-два раза сложнее чем сделать один лендинг.

• Кто-то зажигается, кто-то нет.

• Статистика сложная, результатов много

• Результата надо ждать.

• В коде появляется куча if'ов, надо не забывать вычищать.

,13

Инструментарий• Django-lean, например, нам не подошёл.

• Инструмент должен быть простой для пользования: можно легко посмотреть статистику, можно легко посмотреть на текущие эксперименты, можно посмотреть как выглядит каждый эксперимент.

• Нужно чтобы весь тест мог быть сделан одним программистом.

• Данных - много. Особенно если считать показатели воронки. Инструмент должен уметь это переваривать.

• Отдельные задачи на изготовление фичи, отдельные на убирание или на оставление.

Скорее всего - один FTE только на инструментарий.,14

Инструментарий• Есть какие-то тулзы, бесплатные, дешёвые и не очень дешёвые – но всё равно пришлось писать своё.

• Гугловый инструмент годится чтобы менять тексты на лендингах (т.е. это целиком для клиентской части).

• Хотя известны компании, которые AB тесты ведут в Google Analytics.

• У букинг.ком список клиентских тестов с выразительными названиями зашит в js плейнтекстом ))

,15

Что можно измерять• Баннеры с блондинками vs баннеры с брюнетками. Два разных телефона - на какой больше звонят.

• Страницы лендингов – "а давайте подвинем эту фигнюшку на два пикселя правее и посмотрим как это повлияет". (Ну, если полгода подождать)

• "Пользователи, которые видели Х - как влияет это на результат"

Блондинки лучше.

,16

Что конкретно• Поставить счётчики на каждый шаг в воронке.

• Когда человек проходит этот шаг воронки и он участвует в определённом эксперименте – начинать считать его действия дальше в воронке. (Т.е. не путать на втором шаге воронки людей, пришедших с лендинга и людей пришедших с первого шага)

• Считать сессии, а не людей.

,17

Из опыта• Дизайнеры перестали спорить.

• Дизайнеры начали приносить по два макета.

• Разработчики начали придумывать и делать тесты сами

• Увеличился порог толерантности к глупым пожеланиям – можно сделать и посмотреть, а вдруг?

• Нет больше "А я же говорил". (Ну, кроме откровенно глупых пожеланий)) )

• Не все зажглись. ((

• Гендиру можно в цифрах доказать что чёрный цвет фона – гавно ))

,18

Упрощаем• Забиваем на корелляцию

• Забиваем на "один пользователь – один тест"

• Вся аудитория участвует в тестировании – 50/50

• Верим в 5% улучшения при 80% уверенности

• Тупо считаем конверсию, заказы – ничего больше.

,19

Зато хоть что-то происходит

Если очень хочется• Можно считать транзакции в штуках, а можно в деньгах. А можно - вообще в комиссии.

• Можно заморочиться на канал, откуда пришёл пользователь и делать отдельные тесты для отдельных каналов.

• Можно делать ABC тесты и смотреть какой тест на что влияет – считать корелляцию и т.п.

,20

Это вера• И она требует евангелизма.

• Например - мы обязаны сделать Х тестов на каждой неделе

• Например - каждый раз на продакшене должно работать Х тестов

• И вообще – веру надо прививать иногда и силой.

• Быстро – не получится, граблей будет много, но это стоит того, чтобы делать.

,21

Если интересно - 40 минут на почитать:

http://elem.com/~btilly/effective-ab-testing/

Денис Танаев

[email protected]

А по вопросам тревела - [email protected]

twitter.com/deetan

+7 903 599 5555

,22

Documents

денис танаев (Mail.ru) втаскиваем культуру a-b тестов в организацию