Upload
yandex
View
287
Download
0
Embed Size (px)
Citation preview
План
1. Зачем и какая математика применяется «в жизни» вообще и в поиске в частности 2. Matrixnet: машинное обучение в Яндексе
Масштабы веб-поиска
57 миллионов пользователей в месяц
(Россия)
>200 миллионов запросов в день
Десятки стран
Десятки тысяч серверов
5000 сотрудников
Прямые применения: анализ
Производные (градиентный спуск,
экстремумы)
Построение функции с нужными
свойствами
Разложение в ряд Тейлора
Разложение в ряд Фурье
Задача
В коде проекта очень много раз вычисляется sin(x) для разных x от 0 до 1. Как ускорить это вычисление, если в результате допустима ошибка порядка 1e-5?
Задача
Как разбить популярные поисковые запросы на две группы: имеющие ярко выраженные часы задания («утренние», «полуденные» и т.п.), и не имеющие?
Прямые применения: мат.статистика
Распространенные распределения
Центральная предельная теорема
Критерии значимости, независимости
Корреляция и её разновидности
Статистические тесты
Задачи Всегда ли процедура «сложить результаты нескольких измерений и поделить на их количество» осмысленна?
Задачи Всегда ли процедура «сложить результаты нескольких измерений и поделить на их количество» осмысленна? Осмысленна ли она, если измерение – это среднегодовой доход пойманного на улице человека?
Задачи Всегда ли процедура «сложить результаты нескольких измерений и поделить на их количество» осмысленна? Осмысленна ли она, если измерение – это среднегодовой доход пойманного на улице человека? Если нет, то на что её заменить?
Задачи
Придумайте «жизненный» пример ситуации, в которой ЦПТ опасно понимать как «если сложить кучу независимых случайных величин, то получим нормальное распределение»
A/B тестирование
Показываем разным людям разное Измеряем показатели Статистически значимая разница позволяет принять решение
Задачи
Пусть в день в систему задается около 200 миллионов запросов, каждый из которых мы можем автоматически счесть «успешным» или «неуспешным». Сколько бинарных решений мы сможем принять за неделю? От чего это зависит?
Прямые применения
Дискретная математика
Энтропия и оптимальное кодирование
Коды, исправляющие ошибки
Графы
Теория массового обслуживания
Теория аукционов
Алгоритмы, структуры данных
Опасности
Абстракции «протекают» Статьи врут (гораздо чаще учебников) Результат важнее корректного обоснования Скорость итерации важнее всего
Задачи
Прочитайте несколько статей про САР-теорему Спроектируйте систему хранения данных, по сути нарушающую её утверждение
Свойства хорошей системы Предсказательная сила Толерантность к числу факторов и примеров Инвариантность относительно тривиальных изменений
Слабый решатель Кусочно-постоянная функция Пространство разбиваем на 26 части гиперплоскостями, параллельными координатным
Градиентный спуск
На каждом шаге добавляем новое слагаемое, максимально улучшающее целевой функционал Support Регуляризация
Целевой функционал Квадратичная ошибка Любой другой, допускающий шаг градиентного спуска («можно взять производную»)