73
Екатеринбург 2017 Министерство образования и науки Российской Федерации Федеральное государственное автономное образовательное учреждение высшего образования «Уральский федеральный университет имени первого Президента России Б.Н.Ельцина» Высшая школа экономики и менеджмента Кафедра анализа систем и принятия решений ДОПУСТИТЬ К ЗАЩИТЕ ПЕРЕД ГЭК Зав. кафедрой, кандидат физ.-мат. наук ______________ __________________ (подпись) (Ф.И.О.) «_____» ________________201__ г. МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ Анализ пользовательских данных с целью использования его результатов в коммерческих целях Научный руководитель: Берг Д.Б. д-р физ.-мат. наук, профессор Нормоконтролер: Медведева М.А. Студент группы ЭММ-251602 Любарский С.Н.

Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

Екатеринбург

2017

Министерство образования и науки Российской Федерации

Федеральное государственное автономное образовательное учреждение

высшего образования

«Уральский федеральный университет

имени первого Президента России Б.Н.Ельцина»

Высшая школа экономики и менеджмента

Кафедра анализа систем и принятия решений

ДОПУСТИТЬ К ЗАЩИТЕ ПЕРЕД ГЭК

Зав. кафедрой, кандидат физ.-мат. наук

______________ __________________

(подпись) (Ф.И.О.)

«_____» ________________201__ г.

МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ

Анализ пользовательских данных

с целью использования его результатов

в коммерческих целях

Научный руководитель: Берг Д.Б.

д-р физ.-мат. наук, профессор

Нормоконтролер: Медведева М.А.

Студент группы ЭММ-251602 Любарский С.Н.

Page 2: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

2

Министерство образования и науки Российской Федерации

Федеральное государственное автономное образовательное учреждение

высшего образования

«Уральский федеральный университет имени первого Президента России Б.Н.Ельцина»

Институт Высшая школа экономики и менеджмента

Кафедра Кафедра анализа систем и принятия решений

Направление подготовки: Прикладная информатика

Магистерская программа: ИТ-инновации в бизнесе

УТВЕРЖДАЮ

Зав. кафедрой ______________

«____» ______________ 201__ г.

ЗАДАНИЕ на выполнение магистерской диссертации

студента Любарского Сергея Николаевича группы ЭММ-251602 (фамилия, имя, отчество)

1. Тема магистерской диссертации: Анализ пользовательских данных с целью

использования его результатов в коммерческих целях

Утверждена распоряжением по институту ВШЭМ от «___» _______________ 201__ г. № ___

2. Руководитель: __Берг Дмитрий Борисович, д-р физ.-мат. наук, профессор__ (Ф.И.О., должность, ученое звание, ученая степень)

3. Исходные данные к работе: общедоступные литературные источники, нормативные

документы, научная и специальная литература

4. Перечень демонстрационных материалов: презентация

5. Календарный план

п/п

Наименование этапов выполнения работы Срок выполнения

этапов работы

Отметка о

выполнении

1. 1 раздел (глава) до 02.03. 2017 г. выполнено

2. 2 раздел (глава) до 06.04. 2017 г. выполнено

3. 3 раздел (глава) до 25.05. 2017 г. выполнено

4. Магистерская диссертация в целом до 03.06. 2017 г. выполнено

Руководитель _______________ ___________________ (подпись) Ф.И.О.

Задание принял к исполнению ____________ __________________ дата (подпись)

6. Магистерская диссертация закончена «___» ____________ 201__ г. считаю возможным

допустить Любарского Сергея Николаевича к защите его магистерской диссертации в

Государственной экзаменационной комиссии.

Руководитель _______________ ___________________ (подпись) Ф.И.О.

7. Допустить Любарского Сергея Николаевича к защите магистерской диссертации в

Государственной экзаменационной комиссии (протокол заседания кафедры

№___ от «___» _____ 201__г.).

Зав. кафедрой _______________ _______________________

(подпись) Ф.И.О.

Page 3: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

3

РЕФЕРАТ

Магистерская диссертация на тему «Анализ пользовательских данных и

использование его результатов в коммерческих целях» содержит 68 страниц, 4

таблицы, 13 рисунков, 33 литературных источника.

Исследование возможности использования пользовательской

информации с целью извлечения прибыли в связи с развитием технологий

является актуальным для экономической сферы деятельности любой отрасли

коммерческого предприятия.

Первой задачей данной диссертационной работы является разработка и

описание модели, предназначенной для эффективного ее использования с

целью монетизации результатов анализа персональных данных, с учетом

выявленных в процессе исследования недостатков существующих решений,

применяемых на рынке.

Второй задачей работы является разработка рабочей модели обработки

данных, лежащей в основе предложенной модели монетизации с последующим

проведением анализа точности ее работы с целью подтверждения

жизнеспособности идеи разработки полноценной предложенной модели с

целью решения поставленных перед ней задач.

В ходе работы описываются также альтернативные методы и технологии,

использование которых возможно для построения аналогичных систем в

рамках предложенной модели монетизации, с описанием их свойств и

особенностей.

Дополнительно рассматриваются сферы возможного практического

применения описанной модели и потенциал разработок на основе рабочей

модели определения типа личности.

Разработанность темы данной магистерской диссертации характеризуется

средним уровнем, поскольку существуют исследования, поднимающие вопрос

об изучении направления, но отсутствуют научные работы и публикации,

Page 4: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

4

посвященные напрямую исследованиям возможности практической реализации

аналогичной модели монетизации результатов анализа персональных данных.

Среди рассмотренных публикаций также не наблюдаются монографии.

Изученная литература освещает широкий круг вопросов, посвященных теме

анализа типа личности, построения классификаторов и регрессионных моделей,

тенденций в области анализа персональных данных и проблем в различных

областях, связанных с применением результатов такого анализа в

коммерческих целях, а также отдельный, весьма узкий круг вопросов,

связанных с темой диссертации.

Практическим аспектом в этой связи является отсутствие

автоматизированных систем определения типа личности человека на основе

данных о его активности в сети интернет, в частности, описания применения

таких систем с целью решения проблем в различных областях на основе оценки

точности их работы.

Page 5: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

5

Содержание

Задание ......................................................................................................................... 2

Реферат ......................................................................................................................... 3

Введение ....................................................................................................................... 7

1 Аналитический обзор методов использования персональных данных в

коммерческих целях .................................................................................................... 9

1.1 Понятие персональных данных ........................................................... 9

1.2 Монетизация ........................................................................................ 12

1.3 Проблемы отрасли .............................................................................. 14

1.4 Существующие решения .................................................................... 16

2 Разработка модели монетизации персональных данных и описание

методов ее реализации .............................................................................................. 18

2.1 Описание решения .............................................................................. 18

2.2 Сбор данных ........................................................................................ 27

2.2.1 Условия и принципы сбора данных ........................................... 27

2.2.2 Источники данных ....................................................................... 28

2.2.3 Фильтрация источников .............................................................. 32

2.3 Формирования типа личности ........................................................... 34

2.3.1 Типология Юнга .......................................................................... 35

2.3.2 Типология Майерс - Бриггс ........................................................ 36

2.3.3 «Большая пятерка» личностных факторов ............................... 37

2.3.4 Модель HEXACO ........................................................................ 42

2.3.5 Другие многофакторные модели ............................................... 43

2.4 Анализ данных .................................................................................... 43

Page 6: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

6

2.4.1 Подходы к обработке данных..................................................... 43

2.4.2 Алгоритмы построения моделей ................................................ 44

2.4.3 Методы построения многоклассовых классификаторов ......... 47

2.5 Использование базы профилей .......................................................... 50

3 Разработка и применение модели определения типа личности

пользователя .............................................................................................................. 52

3.1 Подготовка ........................................................................................... 52

3.2 Формирование эталонных результатов ............................................ 53

3.3 Разработка и оценка модели .............................................................. 55

3.4 Пример применения полученных профилей .................................... 62

Заключение ................................................................................................................ 67

Список использованных источников ...................................................................... 70

Page 7: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

7

ВВЕДЕНИЕ

Развитие современного общества уже невозможно представить без

интернета. Многолетний стабильный рост количества пользователей,

всемирной сети, увеличение времени нахождения в сети, увеличение покрытия

доступа в интернет по всему миру, увеличение количества используемых

носимых устройств и так далее. Такой рост вовлеченности людей во

взаимодействие с глобальной сетью способствует тому, что передаваемая

информация и действия пользователей в сети все более точно отражают их

индивидуальные черты и особенности.

Каждая сфера нашей жизни человека в развитом государстве в настоящее

время сопряжена с доступом в интернет и передачей большого количества

информации о себе. Социальные сети, поисковые запросы, интеллектуальные

помощники и многое другое. Все эти продукты упрощают нашу жизнь, делают

ее приятнее и без них она уже не считается полноценной для современного

общества. Персонализация, индивидуальный подход - негласный девиз

успешных продуктов, создаваемых последние годы [26].

Для того, чтобы сделать продукт или услугу действительно качественной

и удобной для пользователей, необходимо иметь достаточное количество

информации о них. Чем больше ты знаешь, казалось бы, тем точнее можешь

сформировать свое предложение. Но недостаточно обладать большими

объемами информации, необходимо уметь их обрабатывать, получать ценную

информацию и правильно ее использовать. Отсюда очевидно, почему в

настоящее время обработка персональных данных играет все большую и

большую роль в процессе развития отраслей и формирования бизнес-моделей.

Как и где собирать информацию о пользователях, как обрабатывать,

интерпретировать полученные результаты и сформировать представление о

пользователе, чтобы затем эффективно использовать полученные данные с

Page 8: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

8

целью их монетизации. На решение этих вопросов направлены исследования

крупнейших корпораций в область анализа и сбора пользовательских данных.

Предпосылкой для проведения настоящего исследования стали

опубликованные результаты изучения взаимосвязи отдельных личностных черт

с активностью пользователя в сети интернет [27, 28], но в русскоязычном

сегменте не было опубликовано проведенных исследований о возможности

обратного использования данных - построения полного психологического

портрета личности человека на основе автоматизированного сбора информации

о его активности в сети.

Page 9: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

9

1 АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ ИСПОЛЬЗОВАНИЯ

ПЕРСОНАЛЬНЫХ ДАННЫХ В КОММЕРЧЕСКИХ ЦЕЛЯХ

1.1 Понятие персональных данных

В настоящее время любой ресурс в сети интернет так или иначе собирает

персональные данные пользователей. Это необходимо, в первую очередь, для

оказания услуг и монетизации ресурса.

Весь процесс сбора персональных данных в России регулируется

законодательством. В частности, федеральным законом «Об информации,

информационных технологиях и о защите информации» от 27.07.2006 №149-ФЗ

и федеральным законом «О персональных данных» от 27.07.2006 №152-ФЗ. В

них персональные данные определены как защищаемая информация, а также

обозначены основные требования, предъявляемые к операторам персональных

данных, расширяемые рядом нормативно-правовых актов.

Персональные данные в соответствии с законодательством делятся на 4

категории.

общедоступные - персональные данные субъектов персональных данных,

полученные только из общедоступных источников персональных данных,

созданных в соответствии с требованиями Федерального закона;

специальные - данные, касающиеся расовой, национальной

принадлежности, политических взглядов, религиозных или философских

убеждений, состояния здоровья, интимной жизни субъектов

персональных данных;

биометрические - данные, которые характеризуют физиологические и

биологические особенности человека, на основании которых можно

установить его личность и которые используются оператором для

установления личности субъекта персональных данных;

Page 10: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

10

иные (или общая категория) - в нее входят все данные, за исключением

указанных в первых трех пунктах.

В соответствии с Постановление правительства РФ от 01.11.2012 №1119

«Об утверждении требований к защите персональных данных при их обработке

в информационных системах персональных данных», состав применяемых мер

и мероприятий по защите персональных данных (обеспечение требуемого

уровня защищенности) зависят от типа актуальных угроз, связанного с

наличием недекларированных возможностей в системном или прикладном

программном обеспечении, количества субъектов, чьи персональные данные

обрабатываются в системе обработки персональных данных (далее - ИСПДн),

категории этих данных и их принадлежности к работникам организации или

сторонним субъектам. Условия определения требуемого уровня защищенности

представлены в таблице 1.

Таблица 1- Критерии определения требуемого уровня защищенности

персональных данных1

Категория ПДн Специальные Биомет-

ричес-

кие

Иные (общие) Общедоступные

ПДн работников нет нет да - нет нет да нет нет да

Количество

субъектов

>

100

тыс.

<

100

тыс.

- - >

100

тыс.

<

100

тыс.

- >

100

тыс.

<

100

тыс.

-

Тип 1 1 УЗ 1 УЗ 1 УЗ 1 УЗ 1 УЗ 2 УЗ 2 УЗ 2 УЗ 2 УЗ 2 УЗ

1Таблица составлена на основе описания, извлеченного из нормативно правовых актов, приведенных в

тексте работы.

Page 11: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

11

актуальных

угроз

2 1 УЗ 2 УЗ 2 УЗ 2 УЗ 2 УЗ 3 УЗ 3 УЗ 2 УЗ 3 УЗ 3 УЗ

3 2 УЗ 3 УЗ 3 УЗ 3 УЗ 3 УЗ 4 УЗ 4 УЗ 4 УЗ 4 УЗ 4 УЗ

Перечень мер, необходимых для обеспечения требуемого уровня

защищенности персональных данных зависит от фактического текущего уровня

защищенности и определен в Приказе Федеральной службы по техническому и

экспортному контролю от 18.02.2013 №21 «Об утверждении Состава и

содержания организационных и технических мер по обеспечению безопасности

персональных данных при их обработке в информационных системах

персональных данных». Очевидно, что чем выше требуемый уровень

защищенности, тем шире перечень применяемых мер, как следствие, возрастает

цена защиты.

Помимо выполнения определенных вышеуказанным приказом мер,

необходимо определить исходный уровень защищенности персональных

данных, обрабатываемых в ИСПДн. С этой целью была издана Методика

определения актуальных угроз безопасности персональных данных при их

обработке в информационных системах персональных данных, утвержденная

Федеральной службой по техническому и экспортному контролю 14.02.2008 и

Базовая модель угроз безопасности персональных данных при их обработке в

информационных системах персональных данных, утвержденная Федеральной

службой по техническому и экспортному контролю 14.02.2008.

Указанные документы предназначены для формирования мер по защите,

исходя из характера персональных данных, особенностей устройства ИСПДн и

среды ее размещения и функционирования. Принимая в расчет указанные выше

особенности, формируется перечень потенциальных угроз и определяется их

опасность, на основании возможного ущерба, который может нанести

реализация данной угрозы обрабатываемым персональным данным, а также

актуальность (возможность реализации угрозы). При этом учитывается:

территориальное размещение ИСПДн;

Page 12: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

12

наличие соединения с сетями общего доступа;

перечень встроенных операций с записями баз персональных данных;

разграничение доступа к персональным данным;

наличие соединения с другими базами персональных данных иных

ИСПДн;

уровень обобщения (обезличивания) персональных данных;

объем персональных данных, которые предоставляются сторонним

пользователям ИСПДн без предварительной обработки.

Все эти условия необходимо учитывать при проектировании

информационной системы и моделировании бизнес-процессов с целью

минимизировать состав, характер и объем фактически необходимых для работы

данных.

В связи с этим, наиболее предпочтительным вариантом с экономической

точки зрения является использование персональных данных. полученных из

открытых источников, либо полностью обезличенных.

1.2 Монетизация

Персональные данные в бизнес-моделях встречаются повсеместно и

играют различную роль в каждой из них. В зависимости от данного параметра

можно провести типизацию бизнес-моделей для получения наглядного

представления о разнице в подходах к использованию персональных данных.

Таким образом, выделяется три основных типа бизнес-моделей.

1) Первый тип. Бизнес-модели, созданные на основе персональных данных.

Характерны тем, что именно персональные данные и результаты их

анализа являются товаром, основным продуктом, приносящим прибыль.

Примеры:

банки данных;

аналитические системы.

Page 13: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

13

2) Второй тип. Бизнес-модели, где персональные данные не являются

основой для извлечения прибыли, но используются для улучшения одной

или нескольких составляющих всего процесса и создания уникального

торгового предложения.

Примеры:

рекламные площадки;

рекомендательные системы;

оптимизация продаж.

3) Третий тип. Бизнес-модели, где использование персональных данных

необходимо для осуществления основной деятельности и их наличие и

состав не влияет на конкурентные преимущества напрямую.

Примеры:

оплата товаров и услуг;

службы доставки.

Полный цикл монетизации персональных данных, в общем виде

представленный на рисунке 1, состоит из трех этапов.

1) Сбор или обновление имеющихся данных.

2) Обработка данных с целью преобразования их к виду, подходящему для

дальнейшего использования, либо извлечение значимой информации.

3) Реализация полученной информации с целью извлечения прибыли.

Создание инфраструктуры, объединяющей в себе полный цикл по сбору,

обработке и реализации данных каждой отдельной компанией является крайне

дорогим процессом, требующим больших денежных, временных и

человеческих ресурсов, в связи с чем, на текущий момент, сложилась практика

разделения обозначенного цикла между двумя и более сторонами. В отдельных

случаях, составляющие процесса могут параллельно делить между собой

несколько различных участников.

Page 14: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

14

Рисунок 1 - Цикл монетизации персональных данных2

1.3 Проблемы отрасли

На каждом этапе процесса монетизации существуют определенные

трудности, различающиеся в зависимости от типа собираемых и

обрабатываемых персональных данных и вида их реализации.

Учитывая накопленный опыт работы в отрасли и результаты

проведенных исследований был выделен ряд основных проблем, с которыми

сталкиваются участники рынка с бизнес-моделями различного типа на

различных этапах цикла монетизации персональных данных.

2 Изображение подготовлено в программе Microsoft Word на основании полученного опыта работы в

области защиты персональных данных.

Page 15: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

15

В первую очередь, с обработкой персональных данных связана проблема

высокой стоимости организации и поддержания системы защиты в ходе их

обработки для малого бизнеса.

Наиболее часто встречающаяся в бизнес-моделях второго типа проблема

связана с необходимость накопления некого объема данных для организации

работы и качественного оказания услуг (проблема холодного старта). В

частности, это актуально для рекомендательных и рекламных систем.

Еще одна проблема, свойственная крупным системам монетизации

связана с масштабируемостью. Традиционные алгоритмы, используемые для

поиска взаимосвязей, классификации и кластеризации хорошо работают со

сравнительно небольшими объемами данных, однако с ростом этих наборов

получение результатов на прежнем уровне качества может стать

проблематичным.

Последняя, и ключевая на данный момент проблема, связана с развитием

технологий обработки данных. Цель любой системы, обрабатывающей

персональные данные - наиболее эффективное их использование. Чем больше

мы знаем клиента и чем точнее и актуальнее эта информация, тем качественнее

мы можем организовать работу с ним и повысить различные показатели своей

деятельности: конверсию, показатель удержания и возврата клиентов,

жизненную стоимость, стоимость привлечения и т.д. Отдельным компаниям

крайне тяжело собрать всю необходимую информацию о клиенте, особенно не

относящуюся напрямую к роду их деятельности, и поддерживать ее в

актуальном состоянии в течение всего жизненного цикла клиента.

Отсюда главная и вечная проблема заключается в повышении

эффективности обработки данных, при которой происходило бы извлечение

максимального количества полезной информации.

Page 16: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

16

1.4 Существующие решения

В настоящее время существует ряд различных решений, позволяющих

решить указанные ранее проблемы.

Так, для решения проблемы, связанной со стоимостью организации

обработки персональных данных, существуют компании, предоставляющие

услуги по размещению ИСПДн различного уровня защищенности в

подготовленной ими инфраструктуре. Количество таких компаний существенно

увеличилось после публикации Федерального закона «О внесении изменений в

отдельные законодательные акты Российской Федерации по вопросам

осуществления государственного контроля (надзора) и муниципального

контроля» от 18.07.2011 №242-ФЗ, обязывающий компании хранить

собираемые персональные данные о гражданах Российской Федерации на

территории страны.

Размещение ИСПДн в защищенном контуре, подготовленном для

большого числа серверов, и аренда дорогостоящего оборудования для защиты

значительно снижают стоимость организации обработки и сокращает время

развертывания.

Для решения проблемы «холодного старта» существует ряд решений,

обладающих своими достоинствами и недостатками.

1) Использование дополнительной информации из профиля или

метаинформации, собранной автоматически, с целью объединения

пользователя в кластер с другими, для которых уже накоплена некоторая

база знаний. Применимо только для новых зарегистрированных

пользователей, также требует наличия базы клиентов, обладающих

схожими характеристиками.

2) Запрашивая у пользователя дополнительную информацию о себе и его

интересах формировать начальную базу. Такой подход является удобным

для пользователя и не обладает необходимой точностью по причине того,

Page 17: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

17

что заранее осведомленный о целях сбора информации пользователь

может не предоставить достоверной и полные данные, или вовсе

откажется их предоставлять.

3) Использование комбинированного подхода, состоящего из первых двух,

допускающего уточнения пользователем своих данных.

Для решения проблемы масштабирования анализа большого объема

данных используются разрабатываемые под конкретную задачу алгоритмы или

комбинацию алгоритмов, снижение допустимых пределов точности для

результатов анализа, а также снижение объема и перечня обрабатываемых

данных.

Основная проблема использования персональных данных с целью

эффективного использования информации не имеет распространенного единого

решения, так как для каждого вида деятельности разрабатывается собственная

модель обработки данных, но в общем виде она решается несколькими

способами:

агрегируются данные, характерные только для одного вида деятельности

(данные о покупках, оценках контента, месте проживания, поле и т.д.,

характерно для бизнес-моделей третьего и второго типа);

собирается большой объем различной информации о пользователе с

минимальной обработкой для дальнейшего использования другими

участниками процесса монетизации (характерно для бизнес-моделей

первого типа, в частности банков данных);

большой объем данных обрабатывается с целью извлечения

дополнительной скрытой информации (наиболее эффективный подход,

существующий на данный момент, характерен для бизнес-моделей

первого типа, зарабатывающих на анализе данных).

Page 18: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

18

2 РАЗРАБОТКА МОДЕЛИ МОНЕТИЗАЦИИ ПЕРСОНАЛЬНЫХ

ДАННЫХ И ОПИСАНИЕ МЕТОДОВ ЕЕ РЕАЛИЗАЦИИ

2.1 Описание решения

В попытке объединить сильные стороны существующих подходов и

технологий для решения проблем была разработана комплексная модель,

описывающая получение и обработку данных, представленная ниже.

Основная задача, решаемая данной моделью - подготовка банка данных,

состоящего из профилей с определенным набором данных и применимых для

большинства существующих в настоящее время областей, а также описание

технологии получения данных, их обработки и передачи с минимальными

затратами.

В основу модели была положена гипотеза, что все действия пользователя

зависят от большого числа факторов, которые не могут быть учтены при сборе

информации о взаимодействии с пользователем лишь в одной области, и

получив его полное описание как единого целого, можно предсказывать

поведение при взаимодействии с любой системой монетизации. Одной из

главных задач, поставленных перед описываемой системой, помимо

определения интересов и предпочтений по всем сферам жизни пользователя,

является определение его типа личности, что позволит в дальнейшем, при

использовании профиля, прогнозировать его поведение и реакцию при любом

взаимодействии [1].

Важно отметить, что в предлагаемой модели используются технологии

для формирования профиля каждого конкретного пользователя в отдельности, а

не анализ с целью выявления общих характеристик набора пользователей, что

позволяет решить проблему масштабируемости в дальнейшем, учитывая, что

каждый конкретных пользователь описывается ограниченным, заранее

Page 19: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

19

определенным набором параметров и их обработка не зависит от числа таких

пользователей.

Профиль пользователя представляет из себя объект, содержащий

следующую информацию, разделенную на части:

ключевая информация, служащая для связи профиля с пользователем и

связи остальных данных с объектом;

перечень интересов, разделенный по трем категориям (мгновенные

интересы, хобби, общие интересующие темы);

психологический портрет, построенный на основе одной из

психологических типологий;

досье пользователя (периодичность ЗП, уровень дохода, параметры

жилья, наличие машины, семейное положение, заинтересованность в

религии, медицинских услугах и т.д.).

Отдельно на основе собранных данных необходимо формировать

текущее состояние пользователя (местоположение и его характеристика, время

суток, текущее финансовое положение, мгновенные интересы и т.д.). Данная

информация крайне важна для подбора товаров и услуг, которые нужны

пользователю прямо сейчас и на основе нее можно сформировать наиболее

релевантное ожиданиям и возможностям пользователя предложение.

Сбор информации и ее обработка должны проводиться на основе

нескольких источников (Рис. 2), что в свою очередь требует создания набора

входных обработчиков, зависящих от типа получаемых от источника данных

информации. Это могут быть текстовые данные, тематические метки,

проставленные заранее, числовые, категориальные или бинарные значения и

т.д. их набор зависит от источника, а влияние на профиль должно быть

оценено.

Важнейшим условием функционирования модели является также учет

изменения профиля с течением времени. Интересы человека изменяются со

Page 20: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

20

временем, как и его финансовое состояние, используемые сетевые ресурсы и

т.д. Все это необходимо актуализировать через определенное время: переносить

интересы из одной категории в другую, добавлять и удалять их из профиля,

даже полностью «забывать» представление о пользователе по истечении

определенного времени без обновления.

Page 21: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

21

Рисунок 2 - Процесс обработки данных, полученных из различных источников3

3 Изображение подготовлено в программе Microsoft Visio на основании функционального описания

модели и имеющегося опыта в области разработки программных архитектур.

Page 22: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

22

Выработка идентификатора, привязанного к устройству, позволяет

проводить сбор данных до получения ключевой информации, а связывать ее с

определенным профилем лишь после (Рис. 3).

Рисунок 3 - Формирование идентификатора, привязанного к устройству4

За счет сохранения ключевой информации из различных источников,

появляется возможность искать связанные профили (Рис. 4), что позволяет

объединять множественные аккаунты на одном ресурсе, раздельные адреса и

профили на разных ресурсах в единое целое. Важно учесть, что при

объединении двух профилей, обогащении при связи с новым источником

4 Изображение подготовлено в программе Microsoft Visio на основании функционального описания

модели и имеющегося опыта в области разработки программных архитектур.

Page 23: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

23

данных и накоплении большого объема данных необходимо пересчитывать

психологический тип, так как после обновления профиля он может измениться.

Page 24: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

24

Рисунок 4 - Получение ключевой информации и обогащение данных5

То есть не формируется общее представление, на основе которого можно

было бы предсказывать реакцию пользователя на взаимодействие с сервисами,

5 Изображение подготовлено в программе Microsoft Visio на основании функционального описания

модели и имеющегося опыта в области разработки программных архитектур.

Page 25: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

25

которыми он ранее не пользовался, а собранные данные считаются

актуальными независимо от времени их получения.

На рисунке 5 приведен пример использования пользовательской

информации в рекомендательной системе google music, сформированной

автоматически на основании местоположения пользователя. Без использования

дополнительной информации, предлагаемые категории оказались совершенно

не совместимы друг с другом и не отражают персонализированный подход.

На рисунке 6 представлены интересы, сформированные google на

основании взаимодействия с их сервисами и параметры пользователя.

Интерес «гоночные игры» был определен одним из первых, и в течение

последних шести лет не проводилось никаких действий, связанных с его

поддержанием. Интерес «дом и сад» был сформирован искусственно два года

назад путем открытия нескольких ссылок на тему садоводства и выращивания

растений в течение недели, после чего также не поддерживался специально.

Это дает основания утверждать, что формируемые без временной

составляющей представления о пользователе не могут описать полноценно

текущее состояние пользователя, что снижает их ценность для монетизации.

Page 26: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

26

Рисунок 5 - Пример рекомендаций, формируемых Google music на основе

местоположения пользователя6

Рисунок 6 - Пример обработанных Google данных о пользователе7

6 Изображение получено путем создания снимка области рекомендаций на странице интернет сервиса

Google Music, формируемых для учетной записи автора. 7 Изображение получено путем создания снимка области настроек личных предпочтений на странице

профиля Google автора.

Page 27: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

27

Определенные на основании взаимодействия с сервисами google возраст

и пол также не являются верными, но они указаны в большинстве открытых

источниках и сторонних сервисах, с которыми можно связать профиль,

формируемый googleна основе ключевой информации, используемой для

взаимодействия данными сервисами. Это дает возможность утверждать, что

обогащение профиля данными из сторонних источников позволило бы точнее

сформировать портрет пользователя, который используется сервисами с целью

монетизации.

2.2 Сбор данных

2.2.1 Условия и принципы сбора данных

Прежде чем начать сбор информации о пользователе, необходимо

получить от него некий ключ - идентификационную информацию, в

соответствии с которой будет проводиться поисковая работа и соотнесение

данных с конкретным субъектом.

Такой информацией-ключом может выступать практически что угодно -

логин, имя, сетевой адрес, различные электронные или реальные

идентификаторы вроде карт постоянного клиента или даже внешнего вида

человека.

Получить такой ключ возможно различными путями, наиболее

распространенные в настоящее время способы - мотивация к регистрации и

авторизации на сервисах (вконтакте, одноклассники, facebook), сохранение

cookie на стороне пользователя для идентификации и стимуляция сторонних

сервисов передавать эту ключевую информацию при взаимодействии с

пользователем (яндекс, google), выпуск карты клиента (офлайн точки продаж и

оказания услуг).

После получения ключевой информации, ее можно использовать для

связи с уже существующим профилем пользователя, или использовать для

Page 28: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

28

начала поисковой работы по обогащению данных. Если со связью с профилем

все очевидно, то обогащение данных в настоящее время не используется

достаточно широко, хотя большой объем даже необработанной информации из

сторонних источников может представлять огромную ценность [9, 18].

2.2.2 Источники данных

На данный момент существует бесчисленное множество источников

информации различного объема и вида, перечислять все из которых не

представляется возможным. Для описания процесса сбора была проведена

классификация источников по области (о действиях, совершенных человеком в

реальном мире или в сети) и условиям сбора информации.

Данные, собираемые о действиях, совершаемых человеком в реальном

мире (офлайн).

1) Данные о действиях в точках продаж и предоставления услуг.

Характеризуются соотнесением пользователя с его ключевой

информацией в процессе непосредственного взаимодействия с местом

предоставления товаров или услуг. Информация, которая может чаще

всего может быть получена для обогащения из данных источников:

список покупок;

время и периодичность совершения покупок;

объемы затраченных средств;

информация о поведении пользователя в точке продаж;

сведения о периодичности и характеристиках посещенных мест;

и др.

2) Данные о действиях пользователя вне точек продаж и предоставления

услуг. Характеризуются сбором информации о процессе его

перемещения, поиска информации и принятия решений. Информация,

Page 29: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

29

которая может чаще всего может быть получена для обогащения из

данных источников:

сведения о маршрутах в торговых центрах;

данные о просмотренных конкурентах перед принятием решения;

и др.

3) Данные об активности и физическом состоянии. Характеризуются сбором

информации с носимых устройств и устройств контроля

жизнедеятельности. Информация, которая может чаще всего может быть

получена для обогащения из данных источников:

сведения о физическом состоянии;

данные о режиме активности и уровне физической нагрузки;

и др.

Данные, собираемые о действиях человека в сети (онлайн).

1) Данные из социальных сетей. Социальные сети имеют большие базы

данных о пользователях и их активности, в том числе открытые. Как

правило они имеют развитые интерфейсы взаимодействия.

Характеризуются тем, что изначально созданы для хранения и обработки

пользовательской информации, которую пользователи сами

предоставляют им в процессе взаимодействия. Информация, которая

может чаще всего может быть получена для обогащения из данных

источников:

сведения, прямо указанные пользователями в профилях;

информация о действиях пользователя (сообщения, подписки, репосты,

отметки «мне нравится» и т.д.);

информация об окружении пользователя (подписчики, друзья);

и др.

2) Данные из государственных систем. Имеют интерфейсы для

электронного взаимодействия с физическими лицами и защиту от

Page 30: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

30

автоматизированного сбора данных, что затрудняет работу для массового

использования без подключения к Системе Межведомственного

Электронного Взаимодействия. Источники характеризуются тем, что

информация по каждой представленной сфере является подтвержденной,

состав которой регулируется действующим законодательством и может

использоваться для уточнения и верификации. Информация, которая

может чаще всего может быть получена для обогащения из данных

источников:

информация для верификации официальных документов;

сведения об исполнительных производствах;

сведения о штрафах;

сведения о юридических лицах;

сведения о розыске;

сведения о характеристиках архитектурных объектов;

и др.

3) Данные из сторонних агрегаторов (провайдеры, платежные системы,

прокси сервера и т.д.). Представляют большой спектр информации о

поведении пользователя, чаще всего на платной основе и обработанной с

учетом рода деятельности. Источник характеризуется тем, что сбор и

обработка данных является побочным продуктом от основного вида

деятельности, а объем и качество данных часто зависит от занятого

поставщиком объема рынка услуг. Информация, которая может чаще

всего может быть получена для обогащения из данных источников:

сведения о платежах;

сведения о задолженностях;

сведения о телефонных номерах;

сведения о характере потребляемого контента и его объемах;

и др.

Page 31: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

31

4) Данные из прочих посещенных ресурсов. Сюда относятся все данные,

характеризующие активность пользователя в сети без специальной

предварительной обработки. Информация, которая может чаще всего

может быть получена для обогащения из данных источников:

содержимое страницы;

информация о поведении и совершенных действиях на странице;

метаинформация о посещенном ресурсе;

время и продолжительность посещения;

и др.

Столь обширный список источников информации позволяет накапливать

репрезентативный набор данных о человеке за короткий срок, а также

обеспечивать поддержку информации в актуальном состоянии.

Необходимо учитывать, что в различных ситуациях и местах человек

ведет себя по-разному и любую информацию о нем необходимо усиливать за

счет сбора из нескольких источников, комбинируя сетевые и офлайн источники

данных для формирования наиболее объективной и отражающей реальное

состояние информации.

Однако, выбор источников должен сопровождаться разумным отбором,

таким образом, включая все найденные источники без предварительной

проверки можно сформировать профиль, объединяющий нескольких реальных

людей, или вовсе включить данные, сформированные искусственным способом.

Чтобы избежать большую часть подобных ситуаций можно фильтровать

источники путем построения на основе отдельных параметров структур,

формирующих индивидуальные особенности пользователя. Так, например,

после определения интересов можно проанализировать их количество и связи,

положив в основу, что человек может иметь ограниченный набор основных, не

взаимоисключающих интересов.

Page 32: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

32

2.2.3 Фильтрация источников

Аналогичным образом анализ контактов открытого профиля социальной

сети может помочь определить, ведется ил профиль в личных целях и отражает

реальное поведение пользователя, или является искусственно-созданным или

рабочим.

На рисунке 7 представлены примеры социальных графов, построенных на

основе анализа списка контактов искусственно созданных профилей,

использующихся для продвижения товаров и интернет ресурсов, а на рисунке 8

социальные графы, построенные на основе анализа списка контактов реальных

профилей.

Рисунок 7 - Пример социальных графов искусственно созданных

пользователей8

8 Граф построены в программе Gephi на основании выгруженных данных о двух искусственно

созданных аккаунтах в социальной сети Вконтакте.

Page 33: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

33

Рисунок 8 - Пример социальных графов реальных пользователей, имеющих

разные психологические типы9

Их главным отличием является неоднородность социального графа

реальных пользователей, наличие структура и четко выраженных групп,

отражающих реальные взаимосвязи.

После прохождения через анализатор аномалий, принимается решение о

признании профиля «шумным» или «общественным» (используемым

несколькими людьми), или разделения на несколько подпрофилей, если

удалось разделить интересы с достаточной достоверностью на несколько

личностей.

9 Граф построены в программе Gephi на основании выгруженных данных о двух аккаунтах в

социальной сети Вконтакте, принадлежащих реальным людям.

Page 34: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

34

2.3 Формирования типа личности

Учитывая, что центральным элементом профиля, определяющим многие

параметры, является представление типа личности пользователя, необходимо

подобрать оптимальный способ его формирования, предоставляющий

достаточное описание для возможности применения полученных результатов в

различных областях.

В психологии для разнообразных практических целей используются

различные виды личностных опросников, интеллектуальных тестов, тестов

способностей. Тестами определяются различные параметры темперамента,

характера, профили способностей, исследуется направленность личности [10].

Такие методики основаны на моделях личности человека, описывающие

отдельные черты и особенности в универсальной форме.

К 1935 году уже существовало более 15 000 различных тестовых методик,

а в настоящее время даже подсчитать их количество становится нетривиальной

задачей. Каждая из них обозначает те или иные различия между людьми или

психическими свойствами (качествами, характеристиками). Классификации

различаются масштабом обобщений, степенью внутренней согласованности,

классификационными основаниями и т. д.

Существует, однако, ограниченный набор наиболее часто используемых

методик [25].

Их можно разделить на основании подхода к описанию и определению

типа личности: факторный и типологический [21, 33].

Далее приведен список наиболее популярных в настоящее время моделей

и основанных на них оценочных методик с описанием их особенностей,

которые по мнению автора, могут использоваться с целью построения

описываемой в рамках диссертационной работы модели.

Page 35: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

35

2.3.1 Типология Юнга

Система типологии личности, основанная на понятии психологической

установки, которая может быть экстравертной либо интровертной, а также на

преобладании в ней одной из основных психических функций - мышления,

чувства, ощущения или интуиции [32].

«Jungian Type Index» (JTI) - один из самых популярных опросников,

разработанных на основе данной типологии и получивший широкое

распространение в странах Скандинации.

Опросник выявляет один из 16 типов, определяемых моделью. Тип

формируется из нескольких составляющих: общего типа установки,

доминирующей и вспомогательной психологической функции, которые также

характеризуют рациональный (предпочитающий планировать и заранее

упорядочивать информацию) или иррациональный (предпочитающий

действовать без детальной предварительной подготовки, больше ориентируясь

по обстоятельствам) тип.

Общий тип установки определяется между двумя взаимоисключающими

направленностями: экстраверсией (характеризуется восприятием объектов

внешнего мира) и интроверсией (характеризуется стремлением

абстрагироваться от внешнего мира, направленностью «в себя»). Вторая

составляющая определяется двумя парами взаимоисключающих функций,

описание которых приведено в таблице 2.

Page 36: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

36

Таблица 2 - Описание психологических функций10

Название функции Описание

Мышление Рациональная функция, которая, следуя своим

собственным законам, приводит данные содержания

представлений в понятийную связь.

Чувство Рациональная функция, придающая содержанию

известную ценность в смысле принятия или

отвержения его. Чувство основано на оценочных

суждениях: хорошо — плохо, красиво — некрасиво.

Ощущение Иррациональная функция восприятия,

совершающегося посредством органов чувств.

Интуиция Иррациональная функция, которая передаёт субъекту

восприятие бессознательным путём. Предметом

такого восприятия может быть всё - и внешние, и

внутренние объекты или их сочетания.

В результате получается последовательность, состоящая из четырех

значений, который и обозначает искомый тип личности.

2.3.2 Типология Майерс - Бриггс

Типология личности, возникшая на базе типологии Юнга, получившая

наиболее широкое распространение в США и Европе. На основе этой

типологии была создана система психологического тестирования «Myers -

10

Таблица составлена по [32].

Page 37: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

37

Briggs Type Indicator» (MBTI). Опросник MBTI переведен на 30 языков (в том

числе и русский) и используется миллионами людей по всему миру в

различных областях, что делает его один из самых популярных.

MBTI также, как и JTI предназначен для определения одного из 16 типов

личности, но имеет отличие в интерпретации. Так, принципиальное отличие в

моделях типа этих типологий существует для интровертных типов.

Интровертные типы в типологии Майерс - Бриггс имеют те же доминирующие

и вспомогательные функции, что и юнговские типы, но с иным значением

рациональный/иррациональный [12].

Базовым методом определения типа по системе MBTI является

анкетирование с помощью опросника c его последующей верификацией. Тип по

MBTI, согласно официальному определению является результат опросника,

однако точность определения гарантируется лишь последующей консультацией

с привлечением сертифицированного специалиста.

Существуют различные формы анкетирования по опроснику MBTI:

MBTI Step I - содержит 93 вопроса, направлен на идентификацию типа

личности;

MBTI Step II - содержит 144 вопроса, позволяет получить портрет

индивидуальных различий внутри типа;

MBTI Step III - направлен на анализ динамики развития типа, сведения о

применении данной формы в России отсутствуют.

2.3.3 «Большая пятерка» личностных факторов

Модель, основанная на психолексическом подходе к исследованию

структур личности, предполагающем, что язык является исчерпывающим

носителем личностной изменчивости человека, и определяющая, как следует из

названия, пять основных черт личности человека, перечень и описание которых

приведены в таблице 3. Такая лингвистическая природа модели определяет её

Page 38: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

38

привязку к особенностям языка. Но по результатам исследований

воспроизводимости определяемых моделью пяти факторов в различных

языковых культурах показали, что Большая пятёрка является образованием

надкультурным, в сущности, не зависимым от языка. Дополнительно к этому,

модель допускает выделение дополнительных аспектов внутри каждого из пяти

факторов, принимая последние только как доминирующие.

Таблица 3 - Описание личностных факторов модели «Большая пятерка»11

Название фактора Краткое описание

Экстраверсия

(Extraversion)

Определяет стремление к взаимодействию с

внешним миром: экстравертам нравится находиться

среди людей, они полны энергии и часто проявляют

позитивные эмоции; в то же время интроверты не

обладают энергичностью, богатством чувств и

активностью экстравертов, они обычно тихие,

сдержанные, осмотрительные, и не участвуют в

общественной активности.

Доброжелательность

(Agreeableness)

Отражает индивидуальные предпочтения по поводу

сотрудничества и социальной гармонии:

доброжелательные индивиды легко ладят с другими

людьми, они обычно внимательны, дружелюбны,

щедры, готовы помочь и ставить интересы других

11

Таблица составлена по [13].

Page 39: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

39

выше своих; недоброжелательные же индивиды

ценят свои собственные интересы выше

возможности ладить с другими людьми, они

обычно равнодушны к благополучию других и

поэтому не склонны проявлять активность ради

них.

продолжение таблицы 3.

Название фактора Краткое описание

Добросовестность

(Conscientiousness)

Также можно описать как сознательность,

благоразумие. Определяет способность

контролировать, регулировать и направлять

импульсивность: добросовестные индивиды

избегают неприятностей и весьма эффективно

достигают своих целей, используя

целенаправленное планирование и настойчивость;

напротив, импульсивное поведение, даже если оно

не приводит к серьёзным деструктивным

последствиям, может существенно уменьшить

эффективность действий человека, а также не

позволяет обдумать альтернативные способы

действий, которые могли бы быть более

благоразумными, чем импульсивный выбор.

Нейротизм

(Neuroticism)

Определяет тенденцию испытывать негативные

эмоции: люди с высокими показателями нейротизма

являются эмоционально реактивными, они могут

испытывать только одно специфическое негативное

чувство, такое, как тревога, гнев, или

Page 40: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

40

депрессивность, но также могут испытывать и

несколько таких эмоций одновременно; с другой

стороны, индивиды с низким показателем

нейротизма менее эмоционально реактивные, их

нелегко вывести из себя, они обычно спокойны,

эмоционально стабильны, и свободны от

постоянных негативных чувств.

окончание таблицы 3.

Название фактора Краткое описание

Открытость опыту

(Openness to Experience)

Описывает свойства мыслительного процесса,

отличающие креативных людей с хорошим

воображением от приземлённых, обычных людей -

способность рассуждать с использованием

символов и абстракций, которые не связаны с

практическим жизненным опытом. В зависимости

от конкретных интеллектуальных возможностей

индивида, такой символический мыслительный

процесс может принять форму математического,

логического или геометрического мышления,

артистичного и метафорического использования

языка, сочинения или исполнения музыки, или

других визуальных или исполнительских видов

искусства.

Из методик, основанных на Большой пятерке, наиболее широкую

известность и применимость получил опросник NEO-PI-R (Revised NEO

Personality Inventory). Опросник позволяет определить помимо пяти основных

личностных факторов 6 дополнительных аспектов внутри каждого из них.

Page 41: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

41

1) Для фактора нейротизм выделяются аспекты:

озабоченность (anxiety);

враждебность (hostility);

депрессия (depression);

осознание себя (self-consciousness);

импульсивность (impulsiveness);

уязвимость перед стрессом (vulnerability to stress).

2) Для фактора экстраверсия выделяются аспекты:

теплота (warmth);

коллективизм (gregariousness);

настойчивость (assertiveness);

активность (activity);

поиск возбуждения (excitement seeking);

положительные эмоции (positive emotion).

3) Для фактора открытость опыту выделяются аспекты:

фантазия (fantasy);

эстетика (aesthetics);

чувства (feelings);

действия (actions);

идеи (ideas);

ценности (values).

4) Для фактора доброжелательность выделяются аспекты:

доверие (trust);

прямолинейность (straightforwardness);

альтруизм (altruism);

соглашательство (compliance);

скромность (modesty);

мягкость (tendermindedness).

Page 42: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

42

5) Для фактора добросовестность выделяются аспекты:

компетентность (competence);

порядок (order);

чувство долга (dutifulness);

стремление к достижению результата (achievement striving);

самодисциплина (self-discipline);

осмотрительность (deliberation).

2.3.4 Модель HEXACO

Шестифакторная модель описания личности, разработанная на основе

исследований, общих с моделью Большой пятерки и имеющая схожие с ней

определяемые факторы.

Три фактора модели (добросовестность, экстраверсия, открытость опыту)

полностью идентичны с одноименными в модели большой пятерки, но

эмоциональность и доброжелательностьхоть и имеют схожие интерпретации с

нейротизмом и доброжелательностью большой пятерки соответственно, но

отдельные характеристики факторов отличаются. Например, характеристики,

относящиеся к вспыльчивости связаны с нейротизмом в модели большой

пятерки, но характеризуются низкими уровнями фактора доброжелательности у

HEXACO [3].

Основное же отличие от Большой пятерки заключается в расширении

модели дополнительным фактором Честность-Скромность (Honesty-Humility),

определяющим такие аспекты поведения как:

искренность;

честность;

жадность;

скромность.

Page 43: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

43

2.3.5 Другие многофакторные модели

Гордоном Олпортом и Х. С. Одбертом была выдвинута гипотеза, что

наиболее выдающиеся и социально значимые индивидуальные различия для

жизни людей в данном обществе рано или поздно становятся закодированными

в языке данного народа, и чем более важным является такое различие, тем

больше вероятность, что оно будет выражено отдельным словом. Эта гипотеза

легла, в частности, в основу работы Рэймонда Кеттелла, результатом которой

стал 16-факторный личностный опросник, разработанный институтом под его

руководством, и дающий хорошие результаты описания.

Дальнейшие исследования показали, что так называемая «Большая

пятёрка», описанная ранее, является наиболее устойчивой и универсальной для

разных языковых культур, в то время как любые системы, включающие более 5

факторов, отражают культурную специфику определённой страны [7].

Таким образом, методики, оценивающие более пяти факторов, и

основанные на языковых особенностях потенциально дадут более точный

прогноз, чем основанные на пятифакторной модели, но в том случае, если они

базируются на результатах анализа, выполненного именно в той стране и той

языковой системе, в которой предусматривается их дальнейшее использование.

2.4 Анализ данных

2.4.1 Подходы к обработке данных

Для определения типа в зависимости от выбранной модели можно

использовать два различных подхода.

1) Построение регрессионной модели. Наиболее подходящий выбор при

использовании для формирования профиля пользователя моделей

моделей с факторным подходом к описанию личности.

Page 44: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

44

2) Обучение классификатора. Наиболее подходящий выбор при

использовании для формирования профиля пользователя моделей с

типологическим подходом к описанию личности.

Для каждого из указанных подходов имеется набор наиболее часто

используемых в анализе данных методов, для которых существует большое

количество доступных программных (а для некоторых из них и аппаратных)

реализаций. Ниже будет приведено краткое описание этих методов и

особенности их применения.

2.4.2 Алгоритмы построения моделей

2.4.2.1 Байесовские классификаторы

Существует широкий набор алгоритмов классификации, основанных на

применении Теоремы Байеса. В общем виде такие алгоритмы для

классифицируемого объекта вычисляют функции правдоподобия каждого из

возможных классов, затем по ним вычисляют апостериорные вероятности

классов. Определяемый объект относится к тому классу, для которого

апостериорная вероятность максимальна.

Как правило, на практике реальные плотности распределения классов не

известны, и их определение зависит от набранной выборки. Чем короче

выборка, тем выше шансы подогнать распределение только под конкретные

данные и столкнуться с эффектом переобучения.

Байесовский подход к классификации является одним из старейших, но

до сих пор сохраняет прочные позиции в рядах алгоритмов машинного

обучения. Он также лежит в основе многих достаточно удачных алгоритмов

классификации, таких как:

наивный байесовский классификатор

линейный дискриминант Фишера

квадратичный дискриминант

Page 45: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

45

метод парзеновского окна

метод радиальных базисных функций (RBF)

логистическая регрессия

2.4.2.2 Метод опорных векторов

Набор схожих алгоритмов обучения с учителем, использующихся для

задач классификации и регрессионного анализа. Основная идея метода -

перевод исходных векторов в пространство более высокой размерности и

нахождение в нем такой разделяющей гиперплоскости, что расстояние между

двумя близлежащими точками разных классов является максимальным.

Алгоритм работает в предположении, что чем больше расстояние между этими

точками, тем меньше будет средняя ошибка классификатора.

Важно отметить, что, не смотря на изначально алгоритм был

предназначен для работы только с линейно разделимыми классами, существуют

изменения в математической модели метода, позволяющие ему работать с

линейно неразделимыми классами.

2.4.2.3 Метод ближайших соседей

Один из самых простейших методов - метрический классификатор,

основанный на оценивании сходства объектов. Классифицируемый объект

относится к тому классу, которому принадлежат определенное количество

ближайших к нему объектов обучающей выборки.

2.4.2.4 Искусственные нейронные сети

Искусственная нейронная сеть - это математическая модель, с

некоторыми допущениями моделирующая работу нейронов живого организма,

учитывая, что биологические нейронные сети до конца не изучены до сих пор.

Page 46: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

46

Любая искусственная нейронная сеть представляет собой многослойную

структуру, состоящую из элементов (искусственных нейронов) трех типов.

1) Сенсорный элемент. Является чувствительным элементом входного слоя,

который от определенного воздействия вырабатывает сигнал. Если

входной сигнал превышает некоторый порог, то элемент сам начинает

генерировать выходной сигнал, в противном случае выходной сигнал

элемента равен нулю.

2) Ассоциативный элемент. Является логическим решающим элементом

скрытого слоя, который генерирует выходной сигнал в том случае, когда

алгебраическая сумма его входных сигналов равна или превышает

некоторую пороговую величину, в противном случае выходной сигнал

элемента равен нулю.

3) Реагирующий элемент. Является элементом выходного слоя сети и

выдаёт сигнал, зависящий от вида активационной функции и суммы

входных сигналов.

Элементы соединены друг с другом послойно, образуя сеть. Порог

срабатывания элементов зависит от их активационной функции, а каждая связь

имеет определенный «вес». Само обучение нейронной сети состоит в подборе

этих весов определенным алгоритмом, подбираемым в зависимости от типа

нейронной сети.

Нейронные сети могут применяться в зависимости от их архитектуры для

решения широкого ряда задач, в том числе задачи классификации и

предсказания непрерывного значения.

2.4.2.5 Деревья решений и решающие правила

Характерной чертой данной группы алгоритмов является

последовательное принятие решений на основании значений независимых

переменных, за счет предварительного выбора наиболее эффективного

Page 47: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

47

разделения значений каждой независимой переменной, отражающего

разделение выборки наблюдений по классам. Если независимые переменные

имеют вещественный тип, то всю область их значений разбивают на интервалы,

таким образом, чтобы каждый из них соответствовал определенному классу.

Разница между алгоритмами данной группы заключается в формате

представления моделей (список правил, иерархическое дерево решений,

направленный ациклический граф), а также применяемых алгоритмов отбора и

разделения переменных.

2.4.2.6 Методы регрессионного анализа

Данная группа представляет статистические методы построения

математического выражения, отражающего влияние одной или нескольких

независимых переменных на зависимую переменную при условии, что это

выражение будет иметь статистическую значимость. Существует большое

количество различных видов регрессий, предназначенных для решения

широкого спектра задач. Среди них наиболее подходящими с учетом большого

количества практических реализаций и поставленной задачи являются

следующие:

линейная регрессия;

криволинейная регрессия;

логистическая регрессия;

полиномиальная логистическая регрессия;

порядковая регрессия.

2.4.3 Методы построения многоклассовых классификаторов

Отдельно стоит выделить методы формирования многоклассовых

классификаторов на основе методов бинарной классификации, они делятся на

три типа.

Page 48: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

48

методы расширения бинарного классификатора;

метод иерархической классификации;

методы преобразования к бинарному виду.

2.4.3.1 Расширение бинарного классификатора.

Суть подхода заключается в том, чтобы изменить настройки или

архитектуру алгоритмов естественным образом для решения задачи

многоклассовой классификации. Например, для нейронной сети это добавление

выходных нейронов и при необходимости изменение структуры других слоев.

2.4.3.2 Иерархическая классификация.

Проблема мультиклассовой классификации в данном методе решается

путем построения дерева операций классификации таким образом, что каждый

родительский узел представляет из себя набор классов, а разделение

происходит дочерне до тех пор, пока они не будут представлять из себя один

единственный класс.

2.4.3.3 Методы преобразование к бинарному виду.

Один против остальных (один против всех).

Метод заключается в обучении бинарного классификатора для каждого

отдельного класса таким образом, что экземпляры выборки, принадлежащие

данному классу, принимаются принадлежащими первому классу, а все

остальные экземпляры других классов принимаются принадлежащими второму

классу.

При этом необходимо вводить определение вероятность принадлежности

классу, чтобы иметь возможность однозначно определять один класс после

Page 49: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

49

получения результатов работы нескольких классификаторов. Наглядно

принцип работы метода приведен на рисунке 9.

Каждый против каждого.

Метод заключается в том, что для каждой пары классов обучается

отдельный классификатор. В процессе определения класса нового экземпляра

данных, выполняется обработка каждым из составленным классификаторов,

после чего путем «голосования» выбирается класс, соответствующий большему

числу результатов. Наглядно принцип работы метода приведен на рисунке 10.

Рисунок 9 - Представление работы метода один против остальных12

12

Изображение создано в программе Microsoft Word на основе описания работы метода.

- 1 класс - 2 класс - 3 класс

Page 50: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

50

Рисунок 10 - Представление работы метода каждый против каждого13

2.5 Использование базы профилей

Сформированный банк данных представляет из себя одновременно и

основу для разработки различных сервисов, и конечный товар, интерес к

которому имеется у большого числа участников рынка. Учитывая большой

объем информации, содержащейся в базе данных и возможное содержание

персональных данных, собранных не из общедоступных источников,

необходимо обеспечить возможность раздельного доступа к разным данным

профиля для предоставления только необходимого для выполнения конкретной

цели объема информации, а в отдельных случаях, предусмотренных

13

Изображение создано в программе Microsoft Word на основе описания работы метода.

- 1 класс - 2 класс - 3 класс

Page 51: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

51

законодательством, только при наличии у получателя согласия на обработку

передаваемых персональных данных субъекта.

Создание универсального интерфейса доступа к базе данных позволит

удобно использовать ее одновременно как для создания различных сервисов

(бизнес-моделей второго типа) внутри компании, так и предоставляя интерфейс

для широкого круга заинтересованных лиц. В таком случае вся база профилей и

система сбора и обработки данных в целом представляют из себя бизнес-

модель первого типа.

Page 52: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

52

3 РАЗРАБОТКА И ПРИМЕНЕНИЕ МОДЕЛИ ОПРЕДЕЛЕНИЯ

ТИПА ЛИЧНОСТИ ПОЛЬЗОВАТЕЛЯ

3.1 Подготовка

Для практической реализации и проверки теоретического представления

модели был выбран факторный подход к формированию портрета личности,

который, в отличие от типологического, имеет более широкую шкалу

отображения результатов, а, следовательно, построение на его основе

автоматической системы типирования является более сложной задачей. Стоит

еще раз отметить, что целью практической реализации является проверка

наличия четкой связи между открытыми данными о поведении человека в сети

и параметрами, описывающими его реальное состояние, полученными на

основании проверенных методик.

Исследование проходило на базе Общества с ограниченной

ответственностью «Рилейшн Рейт», имеющей опыт работы в направлении

анализа данных из социальных сетей и необходимые для проведения

исследования программные инструменты. Помимо этого, поскольку

исследование является междисциплинарным, в ходе проведения работ

привлекались квалифицированные специалисты в области психологии,

статистики и анализа данных.

С целью формирования модели, определяющей тип личности субъекта по

данным о его активности в сети, необходимо выполнить следующие этапы

работы.

1) Получить сформировать выборку, включающую в себя субъекты, типы

личности которых покрывают весь доступный диапазон оценок

выбранной проверочной методики.

2) Получить согласие респондентов на обработку их персональных данных.

3) Получить эталонных результат по выбранной методике.

Page 53: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

53

4) Получить и выполнить предобработку данных респондентов из

социальной сети.

5) Провести обучение модели на выгруженных данных и валидацию на

основе эталонных результатов методики.

Пользователи отбирались случайным образом в социальной сети

Вконтакте путем рассылки мотивационного сообщения о прохождении теста. С

целью повышения отклика, в качестве поощрения за помощь было обещано

отправить результаты с полной расшифровкой и ответить на возможные

вопросы. Тем же образом, испытуемые, давшие согласие на прохождение

тестирование, находились в ситуации клиента (то есть были заинтересованы в

достоверных результатах), в результате чего высокой вероятностью можно

считать полученные результаты достоверными.

С целью нивелировать недостаток и даже возможное отсутствие людей,

не обладающих высоким показателем социальной активности и экстраверсии, с

помощью коллег и друзей была дополнительно сформирована выборка,

состоящая из людей, по мнению из знакомых, удовлетворявших указанным

условиям.

В тест была внесена информация о защите персональных данных и

условиях их обработки, результаты опроса автоматически сохранялись в базу

данных в обезличенном на всех уровнях виде, для возможности расшифровки,

отдельно от базы данных с результатами была сформирована база данных с

идентификационной информацией для связи результатов теста аккаунтами

респондентов в социальной сети.

3.2 Формирование эталонных результатов

Устойчивую воспроизводимость в Русской языковой культуре пяти

личностных факторов модели большой пятерки, универсальных для других

языковых культур, зафиксировали Александр Георгиевич Шмелев и Похилько

Page 54: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

54

Владимир Иванович [8]. При участии Шмелева в Лаборатории «Гуманитарные

Технологии» был разработан опросник B5sPlus, включающий 100 утверждений,

оцениваемых по 3-балльной шкале Лайкерта («верно», «затрудняюсь ответить»,

«не верно»). Для результатов данного опросника были проведены исследования

валидности, что подтверждает его эффективность и позволяет рассматривать

как инструмент для получения эталонных, с точки зрения целей проводимого

исследования, результатов определения личностных черт по выбранной модели

личности [22]. В ходе выполнения исследования с целью формирования

эталонных результатов для последующей проверки эффективности

разрабатываемой модели была использована седьмая версия опросника B5sPlus

(последняя на момент проведения исследования).

С помощью данной методики проводится оценка по 6 шкалам, первые

пять из которых представляют собой точное воспроизведение факторов

«Большой пятерки» в их международном варианте. Пять этих показателей

имеют следующую интерпретацию:

1) Экстраверсия/интроверсия - высокий полюс фактора - общительность,

уверенность в себе, активная позиция в коммуникации; низкий -

сдержанность, замкнутость.

2) Согласие/независимость - эта шкала является индикатором стиля

межличностного взаимодействия; высокий полюс - склонность к

сотрудничеству, кооперации, дружелюбие, в крайней степени -

ведомость; низкий - тенденция полагаться на свое собственное мнение,

конкурировать, соревноваться с другими людьми, крайняя степень

выраженности - враждебность.

3) Самоконтроль/импульсивность - высокие показатели отражают наличие

такой группы качеств, как пунктуальность, последовательность, умение

следовать алгоритму, стандарту, крайняя степень - педантизм; низкие -

ситуативность, непоследовательность, способность выйти за рамки

Page 55: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

55

стандартных схем действий, в крайней степени - гибкость моральных

суждений и хаотичность.

4) Эмоциональная стабильность/тревожность - эта шкала отражает

устойчивость, быстроту адаптации к стрессовым ситуациям, спокойствие,

стабильность, уверенность в себе - на высоком полюсе шкалы

противоположны эмоциональности, восприимчивости, тревожности,

незащищенности - на низком.

5) Новаторство/консерватизм - эта шкала показывает любознательность,

увлеченность, открытость новому опыту, ориентацию на преобразование

- на высоком полюсе; и консерватизм, прагматическую направленность,

традиционализм, ориентацию на сохранение - на низком.

В тесте также присутствует шкала, определяющая социальную

желательность, но она не была использована в ходе данного исследования [17].

В процессе обработки ответов респондентов была удалена часть записей

по причине неверного заполнения ими вводных данных, что исключало

дальнейшую идентификацию респондентов в социальной сети и возможность

отправки готового результата.

Итоговая база данных состояла из ответов 158 субъектов, а

распределение полученных оценок по шкалам факторов покрывало весь

возможный диапазон, что позволило закончить сбор данных для эталонной

выборки и признать ее достаточной.

3.3 Разработка и оценка модели

Выгрузка данных из социальной сети проводилась с использованием API

социальной сети Вконтакте, позволяющего получить только те, которые

пользователь самостоятельно открыл для общего доступа. Данное свойство

является крайне важным для описания системы, так как даже сокрытие данных

является важным показателем в процессе обработки, а одна из целей работы –

Page 56: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

56

выявить возможность определения типа личности на основе данных, доступных

для свободного сбора и обработки.

Перечень сведений о пользователе, которые были извлечены из

социальной сети для анализа:

перечень заполненных разделов профиля (пол, возраст, интересы,

любимая музыка, фильмы, телешоу, книги, игры, цитаты, о себе,

источники вдохновения, мировоззрение, отношение к курению, главное в

жизни, главное в людях);

список групп и страниц, на которые подписан пользователь;

список аудиозаписей;

список видеозаписей;

количество фотографий и альбомов;

количество друзей;

количество подписчиков;

список и содержание публикаций, сделанных и отмеченных (отметки

«мне нравится» и репосты на странице профиля) пользователем.

Над отдельными данными из перечня была проведена дополнительная

обработка, при помощи программного обеспечения, разработанного в ООО

«Рилейшн Рейт» с целью выделения дополнительной значимой информации.

По причине подписания договора о неразглашении сведений, составляющих

коммерческую тайну, в перечень которых входит также детальная информация

о процессе обработки и содержании входных и обработанных - выходных

данных, ниже приведено только общее описание полученной после обработки

информации.

1) На основе текста постов, написанных пользователем, был проведен

лингвистический анализ, в результате которого были выделены части

речи, их формы, дополнительные языковые структуры и определена

частота их использования.

Page 57: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

57

2) На основе тематического анализа описания групп, содержания

написанных пользователем постов, содержания постов с отметкой «мне

нравится» и репостов, опубликованных на основной странице профиля,

были определены интересы каждого пользователя.

3) На основе аудиозаписей, отображаемых в профиле пользователя, были

определены жанры, а также их количественное соотношение, что

позволило определить основные направления в музыке, предпочитаемые

этим пользователем.

После выгрузки и дополнительного анализа данных, необходимо

преобразовать их для использования с различными алгоритмами построения

моделей. Как было описано ранее, для решения подобной задачи могут

применяться два класса методов.

1) Построение регрессионной модели.

2) Построение классификатора.

В данном случае, поскольку размерность шкал и их интерпретация

позволяет выделить 5 классов для каждой шкалы, возможно применение

методов из обоих подходов. Но для выполнения задачи исследования было

выбрано построение регрессионной модели по нескольким причинам.

Достоинством регрессионной модели в данном случае является легкость

восприятия конечного результата (формула из набора определенных

коэффициентов и свободного члена) и, соответственно, легкость написания

кода на основе такой модели для конечного продукта. Кроме того,

непрерывность предсказываемого значения позволит точнее предсказать

значение и удобнее провести оценку эффективности работы, нежели

дискретное разделение на классы, чего требовал бы выбор в пользу построения

классификатора.

Для дальнейшего построения регрессии необходимо провести подготовку

данных и их преобразование к виду, возможному для использования с

выбранными инструментами анализа. Предобработка данных проводилась с

Page 58: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

58

использованием программных пакетов IBM spss и Microsoft excel по следующей

методике.

1) Числовые переменные, для которые возможен пропуск значения из-за

настроек приватности, а также значения с неограниченным диапазоном

были преобразованы в категориальные. Первое значение категориальной

переменной было сформировано из значений, означающих ошибку

получения данных. Для разбиения оставшегося диапазона значений на

классы был проведен анализ распределения данных, полученных из

социальной сети по всем переменным. Было отмечено, что все данные

имеют распределение, аналогичное представленному на рисунке 11. На

основе этого было сделано предположение, что разделение на три класса,

характеризующих низкую, нормальную и сверхвысокую активность по

выбранному показателю будет достаточным для описания каждой

начальной переменной. Для автоматизации разделения, над данными был

применен алгоритм кластеризации k-means, входным параметром для

которого было разделение на 3 кластера. После преобразования

переменных в категориальные описанным способом, они были разделены

на фиктивные бинарные переменные для последующего использования.

2) Для категориальных переменных был подготовлен набор фиктивных

бинарных переменных. Отдельно были созданы дополнительные

переменные, характеризующие ошибку получения данных из-за настроек

приватности.

3) Из конечного полученного набора данных были удалены побочные

переменные, используемые в процессе анализа на предыдущих этапах и

имеющие заведомо высокий коэффициент корреляции с новыми,

полученными на их основе.

Page 59: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

59

Рисунок 11 - График распределения значений параметра Friends14

После предварительной обработки для каждого из пяти факторов

методики оценки психологического типа в программном пакете IBM spss была

сформирована регрессионная модель на основе данных, полученных после всех

описанных преобразований.

Очевидно, что не все переменные будут одинаково влиять на каждую из

пяти факторных шкал выбранной модели описания личности, а некоторые из

них могут вообще не оказывать влияния на конечный результат. В связи с этим

был выбран пошаговый метод построения регрессии, позволяющий построить

адекватную и точную модель без необходимости учитывать все переменные

14

График подготовлен в программе Microsoft Excel на основании значений количества друзей,

полученных для выборки из социальной сети Вконтакте.

Page 60: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

60

Важным свойством пошаговой процедуры является то, что объясняющие

переменные, включенные в модель на предыдущих этапах, могут впоследствии

исключаться из рассмотрения. Это значит, что на каждом этапе объясняющие

переменные как включаются, так и исключаются из модели. Пошаговая

регрессия останавливается, когда ни добавление, ни удаление объясняющих

переменных не повышают точность модели.

Для включения объясняющих переменных в модель уровень значимости

был принят равным 0,05, а пороговый уровень значимости для исключения

переменной из модели был принят равным 0,1.

По указанной ранее причине о необходимости сохранения режима

коммерческой тайны, будет приведено неполное описание полученных

моделей. Из 133 оцениваемых параметра значимыми для модели определения

личности были определены:

для шкалы экстраверсии - 35 показателей;

для шкалы доброжелательности - 47 показателей;

для шкалы добросовестности – 10 показателей;

для шкалы эмоциональной стабильности – 10 показателей;

для шкалы открытости новому опыту – 10показателей.

Параметр в данном случае определяется всем набором фиктивных

переменных, полученных из одной категориальной.

Для проведения проверки полученных моделей, в соответствии с

описанием, представленном лабораторией - разработчиком тестовой методики,

шкалы, характеризующие выраженность факторов, были разделены на пять

условных областей следующим образом:

сверхвыраженность фактора - от 1 до 2.4 стенов и от 8.6 до 10 стенов;

выраженность фактора - от 2.5 до 4.4 стенов и от 6.6 до 8.5 стенов;

среднее (нормальное) значение - от 4.5 до 6.5 стенов.

Page 61: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

61

При использовании полученной регрессионной модели необходимо

учитывать, что предсказанные значения, выходящие за рамки определенной

шкалы (от 0 до 10 стенов), необходимо интерпретировать как

сверхвыраженность фактора и относить к 1 или 5 области соответственно.

Оценка модели была получена путем сравнения эталонного и

предсказанного моделью уровней выраженности каждого отдельного фактора

путем расчета отклонения (ошибки предсказания), с последующим подсчетом

долей от общего числа предсказаний для отклонения на 2 области, на 1 область

и точного определения уровня выраженности. Итоговые результаты оценки

точности регрессионных моделей представлены в таблице 4.

Таблица 4 - Результаты оценки предсказания полученными моделями15

Определяемая

факторная шкала

Показатель отклонения Значение показателя

отклонения

Экстраверсия Точное определение уровня 52%

Сдвиг на 1 область 45%

Сдвиг на 2 области 3%

Доброжелательность Точное определение класса 62%

Сдвиг на 1 область 36%

Сдвиг на 2 области 2%

Добросовестность Точное определение класса 36%

Сдвиг на 1 область 59%

Сдвиг на 2 области 6%

Эмоциональная Точное определение класса 66%

15

Таблица составлена на основе результатов проведенного исследования.

Page 62: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

62

стабильность Сдвиг на 1 область 32%

Сдвиг на 2 области 1%

Открытость новому

опыту

Точное определение класса 49%

Сдвиг на 1 область 40%

Сдвиг на 2 области 10%

Из таблицы видно, что большая часть результатов предсказания (более 90

процентов) находятся в пределах отклонения на один класс. Исходя из этого

можно говорить о явно наблюдаемой зависимости данных об активности

пользователей в сети с их реальным типом личности, а также о

работоспособности модели и ее применимости в настоящем виде в

определенном наборе задач.

В связи с отмеченной, явно наблюдаемой корреляцией результатов

предсказаний модели с результатами проведения опроса по верифицированной

методике можно говорить о возможном повышении точности модели путем

изменения алгоритмов предобработки и получения данных, а также подбором

методик анализа и представления результатов.

Необходимо также учитывать характер анализа, так как он проводится

без непосредственного участия анализируемого, что вносит определенные

изменения в оценку результатов и требует привлечения специалистов из

области психологии для проведения дополнительного анализа точности

модели, принимая во внимание наличие отклонения в определении типов

оригинальной методикой и влияние анализируемого при его непосредственном

участии в процессе проведения тестирования.

3.4 Пример применения полученных профилей

Результаты проведенного исследования были использованы для

повышения точности результатов разработанной модели и легли в основу

разработки системы автоматизированного определения типа личности на

основании двух типологий: Майерс-Бриггс и Большой пятерки. Эта система в

Page 63: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

63

последствии была успешно применена для разработки нескольких

коммерческих продуктов, в частности:

развлекательного сервиса (Рис. 12).

сервиса по определению совместимости людей и помощи в укреплении

их взаимоотношений (Рис. 13);

Разработанные на основе предложенной методики системы также

позволяют распределять вычисления и проводить их параллельно, существенно

снижая нагрузку на оборудование и уменьшая общее время анализа при

большом объеме обрабатываемых данных, что положительно сказывается на

расширении сфер их применения.

Page 64: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

64

Рисунок 12 - Пример использования результатов определения

психологического типа в развлекательном сервисе16

16

Изображение получено путем создания снимка области вывода результатов на странице интернет

сервиса Psyhot

Page 65: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

65

Рисунок 13 - Пример использования результатов определения

психологического типа в сервисе по определению совместимости людей и

помощи в укреплении их взаимоотношений17

17

Изображение получено путем создания снимка части области вывода результатов на странице

интернет сервиса Relation Rate

Page 66: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

66

Потенциально, описанная модель может применяться для построения

сервисов, покрывающих все области применения методик определения

психологических типов, с учетом привлечения к ее проектированию

специалистов для оценки точности результатов, например:

психодиагностические обследования личности с целью

профессионального отбора;

комплектование различных групп;

профессиональные консультации;

определение направлений психологической помощи;

самопознание;

и многие другие.

Page 67: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

67

ЗАКЛЮЧЕНИЕ

Использование результатов анализа персональных данных в

коммерческих целях нашло широкое применение в современной жизни, редкий

доклад о современных технологиях или презентация различных

потребительских товаров не касаются данной тематики.

В работе был подробно рассмотрен процесс монетизации персональных

данных, отдельные этапы этого процесса, проблемы и методы, применяемые

для их решения, включая основной объект работы - описание модели сбора,

обработки и реализации результатов анализа персональных данных на основе

типологии личности и изменяемых во времени характеристик пользователя.

Представленная в практической части работы реализация модели

определения типа личности на основе только открытых данных из

общедоступного источника, в частности, социальной сети вконтакте,

демонстрирует наличие устойчивой корреляции между активностью

пользователя в сети и его описанием, полученным с помощью традиционной

методики.

Настоящая подход может быть использован совместно с другими

методиками определения личности, источниками информации и выделением

других параметров, описывающих активность человека, что может привести к

получению более точной модели.

Таким образом, при дальнейшей разработке темы исследования, данный

подход может использоваться во множестве смежных областей и помочь в

решении целого ряда проблем.

1) Нормализация результатов обратной связи от пользователей. Известно,

что представление об оценочной шкале у разных людей отличается: одни

отмечают понравившиеся и непонравившиеся объекты используя

максимально и минимально доступный значения диапазона оценок,

другие же используют лишь его часть, занижая максимальные и завышая

Page 68: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

68

минимальные оценки, третьи оценивают только понравившиеся, или

наоборот, непонравившиеся объекты и так далее. Это вносит неточности

в системы прогнозирования обратной связи и снижает эффективность

рекомендательных систем для таких людей.

2) При реализации поисковой составляющий и интеграции достаточного

числа источников подход позволяет решить проблему «холодного старта»

рекомендательных систем.

3) Подход с учетом изменяемых во времени интересов и прочих параметров

пользователя позволяет даже по истечение значительного количества

времени сохранять представление о пользователе актуальным, повышая

уровень лояльности к построенным на основе такой информации

сервисам и предоставляемым услугам.

4) Подход к фильтрации источников позволит решить проблему,

сравнительно недавно возникшую на рынке интернет рекламы с

появлением продуктов, предназначенных для подрыва рекламных

компаний, аналогичных AdNauseam.

5) Описанный подход к анализу аномалий и зашумленных аккаунтов, а

также приведенные примеры обработки данных демонстрируют

возможность применения их для улучшения качества оказания услуг

социальными сетями, форумами и многими другими сервисами, где

используются связанные данные [2].

6) Анализ временного изменения интересов и поведения пользователя

может быть использован с целью предотвращения нарушения и

преступлений, путем выявления сигнатур, свойственных для опасного

изменения.

7) Поддержка принятия решения при диагностике в медицинских целях с

учетом увеличения точности определения типа и, аналогично

предыдущему пункту, анализу сигнатур поведения, свойственных

проявлению различных недугов.

Page 69: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

69

8) Применение для оценки кредитоспособности и надежности заемщика

[20].

9) А также во многих других областях, связанных с анализом поведения,

психологического портрета и так далее.

Page 70: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

70

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Cuperman R., Ickes W. Big Five predictors of behavior and perceptions in

initial dyadic interactions: Personality similarity helps extraverts and introverts,

but hurts «disagreeables» // Journal of Personality and Social Psychology.

2009. №97. С.667-684.

2. Holland B.R. Enabling Open Source Intelligence (OSINT) in private social

networks: магистерская диссертация. - Эймс: Iowa State University, 2012,

20с.

3. Lee K., Ashton M.C. The HEXACO personality factors in the indigenous

personality lexicons of English and 11 other languages // Journal of

personality. 2008. №5. С.1001-1054

4. Mohamed Aly Survey on multiclass classification methods // Technical Report,

Caltech. 2005.

5. Neha Mehra, Surendra Gupta Survey on multiclass classification methods //

International Journal of Computer Science and Information Technologies.

2013. №4 (4). С.572-576.

6. Nello Cristianini, John Shawe-Taylor An introduction to support vector

machines and other kernel-based learning methods Cambridge: Cambridge

University Press, 2000. 204с.

7. O'Connor B. A quantitative review of the comprehensiveness of the five-factor

model in relation to popular personality inventories // Assessment. 2002. №2

(9): С.188-203.

8. Shmelyov A.G., Pokhil’ko V.I. A taxonomy-oriented study of Russian

personality-trait names // European Journal of Personality. 1993. №7. С.1-17.

9. The New York Times [Электронный ресурс] // How Companies Learn Your

Secrets / URL: http://www.nytimes.com/2012/02/19/magazine/shopping-

habits.html (Дата обращения 12.04.2017).

Page 71: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

71

10. Анастази А., Урбина С. Психологическое тестирование. СПБ.: Питер,

2009. 688с.

11. Беркинблит М.Б. Нейронные сети. М.: МИРОС и ВЗМШ РАО, 1993. 96 с.

12. Букалов А.В. соционика, типологии юнга и майерс-бриггс: сходства и

различия // Соционика, ментология и психология личности. 1998. №4.

13. Википедия – свободная энциклопедия [Электронный ресурс] //

пересмотренный личностный опросник NEO / URL:

https://ru.wikipedia.org/wiki/NEO_PI-R (Дата обращения 23.04.2017).

14. Вьюгин В. Математические основы машинного обучения и

прогнозирования. М.: МЦМНО, 2014. 304с.

15. Горбань А.Н. Обучение нейронных сетей. М.: СССР-США СП

«Параграф», 1990. 160с.

16. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная

регрессия. - 3-е изд. М.: «Диалектика», 2007. 912с.

17. Информационный сайт с описанием психологических тестов

Лаборатории «Гуманитарные Технологии» // Описание сокращенной

версии теста диагностики уровня выраженности факторов Большой

пятерки / URL: http://maintest.ru/tests/motiv/b5/ (Дата обращения

01.12.2015).

18. Крупнейший в Европе ресурс для IT-специалистов [Электронный ресурс]

// Торговля знает, когда вы ждете ребенка / URL:

https://habrahabr.ru/post/147284/ (Дата обращения 10.04.2017).

19. Левитин А.В. Алгоритмы. Введение в разработку и анализ М.: Вильямс,

2006. 576с.

20. Мадера А.Г. Прогнозирование кредитной благонадежности заемщика //

Финансы и кредит. 2013. №12 (540). С.2-10

21. Мельников В.М., Ямпольский Л.Т. Введение в экспериментальную

психологию личности. М.: Просвещение, 1985. 320с.

Page 72: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

72

22. Официальный сайт Лаборатории «Гуманитарные технологии» //

Описание компьютерного тест-опросника B5sPlus_7 / URL:

http://www.ht.ru/cms/new/10979-2009-09-07-05-32-43 (Дата обращения

01.12.2015).

23. Профессиональный вики-ресурс, посвященный машинному обучению и

интеллектуальному анализу данных [Электронный ресурс] // Раздел,

посвященный алгоритмам классификации / URL:

http://www.machinelearning.ru/wiki/index.php?title=Категория:Классификац

ия (Дата обращения 6.03.2017).

24. Профессиональный вики-ресурс, посвященный машинному обучению и

интеллектуальному анализу данных [Электронный ресурс] // Раздел,

посвященный алгоритмам регрессионного анализа / URL:

http://www.machinelearning.ru/wiki/index.php?title=Категория:Регрессионн

ый_анализ (Дата обращения 8.03.2017).

25. Рейнин Г.Р. Тайны типа. Модели. Группы. Признаки. М.: Черная Белка,

2010. 296с.

26. Сайт компании Kleiner, Perkins, Caufield and Byers (KPCB) [Электронный

ресурс] // Mary Meeker, Internet trends 2017 - Code conference / URL:

http://www.kpcb.com/internet-trends (Дата обращения 05.05.2017).

27. Скиба С. А., Лойко В. И. Определение типологии потребителя на основе

интеллектуального анализа данных профиля пользователя социальной

сети. Часть i // Научный журнал КубГАУ. 2015. №107. С.1648-1670

28. Сордия Георгий Малхазиевич Взаимосвязь личностных характеристик

пользователя с его активностью в Интернете // Вестник КГУ. 2011. №3.

С.267-271

29. Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / под

ред. Ллойда Э., Ледермана У., Тюрина Ю. Н. М.: Финансы и статистика,

1989. 510с.

Page 73: Анализ пользовательских данных с целью ...elar.urfu.ru/bitstream/10995/54390/1/m_th_s.n.lubarsky... · 2019-06-24 · содержания организационных

73

30. Субботин С.В., Большаков Д.Ю. Применение байесовского

классификатора для распознавания классов целей // Журнал

радиоэлектроники. 2006. № 4.

31. Хайкин, С. Нейронные сети: Полный курс. - 2-е изд. М.: «Вильямс», 2006.

1104с.

32. Юнг К.Г. Психологические типы. М.: Алфавит, 1992. 104с.

33. Ямпольский Л. Т. Анализ структуры связи шкал личностных опросников

// Вопросы психологии. 1981. №2. С.90-100