14
SpeechLock

SpeechLock: voice to vector, voice similarity

Embed Size (px)

Citation preview

Page 1: SpeechLock: voice to vector, voice similarity

SpeechLock

Page 2: SpeechLock: voice to vector, voice similarity

Идея

Не еш меня, подумой

same person ✓

not same person ✘

Hello, I’m Tvorozhek.Let me in, please.

тыгыдык-тыгыдык гыы я лошадка

Что тут вообще происходит?

Page 3: SpeechLock: voice to vector, voice similarity

Датасет

http://forvo.comСкачано 7406 произношений.

Самые популярные слова:

1 66привет 52здравствуйте 27машина 26русский 21Китай 20медведь 19счастье 19котёнок 19

Page 4: SpeechLock: voice to vector, voice similarity

Первая попытка

Page 5: SpeechLock: voice to vector, voice similarity

Предобработка голосов

1. Убрали все звуки длиною меньше секунды

2. Выбрали случайную секунду

3. Нарезали на кусочки по 25 мс с пересечениями по 15 мс

4. Применили преобразование Фурье к каждому кусочку

Преобразование Фурье позволяет получить “фичи” голосов

до Фурье

после Фурье

Page 6: SpeechLock: voice to vector, voice similarity

Структура нейросети

Речь голоса 1

Речь голоса X

Conv2D MaxPool2D Dense

Conv2D MaxPool2D Dense

Concatsame weights not same w.

In

In

Out

похоже? не похоже?

batch size x sound channels x pieces x fft sound

Page 7: SpeechLock: voice to vector, voice similarity

Вторая попытка

Page 8: SpeechLock: voice to vector, voice similarity

Спектрограммы

По горизонтали время.

По вертикали частоты.

Цвет означает амплитуды, соответствующие определенной частоте. yulia_m: кусь

yulia_m: ветчина

Page 9: SpeechLock: voice to vector, voice similarity

Структура нейросети

Conv1D MaxPool1D GlobalPool Dense

Речь с голосом 1

Другая речь с голосом 1

Речь с голосом X

Речь с голосом 1, как вектор

Речь с голосом X, как вектор

In

Out

n filters = 100filter size = 5leaky rectify

pool size = 2 n units = 300

batch size x frequency x time

размерность векторов = 150

Другая речь с голосом 1, как

вектор

Функция потерь на следующем слайде >>>

Page 10: SpeechLock: voice to vector, voice similarity

Функция потерь

Page 11: SpeechLock: voice to vector, voice similarity

Функция предсказания

Page 12: SpeechLock: voice to vector, voice similarity

64%AUC ROC

Page 13: SpeechLock: voice to vector, voice similarity

Похожие работы

FaceNet: A Unified Embedding for Face Recognition and Clustering https://arxiv.org/pdf/1503.03832v3.pdf

Recommending music on Spotify with deep learning http://benanne.github.io/2014/08/05/spotify-cnns.html

Page 14: SpeechLock: voice to vector, voice similarity

Ссылки

github.com/xenx/speech

Презентация на гитхабе pdf

Поставь звездочку!