SpeechLock: voice to vector, voice similarity

Preview:

Citation preview

SpeechLock

Идея

Не еш меня, подумой

same person ✓

not same person ✘

Hello, I’m Tvorozhek.Let me in, please.

тыгыдык-тыгыдык гыы я лошадка

Что тут вообще происходит?

Датасет

http://forvo.comСкачано 7406 произношений.

Самые популярные слова:

1 66привет 52здравствуйте 27машина 26русский 21Китай 20медведь 19счастье 19котёнок 19

Первая попытка

Предобработка голосов

1. Убрали все звуки длиною меньше секунды

2. Выбрали случайную секунду

3. Нарезали на кусочки по 25 мс с пересечениями по 15 мс

4. Применили преобразование Фурье к каждому кусочку

Преобразование Фурье позволяет получить “фичи” голосов

до Фурье

после Фурье

Структура нейросети

Речь голоса 1

Речь голоса X

Conv2D MaxPool2D Dense

Conv2D MaxPool2D Dense

Concatsame weights not same w.

In

In

Out

похоже? не похоже?

batch size x sound channels x pieces x fft sound

Вторая попытка

Спектрограммы

По горизонтали время.

По вертикали частоты.

Цвет означает амплитуды, соответствующие определенной частоте. yulia_m: кусь

yulia_m: ветчина

Структура нейросети

Conv1D MaxPool1D GlobalPool Dense

Речь с голосом 1

Другая речь с голосом 1

Речь с голосом X

Речь с голосом 1, как вектор

Речь с голосом X, как вектор

In

Out

n filters = 100filter size = 5leaky rectify

pool size = 2 n units = 300

batch size x frequency x time

размерность векторов = 150

Другая речь с голосом 1, как

вектор

Функция потерь на следующем слайде >>>

Функция потерь

Функция предсказания

64%AUC ROC

Похожие работы

FaceNet: A Unified Embedding for Face Recognition and Clustering https://arxiv.org/pdf/1503.03832v3.pdf

Recommending music on Spotify with deep learning http://benanne.github.io/2014/08/05/spotify-cnns.html

Ссылки

github.com/xenx/speech

Презентация на гитхабе pdf

Поставь звездочку!

Recommended