SpeechLock: voice to vector, voice similarity

SpeechLock

Идея

Не еш меня, подумой

same person ✓

not same person ✘

Hello, I’m Tvorozhek.Let me in, please.

тыгыдык-тыгыдык гыы я лошадка

Что тут вообще происходит?

Датасет

http://forvo.comСкачано 7406 произношений.

Самые популярные слова:

1 66привет 52здравствуйте 27машина 26русский 21Китай 20медведь 19счастье 19котёнок 19

http://ru.forvo.com/languages/ru/



Первая попытка

Предобработка голосов

1. Убрали все звуки длиною меньше секунды

2. Выбрали случайную секунду

3. Нарезали на кусочки по 25 мс с пересечениями по 15 мс

4. Применили преобразование Фурье к каждому кусочку

Преобразование Фурье позволяет получить “фичи” голосов

до Фурье

после Фурье

Структура нейросети

Речь голоса 1

Речь голоса X

Conv2D MaxPool2D Dense

Conv2D MaxPool2D Dense

Concatsame weights not same w.

In

In

Out

похоже? не похоже?

batch size x sound channels x pieces x fft sound

Вторая попытка

Спектрограммы

По горизонтали время.

По вертикали частоты.

Цвет означает амплитуды, соответствующие определенной частоте. yulia_m: кусь

yulia_m: ветчина

Структура нейросети

Conv1D MaxPool1D GlobalPool Dense

Речь с голосом 1

Другая речь с голосом 1

Речь с голосом X

Речь с голосом 1, как вектор

Речь с голосом X, как вектор

In

Out

n filters = 100filter size = 5leaky rectify

pool size = 2 n units = 300

batch size x frequency x time

размерность векторов = 150

Другая речь с голосом 1, как

вектор

Функция потерь на следующем слайде >>>

Функция потерь

Функция предсказания

64%AUC ROC

Похожие работы

FaceNet: A Unified Embedding for Face Recognition and Clustering https://arxiv.org/pdf/1503.03832v3.pdf

Recommending music on Spotify with deep learning http://benanne.github.io/2014/08/05/spotify-cnns.html

https://arxiv.org/pdf/1503.03832v3.pdf

http://benanne.github.io/2014/08/05/spotify-cnns.html



Ссылки

github.com/xenx/speech

Презентация на гитхабе pdf

Поставь звездочку!

https://github.com/xenx/speech

https://github.com/xenx/speech

Software

SpeechLock: voice to vector, voice similarity