Upload
ainl-conferences
View
215
Download
1
Embed Size (px)
DESCRIPTION
Доклад посвящен практическим аспектам применения речевых интерфейсов на основе опыта разработки телефонных систем для контакт-центров. В докладе будут описаны основные ограничения, вызванные качеством распознавания речи, спонтанным характером речи и когнитивными способностями человека. Кроме того, будут рассмотрены основные метрики эффективности интерфейсов и лучшие практики, применяемые в их разработке. Наконец, часть доклада будет касаться того, как появление дополнительной модальности способно повысить эффективность речевых интерфейсов.
Citation preview
Унимодальные речевые интерфейсы: проблемы и
перспективыВладислав Мараев, Центр речевых технологий
Центр речевых технологий
20 лет инноваций Более 370
сотрудников ученые и программисты кандидатов наук средний возраст сотрудников 80% 28 30 лет
Области применения унимодальных речевых интерфейсов
• Автомобили
• Здравоохранение
• Военные симуляторы
• Контакт-центры
• Умный дом
• Мобильные и web-консультанты
3
4
VUI GUIМало информации в локусе внимания
Много информации в локусе внимания
Последовательный Параллельный
Занимает время (или тратит?)
Занимает пространство
Много ошибок Мало ошибок
Информация ускользает
Стабильность информации в локусе
Автома
тиза
ция
Качество дизайна
GUI
VUI
Отличия от графического интерфейса
Ограничения речевых интерфейсовРаспознавание речи-
• компьютер распознает иначе • коррекция ошибок: речь по
слогам • ограничение грамматик и
языковых моделей • изменения в акустических
моделях
Разговорная речь-• спонтанный характер речи • этикет в разговоре • антропоморфизм • выразительные средства
!
Когнитивные ограничения-• медленное последовательное восприятие • кратковременная память • параллельная активность будет мешать
Goal-oriented vs Process-oriented-Важно учитывать то, что
у абонентов всегда есть цель
5
Ответим на несколько вопросов• Женский голос или мужской?
• Антропоморфизм: радость или зло?
• Шутим ли шутки, реагируем ли на мат?
• У кого инициатива: у пользователя или у системы?
• Синтез или предзаписанные сообщения?
• SLM или грамматики?
6
Рекомендации (1)• Постоянство и предсказуемость.
• Простые и короткие фразы, особенно, самая первая фраза.
• Говорить, что система автоматическая и управляется голосом.
• Коррекция ошибок во избежание FA.
• В какой момент возможно перебить?
• Система должна общаться на языке абонентов.
• В некоторых случаях DTMF может быть полезен.7
Рекомендации (2)• Опции меню не должны звучать похоже.
• Говорить только то, что действительно нужно, когда это нужно.
• Избегать чередования распознавания и DTMF, грамматик и SLM.
• “Скажите”, “Произнесите”, “Выберите”, “Назовите”.
• Сообщать, в каком месте меню находится абонент.
• Использование звуковых иконок.
• Hotword Barge-in для навигационных команд.8
Примеры
Выбор кинотеатра
Расписание
Дата
Кинотеатр
Фильм
9
Сеть кинотеатров Поиск банкоматов
Адрес
Город Функции
Хорошие новости
• Речь остается наиболее естественным способом взаимодействия
• Хорошая система поможет быстрее достичь цели, чем оператор.
• Качество распознавания речи растет с каждым годом.
• Телефоны и контакт-центры не исчезнут в ближайшие десятилетия.
10
Литература
• Cohen, M., Giangola, J., & Balogh, J. (2004). Voice User Interface Design. Boston: Addison-Wesley.
• Kotelly, B. (2003). The Art and Business of Speech Recognition: Creating the Noble Voice. Boston: Addison-Wesley.
• Gardner-Bonneau D. and Blanchard H. (2010). Human Factors and Voice Interactive Systems. Lexington: Springer.
11
— Если у вас есть ещё вопросы, оставайтесь на линии.