Голосовой интерфейс. Примеры удачных решений

Twitter

Голосовой интерфейс (или «голосовой интерфейс пользователя») при помощи голосовой\речевой платформы делает возможным взаимодействие человека и компьютера для запуска автоматизированного сервиса или процесса.

Ранее контролировать устройство при помощи голоса было возможно только в научной фантастике . До недавнего времени считалось областью искусственного интеллекта . Тем не менее, с развитием технологий ГИ стал всё более распространённым, человек всё чаще пользуется преимуществами этой бесконтактной технологии.

Однако, использование ГИ имеет свои сложности. Люди с малой долей терпения относятся к «машине, которая не понимает». Следовательно, ГИ должен работать почти безошибочно, а значит, стабильно реагировать на входные данные, иначе пользователи не будут применять ГИ, либо ГИ станет объектом насмешек. Для того, чтобы создать стоящий голосовой интерфейс, необходимы междисциплинарные знания в информатике , лингвистике и психологии - дорогостоящие навыки, которые нелегко приобрести. Даже при наличии продвинутых средств разработки, создавая эффективный ГИ, нужно отдавать себе отчёт в том, какие задачи будет выполнять ГИ, и на какую целевую аудиторию он ориентирован. Чем лучше ГИ будет подходить под когнитивную модель задания пользователя, тем легче будет использовать ГИ без или с минимальным обучением, что повысит его эффективность и степень удовлетворённости пользователей.

Очень важны особенности целевой аудитории. К примеру, создавая ГИ для широкой публики, нужно уделить особое внимание простоте использования и большому количеству инструкций и подсказок для начинающих. В то время, как придумывая ГИ для небольшой группы продвинутых пользователей (в том числе для техподдержки), нужно больше думать о продуктивности, чем о подсказках и инструкциях. Такие приложения должны систематизировать обработку вызовов, минимизировать количество подсказок, устранить ненужные повторения, использовать принцип «смешанной инициативы», который позволит звонящему вносить разные типы информации в одном высказывании и в любом порядке или комбинации. Иными словами, ГИ должен быть специально создан для конкретных технологических процессов, которые нужно автоматизировать.

Голосовой интерфейс подойдёт не для каждого технологического процесса. В общем, чем более многогранны запросы и операции, тем сложнее их будет автоматизировать, и тем большая существует вероятность, что ГИ не подойдет для использования широкой публикой. В некоторых случаях, автоматизация процесса в принципе невозможна, поэтому единственный выход - использование консультанта-человека. К примеру, будет очень сложно автоматизировать горячую линию юридической поддержки. С другой стороны, ГИ прекрасно подойдёт для обработки быстрых и однообразных операций, таких как изменение статуса заказа, заполнение графы «время» или «стоимость», или перевод средств между счетами.

Энциклопедичный YouTube

1 / 2

Yandex.SpeechKit - комплекс речевых технологий Яндекса

Субтитры

Дальнейшее использование

В карманных устройствах, таких как КПК или мобильные телефоны , для ввода информации используются маленькие кнопки, которые либо встроены в гаджет, либо являются частью интерфейса с сенсорным экраном, как на Apple iPod Touch или iPhone . Постоянно нажимать на кнопки таких девайсов утомительно, к тому же может привести к ошибкам, поэтому лёгкий в использовании, точный и надёжный голосовой интерфейс мог бы стать глобальным прорывом в использовании карманных устройств. Кроме того, ГИ мог бы стать эффективным в использовании ноутбуков и стационарных компьютеров, так как решил бы проблемы, связанные с использованием клавиатуры и мыши , в том числе травмы, связанные с постоянными нагрузками, такие как синдром запястного канала , а также устранил бы препятствие в виде низкой скорости печати, что важно для начинающих пользователей. Более того, если вы используете клавиатуру, то это предполагает, что постоянно находитесь перед монитором, в то время, как голосовой интерфейс позволяет вам свободно передвигаться, так как голосовой ввод информации совсем не подразумевает, что вы будете смотреть на клавиатуру.

Такие усовершенствования буквально изменят дизайн устройств, а также полностью преобразят взаимодействие с ними. Экраны мобильных устройств станут больше, так как клавиатура больше будет не нужна. На сенсорных аппаратах будет не нужно делить дисплей на содержимое и на экранную клавиатуру, а значит, информацию можно будет просматривать в полный экран. Ноутбуки фактически уменьшатся вдвое, так как клавиатура будет ни к чему, все внутренние компоненты поместятся за дисплеем, следовательно, ноутбук просто превратится в планшетный компьютер . Стационарный компьютер состоял бы из системного блока и монитора, а место на рабочем столе, занимаемое простой клавиатурой, а также клавиатурой выдвигаемой, освободилось бы. Пульты дистанционного управления телевизором, панели управления на десятках устройств - от микроволновой печи до копировального аппарата - также стали бы не нужны.

Тем не менее, пришлось бы преодолеть большое количество проблем, чтобы претворить ГИ в жизнь. Во-первых, ГИ должен быть настолько хорошо устроен, чтобы различать голосовые команды и обычный разговор; в противном случае будет зафиксирован неверный ввод данных, и устройство отреагирует ошибочно. Стандартная реплика «Компьютер!» как говорят персонажи известной научно-фантастических киноэпопеи «Звёздный путь », могла бы активировать ГИ и подготовить устройство принять информацию того же говорящего. Предположительно, ГИ мог бы иметь человеческий облик: голос или экранный персонаж, который бы, например, мог отвечать и поддерживать диалог для уточнения запроса пользователя.

Во-вторых, ГИ мог бы взаимодействовать с высокотехнологичным программным обеспечением, чтобы тщательно обработать и найти (получить) информацию, или осуществить действие в соответствии с преференциями пользователя. К примеру, если вам нужна информация из определённой газеты и в виде списка, то вы можете сказать: «Компьютер, найди информацию о прошедшем вчера наводнении на юге Китая», а в ответ ГИ, учитывая преференции, «найдёт» факты о «наводнении» на «юге Китая» из нужного источника, преобразует в форму списка и представит на экране или в звуковой форме, приведя цитату. Таким образом, будет необходим точный механизм распознавания речи, с некоторой долей искусственного интеллекта по части устройства ГИ.

Фонограммы, записанные с использованием цифровых диктофонов «Гном Р» и «Гном 2М» удовлетворяют требованиям, предъявляемым к фонограммам, поступающим для проведения фоноскопических экспертиз, и пригодны для идентификации личности по голосу и речи...

Первый заместитель начальника

Диктофон «Гном 2М» неоднократно применялся для записи конференций и семинаров в сложной акустической обстановке, записанные фонограммы отличаются высоким качеством. Встроенная функция шумоочистки позволяет улучшить качество воспроизведения фонограмм...

Ведущий инженер ИПК БНТУ

Институт повышения квалификации и переподготовки кадров БНТУ

За срок эксплуатации «Гном Р» зарекомендовал себя с положительной стороны. Высокое качество записи при минимальных габаритах, большая продолжительность звукозаписи, оперативная передача накопленной информации из встроенной памяти диктофона в ПЭВМ...

Старший офицер 3-го отдела седьмого управления

Генерального штаба Вооруженных Сил РБ

Фонограммы, записанные с использованием системы «Незабудка II», удовлетворяют требованиям, предъявляемым к многоканальным цифровым комплексам регистрации речевых сообщений по телефонным каналам связи, и пригодны для идентификации личности по голосу и речи...

Начальник центра

Государственный экспертно-криминалистический центр

Неограниченное количество оповещаемых абонентов, большое количество одновременно обрабатываемых заданий сделает «Рупор» незаменимым помощником в работе сотрудников кредитного отдела филиала № 524 ОАО «АСБ Беларусбанка...

Заместитель директора – начальник центра розничного бизнеса

Филиал № 524 ОАО «АСБ Беларусбанк»

Система автоматического оповещения «Рупор» работала по аналоговым телефонным линиям и опробовалась с целью оповещения личного состава. Система обслуживала 100 абонентов, работала стабильно и не требовала постоянного технического обслуживания...

Исполняющий обязанности военного комиссара

Военный комиссариат г. Минска

Система записи «Незабудка II» обеспечивает прием голосовых сообщений жильцов, качественную запись их на компьютер, возможность прослушивания записанных сообщений и занесения информации в текстовую базу данных. Система оповещения «Рупор» производит автоматическое оповещение должников...

Начальник отдела АСУ

УП «ЖРЭО Советского района г. Минска»

Система «Рупор» обеспечивает оповещение большого количества абонентов в сжатые сроки в соответствии с установленными параметрами с предоставлением отчёта по проведённому оповещению, работает надёжно, полностью соответствует предъявленным к ней требованиям...

Директор департамента розничного бизнеса

В мобильную систему записи и документирования речи «Протокол» входит цифровой диктофон «Гном 2М» и компьютерный транскрайбер «Цезарь». Диктофон «Гном 2М» позволяет получать качественную запись совещаний и заседаний, а транскрайбер «Цезарь» значительно увеличивает скорость работы по переводу звуковой информации в текстовый документ...

Ведущий специалист

Институт государства и права Академии наук РБ

Голосовой пользовательский интерфейс: научная фантастика или реальность?

В области информационных технологий средства взаимодействия пользователя с технической системой принято называть интерфейсом. Интерфейсы бывают разные и реализуются разными средствами и методами. Например, всем известен графический интерфейс, который основан на использовании компьютерной графики для того, чтобы отображать пользователю необходимую ему информацию в наглядном виде. Необходимо отметить, что одной из важнейших задач разработки современных технических систем является обеспечение дружественного интерфейса с пользователем. Другими словами, современные компьютерные приложения все в большей степени становятся ориентированными на пользователя.

Очевидно, что одной из самых естественных форм взаимодействия для человека является речь. Широко распространено мнение, что, голосовой интерфейс может улучшить существующий пользовательский интерфейс, так как считается, что он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером. Голосовой пользовательский интерфейс является, пожалуй, решающим фактором успеха любой системы автоматического распознавания речи, от него во многом зависит, каким будет впечатление пользователя от использования системы.

Голосовой пользовательский интерфейс позволяет человеку взаимодействовать с компьютером с целью запуска автоматизированного процесса или услуги. Элементами голосового пользовательского интерфейса являются системные подсказки, грамматика и алгоритм ведения диалога. Подсказки, или сообщения системы, представляют собой ранее записанные или синтезированные реплики, которые пользователь слышит во время диалога. Грамматика содержит набор возможных запросов и ответов пользователя. Система способна распознавать лишь те слова, предложения или фразы, которые включены в грамматику. Под алгоритмом ведения диалога понимается последовательность действий, которые выполняет система.

Несмотря на большую актуальность, далеко не все задачи разработки голосового интерфейса в настоящее время можно считать решенными. Проблема разработки голосового интерфейса является достаточно сложной и комплексной, что требует от разработчика знаний в различных предметных областях. Для создания качественного голосового пользовательского интерфейса необходимы знания в области компьютерных наук, лингвистики и психологии поведения человека. Даже при наличии продвинутых средств проектирования, разработка эффективного голосового пользовательского интерфейса требует от его создателей детального понимания как задач, выполняемых системой, так и психологии пользователей системы.

Проектируя голосовой пользовательский интерфейс, важно определить цель работы системы (например, заказать разговор по телефону, купить авиабилет или откорректировать рабочий график) и найти наиболее эффективный способ ее достижения. Для этого нужно ответить на следующие вопросы:

Как человек обычно выполняет эту задачу?
Есть ли возможность выполнить задачу за наименьшее количество шагов?
Как большинство людей воспринимают эту задачу, т.е. их «ментальная модель» этой задачи?

Графические пользовательские интерфейсы используют возможность отображения информации на экране компьютера. Панель инструментов закреплена: она остается на экране, а иконки на ней не изменяются. Постоянство панели инструментов уменьшает необходимость запоминания пользователем целого ряда действий и команд. Речь же представляет собой поток звуков. Поэтому человеку необходимо полагаться на свою память, чтобы помнить, что произошло несколько секунд или минут назад. Это значит, что разработчикам голосовых пользовательских интерфейсов следует контролировать нагрузку, которую они оказывают на память пользователя. Обеспечение приемлемого уровня «когнитивной нагрузки» является одним из ключевых моментов в создании удобного в использовании голосового пользовательского интерфейса.

Как уже упоминалось выше, предугадать ответы пользователя – это задача эффективно разработанной грамматики. Грамматика определяет, что система может «понять» и как ей на это реагировать. Система, грамматика которой включает максимально ограниченный набор слов, распознает лишь ответы «да», «нет», в то время как расширенная грамматика позволяет системе правильно распознать такие ответы как «да, пожалуйста», «ммм... ага», «ну да». Некоторые грамматики позволяют распознать ответы вроде «я не знаю», после чего система предлагает несколько вариантов ответа для того, чтобы помочь пользователю определиться.

К сожалению, иногда в общении пользователя с системой возникают ошибки и непонимания. Предвосхищая возникновение наиболее распространенных ошибок, предлагая пользователю понятные вопросы и адекватно реагируя на его ответы, голосовой интерфейс может задавать диалогу правильный ход и быстро исправлять ошибки, в случае их возникновения. Например, если пользователь молчит, очевидно, не зная, что говорить, система может задать ему развернутый вопрос:

Если ответ пользователя не совпадает с теми, которые содержатся в грамматике, он может привести к ошибке распознавания, поэтому система должна уточнить, каким образом следует ответить:

Если система все же не справляется с ошибкой, она предлагает пользователю перевести вызов на оператора.

Если говорить о навигации по системе, то следует отметить, что работая с приложением, пользователь должен всегда иметь возможность вернуться на один шаг назад в диалоге, еще раз прослушать последнее сообщение системы или пропустить какой-либо уровень диалога и сразу перейти на следующий. Варианты команд пользователя для навигации по системе должны быть включены в грамматику. Грамматика должна содержать и все возможные синонимы команд. Например, для команды «Повторить » нужно учесть ряд синонимов, начиная от «Скажите еще раз, пожалуйста » до «Что? ».

Наличие гиперссылок позволяет пользователю дополнительно контролировать обычный ход диалога. Переходя по гиперссылке, пользователь может пропускать некоторые уровни диалога и сразу попадать в нужное ему место диалога. Типичным примером являются гиперссылки на главное меню, приостановление работы с приложением, соединение с представителем службы поддержки и завершение вызова.

Также следует тщательно продумать, какие команды пользователь должен подтверждать и когда. Подтверждение выбора команды особенно необходимо в случаях, где цена ошибки достаточно высока. Как в случае с командой «Отменить», когда пользователь может случайно завершить диалог с системой и прервать, например, процесс бронирования билета.

Возможность приостановить работу с приложением бывает необходимо пользователям, которые нуждаются в дополнительном времени, чтобы, например, найти номер своего счета или взять ручку и блокнот, или которые, работая с приложением, вынуждены отвлекаться, например, вести автомобиль. В таких случаях ход диалога приостанавливается до тех пор, пока система не получит соответствующую команду пользователя, например, «Продолжить ».

Важно уделить особое внимание и качеству озвучивания и записи сообщений системы. Правильно разработанная грамматика, содержащая все возможные синонимы, допускает разнообразие ответов пользователя, однако сообщения системы должны быть более четкими. При разработке голосового пользовательского интерфейса необходимо всегда пояснять пользователю, каким образом ему следует отвечать. Для этого, если допустимый ответ подсказать пользователю нельзя, разработчики приложения предусматривают наличие ряда ключевых слов, которые помогают пользователю дать понятный системе ответ. Например, «Вы хотите “выбрать пункт назначения”, “получить информацию о гостиницах ” или “забронировать комнату”?»

Остановимся немного на сообщениях системы. К сообщениям системы относятся подсказки, которые бывают трех типов:

Запрос информации – обращение к пользователю с просьбой сделать выбор, выбрать из меню, выбрать часть информации, которую нужно исправить, а также ввести свои данные, к примеру, номер телефона.
Сообщение о текущем состоянии системы – сообщение о возникновении ошибки, краткое изложение информации, которую нужно подтвердить, а также фразы вроде «Подождите, пожалуйста », которые сообщают пользователю о возникновении задержки при обработке данных. К данной категории также относятся так называемые «метки», которые сообщают пользователю, на каком уровне диалога он находится, например, «Вы вернулись в главное меню ».
Сообщение информации – может быть инициировано системой либо пользователем. К первому относятся приветствие, а также сообщение пользователю инструкции по работе с приложением. Ко второму относится информация, которую запрашивает пользователь, например, справка, прогноз погоды и пр.

Речевые сообщения системы представляют собой синтезированные или заранее записанные фразы, или сочетание и того и другого. Синтез речи больше подходит для озвучивания динамического информационного содержимого, такого как сообщения электронной почты. С другой стороны, записанная речь, т.е. фразы, заранее записанные в студии профессиональным актером, более точно передают экспрессивность речи человека и делают диалог более естественным.

Во многих приложениях также имеется звуковое сопровождение речевых сообщений системы. Так, часто используются музыкальные логотипы, звуки, обозначающие возникновение ошибки, начало сообщения, звуки окружающей среды.

Однако не все деловые операции поддаются автоматизации с использованием голосового пользовательского интерфейса. Как правило, чем сложнее запросы и операции, тем проблематичнее их автоматизировать, и тем больше вероятность того, что в результате они не найдут популярности среди пользователей. К примеру, горячую линию юридической консультации достаточно сложно автоматизировать, поэтому в данном случае помощь оператора является единственным вариантом. С другой стороны, применение голосового пользовательского интерфейса удобно для автоматизации быстрых, постоянно повторяющихся операций, таких как оформление заказа, регистрация времени или платежа, перевод денежных средств с одного счета на другой.

Перечислим некоторые конкретные применения голосового пользовательского интерфейса, которые уже используются в различных системах:

системы защиты доступа к базам данных, информации и объектам;
системы оповещения в чрезвычайных ситуациях (несанкционированное проникновение на объект, экономическая безопасность, жизнеобеспечение объекта и пр.);
справочные голосовые системы реального времени, которые позволяют автоматически обновлять информацию сразу после ее изменения;
системы доступа к справочной информации через телефонную сеть общего доступа;
системы доступа к корпоративной информации, например, чтение или отправка электронной почты;
системы голосовой почты;
системы проведения голосований и конкурсов;
автоматические системы обслуживания клиентов, операции с лицевыми счетами, получение и обработка заказов.

Качественный голосовой интерфейс помогает преодолевать неприятие технологии пользователями, так как для его использования не нужно овладевать новыми навыками. Общаясь с системой, пользователь может выполнять различные операции быстро и легко, как будто общаясь с квалифицированным специалистом. Голосовой интерфейс качественным образом изменяет способ, а следовательно и эффективность взаимодействия пользователя с системой. Позволяет сделать работу с приложением более естественной для человека.

Речевой интерфейс (РИ) нужен в целом для упрощения жизни пользователям. Если конкретней, для повышения удобства, повышения степени интеллектуализации человеко-машинного диалога. Все это вполне счетные величины. Разработчики давно уже борются за такие параметры, как время на обучение пользователя, время отдачи команды, количество движений для отдачи команды, время на поиск нужного контрольного элемента. По всем этим параметрам введение речевого канала в подсистему интерфейса приводит к существенным улучшениям. Есть ряд применений, в которых речевое управление - настоящее спасение. Это ситуации, когда руки и зрение пользователя заняты важными «неинтерфейсными» задачами (вождение транспорта, визуальный осмотр, тонкие манипуляции, просмотр фильма). Если в этот момент требуется помощь компьютерной системы информации или робота-ассистента, без речевого диалога не обойтись. Эти простые соображения и дают нам основные сферы применения речевых интерфейсов:

Бытовые сложные системы (бытовая техника, сервисные роботы и «умный дом»). Тут на первом месте скорость обучения пользователей, мобильность и упрощение интерфейсов.
Системы поддержки деятельности людей, занятых вне офисных столов. Это водители, спасатели, ремонтники, военные, логисты, сборщики - всех не перечесть. Речевой канал здесь востребован в качестве возможности освободить руки и глаза. Важна и большая компактность решения.

Из понимания областей применения следует и набор требований к РИ:

Безошибочность (количество ошибок на сотню слов, WER). Причем для промышленных и бытовых применений WER нужно считать при различных окружающих шумах (соотношение сигнал/шум SNR).
Количество различаемых команд в один момент времени. Чем сложнее объект управления и чем меньше времени мы хотим учить пользователя, тем больше должен быть этот параметр.
Антропоморфность. Это интегральный показатель, который отвечает за то, насколько интерфейс схож с человеческим общением. Очень широкая тема, но очевидно, что чем выше этот показатель, тем легче происходит обучение этому интерфейсу. Не следует путать с интуитивностью, которая лишь характеризует привычность и похожесть на уже известные пользователю интерфейсные системы.

Компания «ЗАО «Титан - информационный сервис» / Speereo Software была основана в 1998 г. В 2001 г. ее специалистам удалось создать систему распознавания слитной английской речи, а в 2011 г. - слитной русской речи. С 2002 г. компания разрабатывает и продает продукты и решения, основанные на SSR (распознавание речи Speereo).

Компания - официальный поставщик Intel, имеет совместный грант Microsoft и Сколково, победитель конкурса инновационных проектов МО РФ, обладатель нескольких Best Software Award of the Year. С 2011 г. - резидент Сколково.

Что делает решение Speereo?

Мы разработали РИ, который позволяет распознавать речевые команды и синтезировать речевые сообщения. Система состоит из программной части (Automatic Speech Recognition, ASR, и Text To Speech, TTS), и аппаратной части - различного типа Acoustic Front End, AFE. Для разработчиков - это готовые блоки, которые можно встраивать в системы на этапе проектирования или на этапе апгрейда систем. ASR и TTS существуют как в виде «облачного» решения, так и в виде кода для «тонких» клиентов. Минимальные требования - 200 MIPS и 5 Mбайт. AFE существует на сегодня в виде серийного изделия - универсального речевого пульта Speaky, а также в виде тестовых прототипов и серийных изделий партнеров - автомобильного, OutDoor-гарнитуры, бытовой и игровой гарнитур. AFE может быть и чужим, лишь бы обеспечивал приемлемое качество сигнала. Реальное расстояние от микрофона до диктора, на котором обеспечивается нормальная работа без экстраординарных затрат на оборудование, составляет 10–50 см. Необходимо средствами AFE маркировать начало (обязательно) и конец (желательно) командной фразы. Для этого используются аппаратные кнопки, камеры, ларингофоны и пр. В мобильных версиях это позволяет экономить заряд батарей.

Как это работает?

При минимальных требованиях по нагрузке вычислительной системы РИ Speereo работает с задержкой от конца фразы до выдачи результата не более 1,5 с. При этом мы добились очень высокого уровня по главным требованиям (табл. 1). Для сравнения приведем редчайшую таблицу (табл. 2).

Как видим, даже сравнивать систему РИ Speereo и системы диктовки, получившие широкое распространение, не стоит. Разница на один-два порядка.

Министр обороны РФ Сергей Шойгу посетил стенд Сколково на Неделе инноваций Министерства обороны в Алабино в августе 2014 г.
Фото пресс-службы Сколково

Количество одномоментно различаемых команд в нашей системе составляет от нескольких сот до 10 000. Управление мгновенным словарем отдано «на откуп» разработчику. Общий словарь системы не ограничен. Массив мгновенного словаря подается на вход системы динамически в виде текста. Это позволяет строить контекстно-зависимые диалоговые системы.

Системы диктовки имеют ограниченный несколькими сотнями тысяч (до 2 млн) слов мгновенный словарь. Он же - общий словарь. Добавлять новые слова может только разработчик системы.

Ограничение в 10 000 фраз мгновенного словаря в нашей системе, тем не менее, позволяет строить интерфейсы для любых мыслимых объектов управления. Более того, в 10 000 фраз вполне укладываются все разумные варианты произнесения командных фраз в конкретный момент диалога. Для облегчения построения графа состояний и команд-переходов можно использовать распространенные грамматики. Таким образом, мы получаем систему, для работы с которой вообще не нужно обучать пользователя. Этот подход отличается от дилетантского заблуждения: «возьму систему диктовки, а потом разберу текст». Уровень ошибок систем диктовки и сложность систем «понимания» текста всегда ставит на таких планах крест. Немного улучшает ситуацию лишь очень трудозатратная система учета статистики поведения пользователей и семантической обработки, которая помогла, в частности, построить Google Voice Search и Apple SIRI, но провалилась в Google Glass, Apple TV и прочих проектах. Такие надстройки не поставляются внешним разработчикам, а их создание тянет на десятки миллионов долларов. Поэтому так мало внедрений систем диктовки вне обозначившихся узких ниш. Часть разуверившихся в диктовку разработчиков приходят к нам как к альтернативному поставщику, и рассказывают очень похожие истории провала проектов.

Если еще учесть, что наша система дикторонезависима, устойчива к акценту, манере и темпу речи, не требует делать паузы между словами, то можно утверждать, что по параметру антропоморфности она находится на самом высоком современном уровне.

Немного о планах

Мы продолжим внедрение нашей системы в автомобильную, бытовую, специальную и промышленную электронику. Продолжим исследования по вычленению речевых сигналов из зашумленного потока, определению начала и конца команд. Мы также разворачиваем работы по повышению дальности от диктора до микрофона до нескольких метров, что позволит строить интерфейсные зоны в помещениях вообще без носимых устройств. Мы будем накапливать и делать доступными нашим потребителям тематические семантические сети, что облегчит построение «свободных» интерфейсов к целым классам техники. Продолжим работу и по увеличению размера мгновенного словаря. Все это вместе приближает нас к созданию близкого к идеалу речевого интерфейса.

Стоит подумать о том, как было бы здорово управлять компьютером и прочими цифровыми девайсами исключительно голосом, как в уме тут же возникает образ разумного компьютера HAL 9000 из фильма Стэнли Кубрика «2001: Космическая Одиссея». Его голос вдохновляет и будоражит до сих пор.

И хотя идея создания искусственного интеллекта была скомпрометирована в массовом сознании такими блокбастерами, как «Терминатор» или даже недавним «Превосходством» с незабвенным Джонни Деппом в главной роли, все же программисты и девелоперы по всему миру не оставляют попыток создать нечто подобное, что и по сей день существует лишь в воображении сценаристов и режиссеров.

Предсказания, сделанные Артуром Ч. Кларком (Arthur Clarke) и столь правдоподобно воплощенные в культовой ленте Кубриком, хоть и не успели осуществиться к 2001 году, но, по словам основателя Expect Labs Тима Таттла (Tim Tuttle), технологиям голосового интерфейса в течение ближайших двух лет будет уделено пристальное внимание разработчиков, и процесс ускорится в десятки раз.

Платформа голосового интерфейса MindMeld, созданная самой Expect Labs, уже успешно применяется программистами для встраивания голосового взаимодействия в разного рода программы и мобильные приложения. Таттл без тени скромности заявляет, что такого рода интерфейс, в отличие от созданных ранее систем, является наиболее дружелюбным для конечного пользователя. Сегодня MindMeld выходит на рынок, на котором уже доминируют системы Google Now и Siri, но такая жесткая конкуренция просто доказывает неизбежность того, что совсем скоро управлять техникой своим голосом станет делом привычным.

Многие компании уже тратят миллионы долларов на разработку и внедрение в систему пользовательского взаимодействия с продуктом возможности речевого управления: для некоторых категорий товаров это и впрямь оказалось бы полезной находкой. Смартфоны — довольно избитый пример, а вот голосовое управление автомобилем Ford с помощью системы Sync — уже интересно: голосом вы можете включить музыку или запросить дорогу у GPS-навигатора. Голосовые технологии добрались даже до последних поколений приставок: с помощью Kinect вы можете управлять своим Xbox one, — а в 2011 году издание Bloomberg Business уже говорило о конце эры пультов от телевизоров.

Доступность

Если говорить об адаптивности голосового интерфейса к различным платформам, то уже сегодня можно легко заметить, что подобные технологии не имеют каких-либо существенных ограничений: они легко приживаются как на Android и iOS, так и на .

Кроме того, Консорциум Всемирной Паутины (World Wide Web Consortium (W3C)) разработал ряд предложений по улучшению сайтов, включающий в себя также и альтернативный текст для изображений, который может быть понят современными программами чтения с экрана. Совершенно очевидно, что такие программы, как Nuance’s Dragon, найдут отклик у тех пользователей, которые не могут работать с клавиатурой и мышью. Подобные решения позволяют им выполнять все распространенные операции (поиск информации, работа с текстовыми документами) без рук.

По этим и многим другим причинам голосовое управление становится вполне достижимым в уже обозримом будущем: user experience будущего уже нельзя будет представить без возможности речевого взаимодействия. Однако, остается открытым вопрос, который еще десять лет назад, вызвал бы только улыбку: какой голос должен быть у компьютера?

Одной из причин, почему разработчики наделяют свои творения голосом более роботизированным, нежели человеческим, является так называемая концепция «зловещей долины» (The uncanny valley). Эта концепция была предложена в 1970 году японским робототехником Масахиро Мори (Dr. Masahiro Mori), и именно эта идея лежит в основе современной коммуникации между компьютером и человеком.

Схематическое изображение «зловещей долины». Чем сильнее сходство роботов с людьми, тем большую симпатию они вызывают у последних, но ровно до того момента, когда роботы начинают напоминать живых мертвецов: тогда симпатия уступает место страху.

Суть этой концепции в том, что по мере эволюции машин симпатия к ним людей будет только расти, но лишь до определенного предела. Как только роботы станут очень сильно похожи на людей, симпатия резко сменится страхом и неприязнью. В теории, если сходство продолжит рост, то симпатия вновь вернется, но это промежуточное состояние, когда роботы похожи на передвигающихся мертвецов и не вызывают ничего, кроме страха, и называется «зловещей долиной». Этот термин отражает естественную для нас неприязнь к человекоподобным роботам. В то же время эта теория описывает внешний вид тех роботов, которые вызывают у нас чувство умиления (яркий пример, робот WALL-E).

В недавней статье Николаса Боумана (Nicholas Bowman), опубликованной в издании Ux Booth, автор приходит к мысли, что эта концепция может сработать и в области голосового взаимодействия. Интерфейс голосового взаимодействия, который реализован в Siri, создает у пользователя чувство близкого контакта с устройством, и во многом это можно объяснить тем, что вся интеракция строится на привычной нам речи. Мы слышим голос робота и тут же приписываем устройству какие-то человеческие черты. Это неотъемлемая особенность каждого из нас, так мы выстраиваем связи с внешним миром. Очевидно, что Siri далеко не человек, но в программе реализовано то, что ее делает похожим на людей: например, юмор.

Таким образом, Apple удалось пройти по узкой грани: сделать Siri похожим на человека, но не настолько, чтобы мы все решили, будто бы с нами и впрямь разговаривает живая женщина. Мы все стремимся к идеальному интерфейсу, но приемлемым для нас он будет только тогда, когда останется роботизированным.

Сейчас смотрят: 1 604

Время чтения: 5 мин.

Наши первичные датчики

Наш мозг – это машина для обработки изображений. Мы можем понять сложную информацию быстрее, когда видим ее. Мы поглощаем большую часть информации с помощью нашего зрения. Короче говоря, наши глаза — наши первичные датчики.

Наши уши являются вторыми по важности датчиками. И в некоторых ситуациях голосовой разговор является очень эффективным каналом связи. Представьте себе на мгновение простой опыт покупок. Заказать вашу любимую пиццу намного проще, если вы просто назовете ее и закажете, вместо того чтобы проходить через все различные предложения на сайте. Но в более сложной ситуации недостаточно полагаться только на вербальное общение. Например, вы бы купили платье, не увидев его в первую очередь? Конечно, нет. Пользовательские интерфейсы все больше будут адаптироваться к нашим датчикам.

Наши глаза и уши — основные входные датчики. Мы очень хорошо разбираемся в распознавании образов и обработке изображений. Это означает, что мы можем обрабатывать сложную информацию быстрее визуально. С другой стороны, время реакции на звук быстрее, поэтому голос является хорошим вариантом для предупреждений.

Наш рот — самое эффективное устройство вывода. Потому что большинство людей могут говорить быстрее, чем они печатают или пишут.

Поскольку люди хорошо сочетают разные каналы, это приведет к тому, что компьютеры будут использовать мультимодальные интерфейсы для адаптации к возможностям человека. Интерфейсы будут адаптироваться к людям, используя среду и формат сообщений, наиболее удобный для людей в данной ситуации. Давайте рассмотрим некоторые примеры.

Чат-боты

Для базовой связи чат более эффективен, чем традиционные пользовательские интерфейсы. С помощью него продавцы и покупатели могут найти друг друга и обсудить различные сделки. В этом случае чат является оптимальным из-за общения «один на один». Но когда дело доходит до более сложного взаимодействия, например, для сравнения большого количества товаров, нам нужен более продвинутый пользовательский интерфейс. В этом случае добавляется возможность голосового общения с менеджером: позвонить в чате.

Цифровые помощники

Например, готовить на кухне и говорить «Красный перец Чили» проще, чем прокручивать каталог руками. С голосовым интерфейсом вы сможете автоматически добавить что-то в свой список покупок. Вам показываются продукты и голосом вы выбираете те, которые вам нравятся.

Когда пользователь находится на кухне и руки заняты, использование голосового управления — удобнее, чем прикосновение к экрану. Голосовой интерфейс – отличная функция и будет обязательной в будущих продуктах.

Для мультимодальных интерфейсов важно поддерживать синхронизацию голосовых и визуальных выходов. В противном случае люди легко запутаются. Например, когда мы разговариваем с кем-то, мы можем легко посмотреть на их лицо, чтобы узнать, получили ли они наше сообщение. В случае с мультимодальным интерфейсом мы захотим сделать то же самое, когда говорим с продуктом. Это нужно учитывать при разработки смешанных интерфейсов.

Приложение для здоровья

Например, приложение для измерения расстояния между зрачками для людей, которые носят очки (PD Measure). Это хороший пример объединения визуальных и голосовых интерфейсов.

Любой клиент должен знать данное расстояние, чтобы купить очки онлайн. Если они не знают, тогда им придется пойти в розничный магазин и измерить там. Инструмент измерения, доступный для любого пользователя, открывает огромный рынок онлайн-оптики.

С помощью такого приложения клиент сможет встать перед зеркалом и фотографировать себя, держа свой телефон в определенном положении и следуя точным инструкциям. Затем приложение автоматически вычисляет расстояние между зрачками. Этого достаточно, чтобы сделать онлайн-заказ.

Когда лучше использовать голос, а когда использовать визуальный пользовательский интерфейс

Визуальные пользовательские интерфейсы работают лучше в следующих ситуация:

Списки с большим количеством предметов (где чтение всех предметов вслух займет слишком много времени);
Сложная информация (графики, диаграммы и данные со многими атрибутами);
вещи, которые вы должны сравнить;
продукты, которые вы хотели бы видеть перед покупкой;
информация о состоянии, которую вы хотели бы периодически проверять (время, таймер, скорость и т. д.).

Команды (т.е. любая ситуация, в которой вы точно знаете, что хотите. Чтобы вы могли пропустить навигацию и просто диктовать свою команду);
Инструкции пользователям. Поскольку люди склонны следовать голосовым инструкциям лучше, чем письменным инструкциям;
Звуковая обратная связь для успешных ситуаций и ситуаций с ошибками, с разными сигналами;
Предупреждения и уведомления (потому что время реакции на голос быстрее);
Простые вопросы, которые требуют относительно простых ответов.

Советы для работы с мультимодальными интерфейсами

Синхронизация голосовых и визуальных интерфейсов. Всегда имейте визуальную обратную связь о том, что происходит.
Показывайте визуальные индикаторы, когда устройство прослушивает или думает об ответе.
Выделите слова голосовой команды в графическом интерфейсе.
Задайте правильные ожидания пользователей о возможностях интерфейса и убедитесь, что продукт объясняет, как он работает.
Продукт должен знать о контексте разговора и должен отвечать соответствующим образом.
Не игнорируйте безопасность и конфиденциальность. Разрешите людям отключать компоненты (например, микрофон).
Не читайте длинные аудиомонологи. Если он не может быть кратко изложен в нескольких словах, отобразите его на экране.
Потратьте время, чтобы понять специфику каждой платформы и выбрать правильный вариант.

Заключение

В будущем голосовой интерфейс станет обычным явлением. Новый интерфейс не означает, что мы должны игнорировать все, что успешно применяли к графическим интерфейсам. Произойдет объединение графических и голосовых интерфейсов, как более человечный способ общения между пользователем и компьютером.

Подобная мультимодальная эволюция уже происходила раньше. Радио и немые фильмы были объединены в фильмы, которые дополнительно улучшены с помощью 3D и т.д. В скором времени этот процесс произойдет и в интерактивном цифровом мире.

Читайте другие полезные статьи

Голосовой интерфейс. Примеры удачных решений

Энциклопедичный YouTube

Субтитры

Дальнейшее использование

Голосовой пользовательский интерфейс: научная фантастика или реальность?

Что делает решение Speereo?

Как это работает?

Немного о планах

Когда лучше использовать голос, а когда использовать визуальный пользовательский интерфейс

Советы для работы с мультимодальными интерфейсами

Популярные статьи

Последние статьи

Разделы

Страницы

Спецпроекты

Контакты