Каким будет телефон следующего поколения или почему по ночам ваш iPhone зубрит русский язык?

67

От клавиатуры человечество перешло к сенсорным экранам. Следующий этап – управление голосовыми командами. Компьютерно-неграмотные сограждане могут вздохнуть свободно – отпадет необходимость разбираться, куда на экране тыкать пальцем.  

Сегодня нашим экспертом по теме будет представитель мобильного оператора. На одной из недавних конференций директор Департамента машинного обучения в центре искусственного интеллекта МТС Никита Семенов выступил с докладом «Голос как пользовательский интерфейс». Эксперт рассказал, каким окажется iPhone очередного поколения, что телекомы уже умеют делать с нашими голосами и что собираются вытворять?  Читайте, будьте здоровы и не кашляйте – мало ли, кашель будет неправильно понят.

Популярное приложение Clubhouse. Фото: lectera.com.

Можно вас на пару слов?

Сегодня на онлайн-просторах разговоры о новой социальной сети Clubhouse занимают места больше, чем даже зудящая проблема санкций Запада против России. Кто отстал от жизни, подскажем: Clubhouse это сеть для голосового общения.

Иными словами, вслед за визуальными (например, сайты с умильными фото котят) в онлайне технологически «рванули» сугубо голосовые сервисы.

Правда, как заявил какой-то отставной майор, новая соцсеть Clubhouse опирается на уже давно освоенные технологии: «Фактически это система военных раций, адаптированная для гражданки».

С точки же зрения финтеха, феномен важен. Что будет востребовано потребителем и какие векторы диджитализации следует развивать в первую очередь?

Ответ очевиден: финансисты приналягут на совершенствование голосового управления банковскими приложениями. На превращение человеческого голоса в полноценный интерфейс.

Прежде здесь наблюдалось некоторое отставание. Минувшей осенью на запрос «Выберу.ру» представитель Банка Хоум Кредит Наталья Бибетко поясняла, что боты банков не запрограммированы при чрезмерном возмущенном крике звонящего клиента переключать контакт на живого оператора.

Наталья Бибетко
Начальник управления автоматизации сервисного обслуживания Банка Хоум Кредит
Комментарий эксперта:
С интонацией никто работать еще не умеет. Некоторые игроки тестируют такие технологии, но о гарантированно успешных результатах информации нет. Ботов настраивают на слова-индикаторы: что конкретно говорит клиент, какую проблему озвучивает

Теперь не остается сомнений, что вскоре разработчики научатся «управлять гневом» клиентуры.

Однако даже в финансовой сфере инициаторами новаций часто оказываются не банки и продвинутые финтехкомпании, а операторы мобильной связи.

Вы окончательно забудете, что такое «пальцы веером»

Напомним, отношения человека и компьютера начинались с перфокарт. Дальше пользователи перешли к кнопкам, появились клавиатуры и дополнительные устройства ввода – знакомая нам мышь, колесико прокрутки, считыватели штрих-кода, геймпады.

Мы научимся использовать гаджеты по полной. Фото: chicagotribune.com.

Следующим витком этой эволюции было появление графических юзер-интерфейсов, сенсорных экранов, сканеров изображений, камер и т. д. Граждане перешли от нажатия на реальные физические кнопки к нажатию на виртуальные кнопки.

Но любые интерфейсы продолжают эволюционировать. И следующим логическим шагом является переход к более привычному для населения планеты инструменту взаимодействия – человеческой речи.

Никита Семенов
Директор Департамента машинного обучения в центре искусственного интеллекта МТС
Комментарий эксперта:
Во-первых, это очень удобная форма ввода: нам не нужно отвлекать зрение, нам не нужна никакая клавиатура, мы просто можем что-то надиктовать. Во-вторых, у этого способа низкая кривая обучения. Разговор подходит для гораздо более широкого круга пользователей. Таких, как пожилые люди и люди, не привыкшие печатать, или просто неграмотные люди, которые не хотят или не умеют писать

Кроме того, разговоры с машиной ускоряют взаимодействие в разы. Ведь человек произносит в среднем 150 слов в минуту, а скорость печати — примерно 40 слов в минуту. Помните анекдот, почему в 1945 году советские войска так быстро разгромили Квантунскую армию японцев в оккупированном Китае? Дескать, потому что по-русски «В атаку!» на три слова короче, чем по-японски.

Да что там – количество слов в минуту. Главное, 90% возможностей айфона и всех его приложений, которые сегодня не используют 90% владельцев, вдруг станут очень-очень легко доступны. Достаточно будет сказать: «Хочу».

Поговори мне еще!

Между тем, сегодня голосовые интерфейсы уже активно применяются.

Татьяна Савельева.
Руководитель проекта Яндекса по автоматизации кол-центров
Комментарий эксперта:
Мы разрабатываем текстовые и голосовые роботы, которых не отличить от живого человека

И пусть в России это экзотика, но в других странах уже есть такой аспект голосовых интерфейсов как социальные роботы. Это полноценные члены социума – они общаются, они выражают эмоции, они реагируют, и основная их задача – общение.

Довольно интересная история – это так называемые роботы-диагнозисты, которые помогают, направляют ко врачу, упрощают, минимизируют последствия. И не менее важная сфера — развивающие игрушки, – перечисляет Никита Семенов.

Кстати, одно из вскоре ожидаемых усовершенствований в общении с машиной – переход на мультимодальный ввод команд. Обращаясь к голосовому интерфейсу, нам сейчас нужно произнести кодовое слово: «Алиса», «Марвин», «Алекса».

Но фон может быть слишком шумным, и машина не отреагирует. Или, наоборот, возможно ложное срабатывание. Поэтому предлагается добавить камеру или поставить условие. При таком раскладе для того, чтобы машина ожила, нужно одновременно с голосовой командой посмотреть в камеру.

А если камера запомнит биометрические данные, то устройство одновременно превратится в антиугонную сигнализацию.

Голосовые роботы отвечают на звонки клиентов. Можно вспомнить телефоны и телевизоры и со встроенными голосовыми ассистентами.

Отдельно стоит выделить голосовые интерфейсы в машине – на текущий момент – это самый распространенный формат. А сейчас к перечисленному инженеры добавляют управление голосом большинством девайсов в своем доме, начиная от лампочки и заканчивая шторами.