Искусственный интеллект на смартфонах: краткосрочные перспективы | новости о играх
Дата публикации:

Искусственный интеллект на смартфонах: краткосрочные перспективы | новости о играх

2fd6b5dc

На днях стартовали две крупные конференции для разработчиков, Microsoft Build 2019 и Google I/O 2019. Главными их анонсами, на мой взгляд, стали новые возможности искусственного интеллекта (в частности, интеллектуального ассистента) на смартфонах. Год назад Microsoft приобрела Semantic Machines, которая разработала «революционный новый подход к построение диалогового ИИ». В ролике ниже воспроизводится не реальный диалог пользователя с умным помощником, а видение Microsoft того как будет выглядеть этот диалог в следующем поколении интеллектуального ассистента от Microsoft.

Ниже приводится полная «стенограмма» этого диалога, состоявшегося после полученного пользователем сообщения о переносе делового совещания на сегодня:

Пользователь получает сообщение от Ричарда: «Не забыла про пирог для вечеринки у Мерека?»

Пользователь получает сообщение от Сайруса.

Если сроки появления этих возможностей у Microsoft Cortana пока неизвестны, то в случае с Google Assistant они обещаны до конца года. На вчерашней презентации в рамках Google I/O 2019 были продемонстрированы следующие возможности.

1) Распознавание и голосовое озвучивание надписей. Вы наводите камеру смартфона на текст, и он произносится вслух, причем произносимые слова синхронно выделяются на экране. И конечно, текст можно произносить на языке перевода. Пока поддерживается 14 языков — включая русский.

2) Обратная функция — распознавание и воспроизведение текстом устной речи. Обе эти функции конечно реализовывались и прежде — фрагментарно в рамках Android или в отдельных приложениях. Сейчас речь идет уже о встроенной в Android и вероятно интегрированной со множеством приложений возможности. Отдельно было продемонстрировано успешное распознавание устной речи людей с нарушениями (например, переживших инсульт).

3) Новые, ориентированные на веб-серфинг, возможности Google Duplex. Например, вы поручаете Google Assistant забронировать для вас прокат автомобиля. Бот самостоятельно открывает нужный сайт и автоматически заполняет все необходимые формы, включая время поездки (по данным вашего Календаря). После чего запрашивает у вас подтверждение правильности данных и оформляет заказ.

4) В октябре прошлого года была представлена функция, когда Google Assistant вместо вас отвечает на звонок с неизвестного номера и выясняет, что нужно потенциальному спамеру. В этот раз Google показал нечто похожее, но уже позиционируемое компанией для людей с нарушениями слуха или речи. Письменные реплики такого пользователя «на лету» преобразуются в устную речь, которую Google Assistant озвучивает в беседе со звонящим человеком.

5) Правильное распознавание команд, отданных Google Assistant, от диктуемого ему текста — причем без ритуального произнесения фразы «Окей, Google!» Например, во время переписки с другом вы просите Google Assistant показать вам фото с животным, а потом поручаете отправить это фото другу. Или поручаете сообщить ему время вашего вылета, предварительно узнав расписание у Google Assistant. Но больше всего впечатлило, как во время презентации пользователь поручила Google Assistant написать письмо своей подруге, и в процессе диктовки текста велела ввести заголовок — умный помощник понял, что это адресованная ему команда, а не диктуемый текст.

6) Режим управления автомобилем. Когда он включен, то при входящем звонке Google Assistant спрашивает пользователя желает ли он на него ответить.

7) Остановка сигнала будильника командой «Стоп!» — как говорится, мелочь, но приятно.

Ну и пожалуй главная новость — многократное уменьшение объема данных голосового ассистента — с сотен гигабайт до полу-гигабайта, благодаря чему вся(?) работа Google Assistant будет выполняться локально на телефоне — намного быстрее и не требуя выхода в Интернет.

Как уже неоднократно отмечали авторы Gadgets News, умный помощник (вроде Google Assistant, Apple Siri, Microsoft Cortana, Amazon Alexa или Яндекс Алисы) — это, в перспективе, главное направление дальнейшего совершенствования смартфонов. Конечно, с каждым новым поколением улучшаются процессоры и камеры. Раз в несколько лет появляются новые стандарты связи, а в ближайшие годы рынок почти наверняка заполонят многочисленные модели устройств со складным дисплеем. Но совершенствование всех этих параметров тормозится относительно медленным улучшением аппаратных технологий — тогда как развитие систем искусственного интеллекта лежит в плоскости программного обеспечения.

Нынешним образцам интеллектуальных помощников очень далеко до совершенства. Сегодня Google Assistant, считающийся лучшим среди них, не способен, например, ни на одно из следующих действий (многие из которых крайне востребованы слабовидящими людьми):

сообщить заряд батареи (вместо этого он рекомендует слепому пользователю посмотреть в верхней части экрана или в настройках)сделать селфи (приложение камеры он запустит, но переключение с основной на фронтальную выше его сил)прочитать последнее входящее сообщение WhatsApp (не говоря уже о том, чтобы найти все последние сообщения от такого-то контакта, или сообщения на заданную тему, и т.д.)показать последний твит Илона Маскаответить на вопрос «В каком литературном произведении главная героиня кончает самоубийством, бросившись под поезд?»ответить на вопрос «Абхазия находится на Кавказе или в Средней Азии?»найти московский банк с самой низкой ставкой по ипотечным кредитам.

Первые пять запросов представляются довольно простыми. Включая вопрос об Анне Карениной — для ответа совсем необязательно читать роман Льва Толстого, достаточно воспользоваться поисковиком. IBM Watson умел это делать еще восемь лет назад, когда обыграл титулованных соперников в  телепередаче Jeopardy! (российский аналог — «Своя игра»). Но до Google Assistant и Яндекс Алисы образца 2019 года подобные навыки, похоже, не добрались.

С шестым запросом дела обстоят сложнее, поскольку от ИИ требуется понимание смысла в тексте, хотя и на довольно примитивном уровне. Ну и совсем нетривиальная задача — седьмой запрос, он требует как явного понимания смысла в тексте, так и сопоставления между собой этого смысла в разных источниках. Причем все это — разовые запросы, с пониманием контекста и ведением диалога дела обстоят и того хуже.

Поэтому лично для меня одна из главных интриг в области современных технологий — это как скоро и каким образом будет развиваться способность наших интеллектуальных помощников на смартфонах понимать смысл текста. Уйдут ли на это годы — или десятилетия? Будет ли достаточно постепенных косметических улучшений (вроде тех, что ежегодно анонсируют Google и Microsoft) — или без создания принципиально новой архитектуры никак не обойтись?..

Источник: gadgets-news.ru