КИЕВ 02:58	Брюссель 01:58
		Москва 03:58
Суббота, 23 ноября 2024

Киев, по числу автомобилей догнавший Европу

Киевские новости

08 ноября, 15:00 Политическая Киев

За Кличка уже взялась СБУ

07 ноября, 07:11 Политическая Киев

Кличко про звинувачення його у держзраді - "це смішно"

01 ноября, 10:00 Социальная Киев

Госпотребслужба обнаружила в киевском супермаркете опасную продукцию

31 октября, 09:00 Социальная Киев

С ЗАВТРАШНЕГО ДНЯ В КИЕВЕ МЕНЯЕТСЯ СКОРОСТНОЙ РЕЖИМ НА ДОРОГАХ

24 октября, 12:15 Политическая Киев

Киеврада впервые почти за полгода собралась на заседание

23 октября, 10:00 Социальная Киев

У Києві відкриють «квартал барів»

11 октября, 12:00 Социальная Киев

ПОДІЇ У КИЄВІ НА ДЕНЬ ЗАХИСНИКА УКРАЇНИ

06 февраля, 15:00 Социальная Киев

В Киеве из-за снегопада ограничили въезд грузовиков до 20:00

19 декабря, 09:48 Правовая Киев

В Киеве ночью горели склады

16 декабря, 15:59 Социальная Киев

Главную елку страны зажгут в День Святого Николая

16 декабря, 15:22 Социальная Киев

В ста школах Киева объявили карантин

16 декабря, 10:56 Социальная Киев

Киевский метрополитен введет лимит на жетоны

15 декабря, 17:15 Социальная Киев

15 декабря, 09:39 Правовая Киев

Ночью киевский рынок на Оболони разгромили тракторами

14 декабря, 09:58 Правовая Киев

Суд продлил домашний арест экс-беркутовцам

14 декабря, 09:33 Социальная Киев

В Киеве изменили тариф за тепло

Все Новости
Прислать новость

Система искусственного интеллекта смогла прочесть по губам речь дикторов BBC

23 ноября, 14:18 Социальная Украина

Разработчики из Оксфордского университета и лаборатории Google DeepMind создали систему искусственного интеллекта, которая может распознавать речь по губам в реальных условиях, причем делает она это лучше человека. Для ее обучения исследователи использовали фрагменты телепередач BBC. С текстом статьи можно ознакомиться на сайте ArXiv, пишет nplus1.ru.

Автоматические системы распознавания речи на основе мимики человека могут использоваться самыми различными способами: например, для создания слуховых аппаратов нового поколения, биометрической идентификации или расследования преступлений. Поэтому ученые уже много лет работают над разработкой программ для «чтения» по губам, однако их успех в этой области весьма ограничен. Только в этом месяце исследователи представили первую в мире систему LipNet, которая может распознавать речь на уровне целых предложений лучше человека. Однако даже в ней имелись изъяны. Главным недостатком LipNet было то, что для проверки ее работы использовалась база данных с ограниченным числом дикторов, которые говорили предложения, построенные по одинаковому принципу. Такие условия признали «тепличными» даже сами разработчики.

Авторы новой работы представили систему Watch, Listen, Attend and Spell (WLAS), которая распознает речь реальных телеведущих программ BBC. Она построена по тому же принципу, что и LipNet: в ее основе лежит сочетание использования LSTM и сверточных нейросетей и методов машинного обучения. LSTM-нейросети представляют собой разновидность рекуррентных нейросетей, для которых характерно наличие обратной связи. Их главная особенность состоит в том, что они способны обучаться долговременным зависимостям и, как следствие, работать с контекстом в длинных предложениях. Сверточные нейросети, в свою очередь, хорошо справляются с задачей распознавания изображений и подходят для покадрового анализа видео.

Система WLAS обучалась с помощью базы данных, состоявшей из 5 тысяч часов записей телепередач BBC. В общей сложности она содержала 118 тысяч предложений, которые произносились разными людьми. Сначала искусственный интеллект учился распознавать «по губам» отдельные слова, сопоставляя движения губ говорящего с субтитрами, а после переходил на уровень словосочетаний и отдельных предложений. Кроме того, WLAS была дополнительно обучена распознавать речь по аудиодорожкам.

Около 12 тысяч предложений из общей базы данных были использованы для проверки новой системы. Тесты показали, что в 46,8 процентах случаев WLAS правильно определяет, что сказал участник телепрограммы. При этом многие ошибки были незначительными - например, программа пропускала «s» в конце слов. Таким образом искусственному интеллекту удалось обойти человека: точность специально обученных людей, которые расшифровывали 200 случайно выбранных видео из той же базы данных, достигала всего 12,4 процентов (если из оценки исключались те предложения, с которыми расшифровщик отказывался работать, то она возрастала до 26,2).

С таким результатом WLAS обходит все существующие системы распознавания речи по мимике человека. Тем не менее, пока не ясно, где именно будет использована программа. Авторы работы заявляют, что с ее помощью можно будет улучшить работу таких мобильных ассистентов, как Siri.