12 мая, 2017

Новый чип для распознавания речи — нейронная сеть с малым потреблением энергии

12.05.2017

Команда исследователей из Массачусетского технологического института разработала чип для распознавания речи, который потребляет очень мало энергии. По заверениям авторов новинки, в ситуации, в которой обычная система распознавания речи тратит 1 Вт, их детище расходует от 0,2 до 10 мВт, в зависимости от количества распознаваемых слов. Созданный учёными чип основан на структуре нейронных сетей.

Новая разработка может оказать существенное влияние на Интернет вещей. В нём предвидится значительное возрастание роли голосовых интерфейсов, а это предполагает наличие множества постоянно работающих систем распознавания речи. Такие системы должны будут подолгу работать от одного миниатюрного источника энергии.

В настоящее время по принципу нейронных сетей работают многие передовые системы распознавания речи. В них создаются виртуальные сети, состоящие из простых процессоров, обрабатывающих информацию. Эти сети упрощённо моделируют принцип работы мозга человека.

Однако даже самая эффективная система распознавания речи быстро расходует заряд батарейки, если работает непрерывно. Созданный массачусетскими учёными чип содержит отдельную схему «определения голосовой активности». Она ведёт мониторинг внешнего шума и проверяет, содержится ли в нём речь. Если таковая возникает, то эта схема включает другую, более крупную и сложную схему, которая занимается распознаванием.

Типичная нейронная сеть состоит из тысяч узлов, каждый из которых выполняет лишь достаточно простые вычисления. Узлы располагаются в слоях. Данные обрабатываются в нижнем слое, после чего передаются в следующий слой. Там они обрабатываются и передаются выше, и так далее.

Процесс передачи данных в чип извне — намного более энергозатратный, чем их извлечение из локального хранилища. Поэтому исследователи из Массачусетса постарались минимизировать количество тех данных, которые чип получает из внешней памяти. Данные передаются в чип в сжатом виде.

Помимо этого, входной аудиосигнал разделяется на отрезки длительностью 10 мс, каждый из которых обрабатывается отдельно. Когда в один из узлов нейронной сети поступают, например, 32 таких отрезка, они затем передаются из него дальше через 12 выходов. Это даёт 384 выходных числа. Каждое из них соединяется в одном узле следующего слоя с 11 другими величинами и т.д. Такой процесс промежуточных вычислений требует сети огромного размера. Однако он обращается одновременно только к одному узлу внешней памяти, что позволяет обходиться крайне малыми энергозатратами.