пресс-центр

НОВАЯ УПРОЩЕННАЯ СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ, СОЗДАННАЯ С ПОМОЩЬЮ GPU

NVIDIA Blog NVIDIA Blog
NVIDIA Blog https://blogs.nvidia.com/blog/2016/04/06/speech-recognition-gpus/

 

Speech Recognition

С момента своего появления и до настоящего времени технологии распознавания речи значительно продвинулись вперед. Сегодня они используются для взаимодействия с различными устройствами, начиная от телефонов и заканчивая автомобилями и компьютерами.

Однако благодаря исследователям из Университета Карнеги-Меллон и группы Google Brain не за горами еще более быстрая и точная система распознавания речи.

Исследователи применили новый подход к распознаванию речи, по словам Уильяма Чана (William Chan), аспиранта из Университета Карнеги-Меллон, который выступал во вторник на конференции по GPU-технологиям.

«Мы отбросили традиционный метод распознавания речевых команд и заменили его простой моделью», - рассказал Чан.

Большинство приложений по распознаванию речи требуют выполнения сложного многоступенчатого процесса, чтобы превратить речь в текст. К примеру, они должны содержать словарь произношений (для его создания требуются эксперты), которые определяют каждый звук в слове, по словам Чана, который является ведущим автором статьи, описывающей исследование.

Несмотря на то что приложения по распознаванию речи используют технологии глубокого обучения, обучая нейронные сети понимать язык, новый метод сделал шаг вперед, убрав из алгоритма учителя.

«Наша модель полностью работает на основе данных. Она учится непосредственно из акустики (речи)», - объяснил Чан. Она учит слова на основе звуков из созданных людьми транскрипций. После того как модель достаточно натренирована на затранскрибированных текстах, она может самостоятельно обрабатывать звуки и преобразовывать их в слова.

Как указано в статье, во время тестов инструмент, созданный исследователями из Университета Карнеги-Меллон и Google Brain, показал результаты выше или наравне с современными системами распознавания речи.

Так как этот инструмент не требует элементов, располагающих большим объемом данных, он идеально подходит для использования на мобильных платформах, считает Чан.

«Наша цель - напрямую превращать звуки в буквы, - пояснил Чан. - Это простая вертикальная модель».

Другими авторами статьи выступили Навдип Джайтли (Navdeep Jaitly), Квок Ли (Quoc Le) и Ориол Виньялс (Oriol Vinyals). Все они сотрудники исследовательской группы Google Brain. Google Brain - одна из исследовательских групп, использующих в работе с технологиями глубокого обучения производительность GPU.