пресс-центр

Алгоритм достигает более высокой степени точности по сравнению со специалистами по распознаванию речи
по губам

Алгоритм достигает более высокой степени точности по сравнению со специалистами по распознаванию речи по губам

Исследователи из Университета Восточной Англии в Великобритании разработали алгоритм, способный интерпретировать произносимые человеком слова с более высокой степенью точности, чем специалисты по распознаванию речи по губам.

Используя графические ускорители Tesla K80, ученые натренировали модель глубокого обучения распознавать движения рта, соответствующие определенным звукам человеческой речи, без опоры на какие-либо аудио сигналы.

«Мы изучаем движения губ человека при произнесении звуков и спрашиваем себя, как они отличаются друг от друга? У всех людей есть свои особенности мимики. Как они задействуют ее? В чем заключаются отличия? И можем ли мы вообще использовать эти знания для обучения нашей модели? Мы решили, что можем», - рассказала доктор Хелен Бир (Dr. Helen Bear), которая в рамках своей диссертационной работы совместно с профессором Ричардом Харви (Prof Richard Harvey) из Школы компьютерных наук в Университете Восточной Англии разработала систему распознавания речи по движению губ и мимике говорящего.

По словам доктора Бир, основная проблема заключается в том, что люди произносят больше звуков, чем существует визуальных образов для них. К примеру, существуют звуки, при произношении которых губы имеют практически одинаковое положение, например, [п], [б] и [м]. Эти звуки вызывают затруднения у специалистов. Система распознавания речи, разработанная в Университете Восточной Англии, способна более точно различать положение губ при произнесении подобных звуков.

Однажды эта технология может предоставить коммуникационные возможности людям с нарушениями слуха и речевого аппарата. Она может быть использована для распознавания того, что говорят люди на видео, запись которых ведется без звука, или для улучшения качества видеозвонков на мобильных телефонах.

Узнать подробнее