Научным материалом поделился журнал Nature Machine Intelligence. Согласно имеющимся сведениям, доктор философии и автор работы Пинчуань Ма и его коллеги научили искусственный интеллект распознавать речь на языках, отличных от английского, по движениям губ говорящих.
Позднее они провели сравнение производительности с другими решениями, которые обучены распознавать речь на английском языке. Также было отмечено, что ключевой инновацией оказалось обучение модели выполнению VSR при добавлении ряда дополнительных способов увеличения данных и функции потери.
«Мы добились самых современных результатов на нескольких языках благодаря тщательному проектированию модели, а не просто использованию больших наборов данных или больших моделей», — прокомментировал специалист.
Со слов учёного, их работа может вдохновить других исследователей на создание альтернативных моделей VSR, которые будут эффективно распознавать речь по движениям губ на языках, которые отличны от английского.
В планах Ма и его группы ученых провести научную работу по комбинированию моделей VSR с аудио-распознаванием речи.