Facebook разработала wav2vec Unsupervised — систему распознавания речи, которая не требуют транскрибируемых данных.
«Это важный шаг на пути к созданию машин, которые смогут решать широкий круг задач, просто извлекая уроки из своих наблюдений. Мы думаем, что эта работа приблизит нас к миру, в котором речевые технологии доступны гораздо большему количеству людей», — говорится в сообщении Facebook.
Система использует новый, отличный подход по сравнению с созданными ранее. Работа метода начинается с изучения структуры речи из немаркированного звука. Система сегментирует голосовую запись на речевые единицы, которые приблизительно соответствуют отдельным звукам. Например, слово «кот» включает в себя три звука: «/ K /», «/ AE /» и «/ T /».
Систему протестировали wav2vec-U на таких языках, как суахили и татарский, для которых сейчас недоступны высококачественные модели распознавания речи.
Источник: rb.ru