SeamlessM4T — нейросеть, которая умеет распознавать речь, преобразовывать ее в текст и переводить на около 100 языков. Также модель умеет создавать из текста речь на 35 языках.
Нейросеть доступна для исследователей по лицензии с открытым исходным кодом, вместе с SeamlessAlign — набором данных для перевода, который содержит 270 часов записи речи и соответствующие ей тексты.
SeamlessM4T может распознавать, когда человек переходит с одного языка на другой или использует в речи сразу несколько: например, телугу, хинди и английский.
Источник: vc.ru