Существующие системы ASR относятся к классу гибридных, в них сочетаются три модели – акустическая (acoustic), языковая (language) и модель произнесения (pronunciation), каждая из них обучается независимо от других и весь процесс в целом оказывается сложным и долгим. На смену этой парадигме идет следующая, где одна модель включают всё – End-to-end (E2E) ASR.
Отрадно отметить, что в области ASR, не уступая зарубежным компаниям работает Центр Речевых Технологий ЦРТ (ныне он куплен «Сбером»), его продукт CHiME Speech Separation and Recognition Challenge (CHiME-6) признан лучшим в своем классе на международном конкурсе в 2020 году.