Разработка прикладного решения применения современных нейросетевых методов

Разработка прикладного решения применения современных нейросетевых методов с использованием различных архитектур нейронных сетей для решения задачи выделения и записи речи заданного источника в шумовом окружении с использованием массива удаленных микрофонов


Соглашение о предоставлении субсидии № 14.575.21.0132 от 26.09.2017

Научный руководитель: канд. техн. наук, доцент А. П. Затворницкий

Творческий коллектив: 19 человек, включая 9 кандидатов наук, 1 доктора наук, 1 аспиранта, 4 магистрантов

Заказчик: Министерство образования и науки Российской Федерации

Индустриальный партнер: ООО «ЦРТ»

Цель работы: Разработка математических моделей прикладного применения существующих нейросетевых методов, позволяющих автоматически обрабатывать большие объемы речевых данных в естественном шумовом окружении и обеспечивающих решение задач выделения и записи речи с заданного источника в шумовом окружении с использованием массива удаленных микрофонов.

Итоги 2017 года:

  • Разработаны новые математические модели прикладного применения существующих нейросетевых методов на основе гетерогенных ансамблей глубоких полносвязных нейронных сетей и рекуррентных двунаправленных LSTM-сетей для решения задачи подавления шума музыки, тональных помех и помех от точечного источника в данных с речью, полученных с микрофонной решётки.
  • Получен 1 РИД, опубликована 1 статья в научном журнале, индексируемом в Scopus. Принято участие в 1 международной конференции по тематике ПНИ.

Итоги 2018 года:

  • разработан экспериментальный образец программного комплекса (ЭО ПК) RU.СНАБ.00664-01 в соответствии с требованиями п. 4.3 ТЗ на ПНИ;
  • проведены исследовательские испытания (ИИ) ЭО ПК в соответствии с Программой и методиками (ПМ) ИИ, разработанными по п. 2.6 плана-графика.

По результатам исследовательских испытаний разработанного экспериментального образца программного комплекса выделения, записи и распознавания с массива микрофонов (ЭО ПК ВЗРММ) можно сделать следующие выводы:

  • Назначение и функциональность ЭО ПК соответствуют требованиям технического задания.
  • Назначения и надежность алгоритмов, реализованных в составе ЭО ПК, соответствуют требованиям технического задания.

Кроме того, получателем субсидии и индустриальным партнером в полном объеме решены все задачи, предусмотренные планом-графиком, а именно:

  • осуществлены обобщение и оценка результатов исследований, в том числе:
    а) сопоставлены результаты анализа научно-информационных источников и результаты теоретических и экспериментальных исследований;
    б) проведена оценка эффективности полученных результатов в сравнении с современным научно-техническим уровнем;
    в) проведена оценка полноты решения задач и достижения поставленных целей ПНИ;
  • разработаны рекомендации о возможности использования результатов проведенных ПНИ в реальном секторе экономики с учетом технологических возможностей и особенностей Индустриального партнера;
  • разработана программная документация на ЭО ПК;
  • разработана программа и методика исследовательских испытаний ЭО ПК RU.СНАБ.00664-01 91 01;
  • разработан проект технического задания на проведение ОКР;
  • осуществлены расходы на ресурсное (материально-техническое и трудовое) обеспечение исследований (в т.ч. проведение дополнительных исследовательских работ, сбор и обработка баз данных, закупка и аренда оборудования) и коммерциализацию результатов работы;
  • принято участие в мероприятиях, направленных на освещение и популяризацию промежуточных и окончательных результатов ПНИ (конференции, семинары, симпозиумы, выставки и т.п., в том числе, международные).

В 2018 году результаты теоретических и экспериментальных исследований ПНИ были представлены международному научному сообществу на двух международных конференциях: 19 Международная научная конференция Interspeech 2018 (Хайдарабад, Индия) и 20 Международная конференция Specom 2018 (Лейпциг, Германия).

По результатам участия было опубликовано три статьи в научных изданиях, индексируемых в базе данных Scopus:
1) Ivan Medennikov, Yuri Khokhlov, Aleksei Romanenko, Dmitry Popov, Natalia Tomashenko, Ivan Sorokin, Alexander Zatvornitskiy. An investigation of mixup training strategies for acoustic models in ASR// Proceedings of the 19th Annual Conference of the International Speech Communication Association (INTERSPEECH 2018). ISSN 2308-457X. DOI: 10.21437/Interspeech.2018-2191 (копия статьи и ее перевод приведены в приложении Е).
2) Astapov S., Lavrentyev A., Shuranov E. Far Field Speech Enhancement at Low SNR in Presence of Nonstationary Noise Based on Spectral Masking and MVDR Beamforming. In: Karpov A., Jokisch O., Potapova R. (eds) Speech and Computer. SPECOM 2018. Lecture Notes in Computer Science, vol. 11096. Springer, Cham, LNAI 11096, pp. 32–41 (копия статьи приведена в приложении Ж, перевод статьи – в приложении И).
3) Bataev V., Korenevsky M., Medennikov I., Zatvornitskiy A. (2018) Exploring End-to-End Techniques for Low-Resource Speech Recognition. In: Karpov A., Jokisch O., Potapova R. (eds) Speech and Computer. SPECOM 2018. Lecture Notes in Computer Science, vol 11096. Springer, Cham (копия статьи приведена в приложении К, перевод статьи – в приложении Л).

По результатам ПНИ в 2018 году также было получено четыре свидетельства о государственной регистрации РИД:
1) Свидетельство № 2018663635 от 01.11.2018 о государственной регистрации программы для ЭВМ «Программа фильтрации речевого сигнала, полученного с микрофонной решетки, применяемая для распознавания речи при наличии тональных помех»;
2) Свидетельство № 2018663634 от 01.11.2018 о государственной регистрации программы для ЭВМ «Программа, обеспечивающая подавление помехи, исходящей от точечного источника шума, в речевом сигнале на данных, полученных с массива микрофонов»;
3) Свидетельством № 2018663558 от 31.10.2018 о государственной регистрации программы для ЭВМ «Программа, реализующая математическую модель на основе рекуррентных двунаправленных LSTM-сетей, для решения задачи подавления шума музыки в данных с речью, полученных с микрофонной решётки»;
4) Свидетельства № 2018620233 от 08.02.2018 о государственной регистрации базы данных «Музыкально-речевая акустическая база данных для обучения алгоритма, производящего шумоочистку данных, полученных с массива удаленных микрофонов».

На материале исследований защищена диссертация на соискание степени кандидата технических наук по теме «Методы и комплекс программных средств детектирования атак с целью взлома голосовых биометрических систем» (автор – Лаврентьева Г.М.).