Разработка прикладного решения применения современных нейросетевых методов.
Разработка прикладного решения применения современных нейросетевых методов с использованием различных архитектур нейронных сетей для решения задачи выделения и записи речи заданного источника в шумовом окружении с использованием массива удаленных микрофонов
Соглашение о предоставлении субсидии № 14.575.21.0132 от 26.09.2017
Научный руководитель: канд. техн. наук, доцент А. П. Затворницкий
Творческий коллектив: 19 человек, включая 9 кандидатов наук, 1 доктора наук, 1 аспиранта, 4 магистрантов
Заказчик: Министерство образования и науки Российской Федерации
Индустриальный партнер: ООО «ЦРТ»
Цель работы: Разработка математических моделей прикладного применения существующих нейросетевых методов, позволяющих автоматически обрабатывать большие объемы речевых данных в естественном шумовом окружении и обеспечивающих решение задач выделения и записи речи с заданного источника в шумовом окружении с использованием массива удаленных микрофонов.
Итоги 2017 г.:
- Разработаны новые математические модели прикладного применения существующих нейросетевых методов на основе гетерогенных ансамблей глубоких полносвязных нейронных сетей и рекуррентных двунаправленных LSTM-сетей для решения задачи подавления шума музыки, тональных помех и помех от точечного источника в данных с речью, полученных с микрофонной решётки.
- Получен 1 РИД, опубликована 1 статья в научном журнале, индексируемом в Scopus. Принято участие в 1 международной конференции по тематике ПНИ.
Итоги 2018 г.:
- Разработан экспериментальный образец программного комплекса (ЭО ПК) RU.СНАБ.00664-01 в соответствии с требованиями п. 4.3 ТЗ на ПНИ;
- Проведены исследовательские испытания (ИИ) ЭО ПК в соответствии с Программой и методиками (ПМ) ИИ, разработанными по п. 2.6 плана-графика.
По результатам исследовательских испытаний разработанного экспериментального образца программного комплекса выделения, записи и распознавания с массива микрофонов (ЭО ПК ВЗРММ) можно сделать следующие выводы:
- Назначение и функциональность ЭО ПК соответствуют требованиям технического задания.
- Назначения и надежность алгоритмов, реализованных в составе ЭО ПК, соответствуют требованиям технического задания.
Кроме того, получателем субсидии и индустриальным партнером в полном объеме решены все задачи, предусмотренные планом-графиком, а именно:
- Осуществлены обобщение и оценка результатов исследований, в том числе:
а) сопоставлены результаты анализа научно-информационных источников и результаты теоретических и экспериментальных исследований;
б) проведена оценка эффективности полученных результатов в сравнении с современным научно-техническим уровнем;
в) проведена оценка полноты решения задач и достижения поставленных целей ПНИ; - Разработаны рекомендации о возможности использования результатов проведенных ПНИ в реальном секторе экономики с учетом технологических возможностей и особенностей Индустриального партнера;
- Разработана программная документация на ЭО ПК;
- Разработана программа и методика исследовательских испытаний ЭО ПК RU.СНАБ.00664-01 91 01;
- Разработан проект технического задания на проведение ОКР;
- Осуществлены расходы на ресурсное (материально-техническое и трудовое) обеспечение исследований (в т.ч. проведение дополнительных исследовательских работ, сбор и обработка баз данных, закупка и аренда оборудования) и коммерциализацию результатов работы;
- Принято участие в мероприятиях, направленных на освещение и популяризацию промежуточных и окончательных результатов ПНИ (конференции, семинары, симпозиумы, выставки и т.п., в том числе, международные).
В 2018 году результаты теоретических и экспериментальных исследований ПНИ были представлены международному научному сообществу на двух международных конференциях: 19 Международная научная конференция Interspeech 2018 (Хайдарабад, Индия) и 20 Международная конференция Specom 2018 (Лейпциг, Германия).
По результатам участия было опубликовано три статьи в научных изданиях, индексируемых в базе данных Scopus:
- Ivan Medennikov, Yuri Khokhlov, Aleksei Romanenko, Dmitry Popov, Natalia Tomashenko, Ivan Sorokin, Alexander Zatvornitskiy. An investigation of mixup training strategies for acoustic models in ASR// Proceedings of the 19th Annual Conference of the International Speech Communication Association (INTERSPEECH 2018). ISSN 2308-457X. DOI: 10.21437/Interspeech.2018-2191 (копия статьи и ее перевод приведены в приложении Е).
- Astapov S., Lavrentyev A., Shuranov E. Far Field Speech Enhancement at Low SNR in Presence of Nonstationary Noise Based on Spectral Masking and MVDR Beamforming. In: Karpov A., Jokisch O., Potapova R. (eds) Speech and Computer. SPECOM 2018. Lecture Notes in Computer Science, vol. 11096. Springer, Cham, LNAI 11096, pp. 32–41 (копия статьи приведена в приложении Ж, перевод статьи – в приложении И).
- Bataev V., Korenevsky M., Medennikov I., Zatvornitskiy A. (2018) Exploring End-to-End Techniques for Low-Resource Speech Recognition. In: Karpov A., Jokisch O., Potapova R. (eds) Speech and Computer. SPECOM 2018. Lecture Notes in Computer Science, vol 11096. Springer, Cham (копия статьи приведена в приложении К, перевод статьи – в приложении Л).
По результатам ПНИ в 2018 году также было получено четыре свидетельства о государственной регистрации РИД:
- Свидетельство № 2018663635 от 01.11.2018 о государственной регистрации программы для ЭВМ «Программа фильтрации речевого сигнала, полученного с микрофонной решетки, применяемая для распознавания речи при наличии тональных помех»;
- Свидетельство № 2018663634 от 01.11.2018 о государственной регистрации программы для ЭВМ «Программа, обеспечивающая подавление помехи, исходящей от точечного источника шума, в речевом сигнале на данных, полученных с массива микрофонов»;
- Свидетельством № 2018663558 от 31.10.2018 о государственной регистрации программы для ЭВМ «Программа, реализующая математическую модель на основе рекуррентных двунаправленных LSTM-сетей, для решения задачи подавления шума музыки в данных с речью, полученных с микрофонной решётки»;
- Свидетельства № 2018620233 от 08.02.2018 о государственной регистрации базы данных «Музыкально-речевая акустическая база данных для обучения алгоритма, производящего шумоочистку данных, полученных с массива удаленных микрофонов».
На материале исследований защищена диссертация на соискание степени кандидата технических наук по теме «Методы и комплекс программных средств детектирования атак с целью взлома голосовых биометрических систем» (автор – Лаврентьева Г.М.).