Темы для стажеров и ВКР

  • Распознавание речи в сложных условиях.
  • Мультиязычное распознавание.
  • Детектирование акустических событий.
  • Участие в разработке эмоционального модуля для чат-ботов (определение эмоционального состояния пользователя и адаптация ответов чат-бота к нему)
  • Акустические модели на продвинутых архитектурах (CNN, ResNet, VGG).
  • Базы знаний для систем искусственного интеллекта (извлечение баз знаний из неразмеченных текстов и применение их в ИИ).
  • Создание декодера на GPU (CUDA).
  • Применение текстурных шейдеров в OpenGL ES для ускорения расчёта нейронных сетей на мобильных устройствах.
  • Система автоматического пополнения баз для обучения на основе анализа записей YouTube.
  • Акустические модели для распознавания в шумах на основе CNN.
  • Разработка единого вычислительного графа для SDK распознавания (например, на базе Intel TBB).
  • Межъязыковая адаптация диалоговых систем (как заставить систему, обученную на русском языке, работать на арабском, казахском, испанском…).
  • Ускорение распознавания с использованием ассемблера GPU-процессора в Raspberry Pi 2.
  • Биометрическая аутентификация по голосу.
  • Биометрическая аутентификация по лицу.
  • Детектирование присутствия «живого» пользователя.
  • Алгоритмы распознавания человека по изображению лица с использованием глубокого обучения.
  • Алгоритмы детектирования лица человека на изображении с использованием глубокого обучения.
  • Алгоритмы оценки портретных характеристик по изображению лица человека.
  • Алгоритмы трекинга лиц на видеоизображении.
  • Тексто-зависимая верификация диктора по голосу (произвольная парольная фраза).
  • Разработка тексто-независимого и языко-независимого детектора синхронности\асинхронности звука и видео.
  • Применение глубоких нейронных сетей для решения задачи тексто-независимой идентификации диктора по голосу.
  • Разработка\улучшение дететора языка\пола\возраста диктора.
  • Разделение речевых сегментов фонограммы по дикторам (диаризация).
  • Анти-спуфинг по голосу или по лицу.
  • Кластеризация больших объемов биометрических данных (голос , лицо).
  • Калибровка биометрических систем.
  • Исследование и разработка методов генерации места и длительности пауз и дыхания в синтезированной речи голосом заданного диктора.
  • Создание речевой базы на основе аудиокниг для технологии Unit-Selection.
  • Анализ современных подходов, посвященных синтезу речи с заданными тембро-эмоциональными параметрами.
  • Исследование и разработка методов автоматической точной разметки границ периодов основного тона в речевом сигнале.
  • Алгоритмы обработки сигналов в распределенных микрофонных системах.
  • Оптимизация геометрии микрофонных решеток.
  • Алгоритмы обработки сигналов для компактных микрофонных решеток.
  • Оценка акустических параметров помещений (room print).
  • Алгоритмы разделения сигналов в 2-микрофонных системах.
  • Алгоритмы обработки сигналов на основе вейвлетов (Wavelet Toolbox).
  • Исследование и оптимизация геометрии микрофонных решеток.
  • Алгоритмы выделения речевых сигналов с использованием компактных микрофонных решеток.
  • Алгоритмы выделения речевых сигналов с использованием 2-микрофонных систем.
  • Паралингвистический анализ речи (системы анализа ложности/истинности речевых сообщений, психофизиологического состояния диктора и пр.)
  • Экстралингвистический анализ спонтанной речи.
  • Автоматическая обработка детской речи (системы автоматического распознавания детской речи, эмоций и пр.)
  • Человеко-машинные интерфейсы для парализованных людей на основе автоматического анализа неречевых звуков.
  • Многомодальные интерфейсы для обучения незрячих музыкантов (для тех, у кого есть музыкальное образование).
  • Автоматизированное наукоёмкое тестирование биометрических технологий, алгоритмов синтеза и распознавания речи.