Карпов Алексей Анатольевич

Доктор технических наук

Профессор
кафедры Речевых информационных систем,
Национальный исследовательский университет Информационных технологий, механики и оптики (НИУ ИТМО)

Ведущий научный сотрудник
Лаборатория речевых и многомодальных интерфейсов,
Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН)

Образование

  • Доктор технических наук: Октябрь 2013 (СПИИРАН, Тема диссертации «Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях»).
  • Кандидат технических наук: Март 2007 (СПИИРАН, Тема диссертации «Модели и программная реализация распознавания русской слитной речи на основе морфемного анализа»)
  • Инженер: Февраль 2002 (СПбГУАП).

Основные научно-исследовательские проекты

  • Karpov A.A., Zelezny M. Bilingual multimodal system for text-to-audiovisual speech and sign language synthesis // Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2014, № 5, pp. 92-98 (In Rus.).
  • Karpov A.A. Assistive information technologies based on audio-visual speech interfaces // SPIIRAS Proceedings, 2013, Issue 27, pp. 114 128 (In Rus.).
  • Разработка математического и программного обеспечения многомодальной ассистивной технологии для помощи людям с ограниченными возможностями здоровья (грант Президента РФ, 2015-2016, СПИИРАН)
  • Модели и методы обработки аудиовизуальных сигналов для бимодального распознавания русской речи (проект РФФИ, 2015-2017, СПИИРАН)
  • Математическое и программное обеспечение автоматического анализа и распознавания разговорной русской речи и диаризации дикторов (НИОКР, 2012-2013, СПИИРАН)
  • Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства (НИОКР, 2011-2013, СПИИРАН)
  • Разработка методов и моделей автоматической обработки речевых сигналов в интеллектуальных информационно-коммуникационных системах (НИОКР, 2011-2013, СПИИРАН)

Опыт профессиональной деятельности

  • 2014 — Профессор, кафедра речевых информационных систем НИУ ИТМО
  • 2014 — Ведущий научный сотрудник, лаборатория речевых и многомодальных интерфейсов СПИИРАН, Санкт-Петербург
  • 2008-2014 Старший научный сотрудник, лаборатория речевых и многомодальных интерфейсов СПИИРАН
  • 2011-2012 Старший научный сотрудник, лаборатория экспериментальной фонетики СПбГУ
  • 2003-2006 Аспирант, СПИИРАН

Публикации

Более 200-т публикаций, патентов, свидетельств о регистрации программ и баз данных

Членство в профессиональных обществах

  • Эксперт научно-технической сферы (федеральный реестр, свидетельство №01-01426) с 2012 года
  • Член международных научных ассоциаций ISCA, IAPR, IEEE, EURASIP
  • Ответственный по связям с Россией ассоциации EURASIP
  • Член организационного и программного комитетов серии международных конференций «Речь и Компьютер» SPECOM
  • Председатель 4-го международного семинара по речевым технологиям для малоресурсных языков (SLTU-2014, Санкт-Петербург, ИТМО)
  • Член научных/программных комитетов международных конференций INTERSPEECH, ICPR, ISCSLP, SPECOM, SLTU и ряда других
  • Рецензент международных журналов: IEEE/ACM Transactions on Audio, Speech and Language Processing; Speech Communication; Computer Speech & Language (Elsevier); Language Resources and Evaluation; Journal on Multimodal User Interfaces (Springer); International Journal of Engineering
  • Член ученого совета СПИИРАН с 2013 года

Аспиранты

Защитившиеся

  • Ронжин Александр Леонидович. Тема диссертационного исследования: «Методы и программные средства автоматизации аудиовизуального мониторинга участников мероприятий в интеллектуальном зале», (2013 г., СПИИРАН)
  • Кипяткова Ирина Сергеевна. Тема диссертационного исследования: «Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи», (2011 г., СПИИРАН)

Текущие

  • Жамбаева Анара Куанышбековна. Тема диссертационного исследования: «Автоматическая система двуязычного распознавания речи для кириллических языков (казахского и русского)» (НИУ ИТМО — Казахстан).

Магистранты

Текущие магистранты

  • Рюмин Дмитрий Александрович. Тема исследования «Автоматизированная система распознавания отдельных жестов рук человека с применением сенсора Kinect» (НИУ ИТМО — Казахстан)

Последние публикации

Монографии:

  • Кипяткова И.С., Ронжин А.Л., Карпов А.А. Автоматическая обработка разговорной русской речи. — СПб.: ГУАП, 2013. – 314 с.

Статьи в журналах:

  • Karpov A. An Automatic Multimodal Speech Recognition System with Audio and Video Information // Automation and Remote Control. 2014, Vol. 75, № 12, pp. 2190-2200.
  • Karpov A., Markov K., Kipyatkova I., Vazhenina D., Ronzhin A. Large vocabulary Russian speech recognition using syntactico-statistical language modeling // Speech Communication. 2014, Vol. 56, pp. 213-228.
  • Besacier L., Barnard E., Karpov A., Schultz T. Automatic speech recognition for under-resourced languages: A survey // Speech Communication. 2014, Vol. 56, pp. 85-100.
  • Kipyatkova I., Karpov A., Verkhodanova V., Zelezny M. Modeling of Pronunciation, Language and Nonverbal Units at Conversational Russian Speech Recognition // International Journal of Computer Science and Applications. 2013, Vol. 10, № 1, pp. 11-30.
  • Карпов А.А. Реализация автоматической системы многомодального распознавания речи по аудио- и видеоинформации // Автоматика и телемеханика. 2014, Т. 75, № 12, 2014, С. 125-138.
  • Карпов А.А., Железны М. Двуязычная многомодальная система для аудиовизуального синтеза речи и жестового языка по тексту // Научно-технический вестник информационных технологий, механики и оптики. 2014, № 5, С. 92-98.
  • Карпов А.А. Ассистивные информационные технологии на основе аудиовизуальных речевых интерфейсов // Труды СПИИРАН, 2013, Вып. 27, С. 114 128.

Тезисы докладов:

  • Karpov A., Akarun L., Yalçın H., Ronzhin Al., Demiröz B., Çoban A., Zelezny M. Audio-Visual Signal Processing in a Multimodal Assisted Living Environment. Proc. 15th International Conference INTERSPEECH-2014, Singapore, 2014, pp. 1023-1027.
  • Karpov A., Ronzhin A. A Universal Assistive Technology with Multimodal Input and Multimedia Output Interfaces. Proc. 16th International Conference on Human-Computer Interaction, Heraklion, Greece, Springer LNCS 8513, 2014, pp. 369-378.
  • Karpov A., Kipyatkova I., Zelezný M. A Framework for Recording Audio-Visual Speech Corpora with a Microphone and a High-Speed Camera. Proc. 16th International Conference on Speech and Computer SPECOM-2014, Novi Sad, Serbia, Springer LNAI 8773, 2014, pp. 50–57.
  • Kipyatkova I., Karpov A. Study of Morphological Factors of Factored Language Models for Russian ASR. Proc. 16th International Conference on Speech and Computer SPECOM-2014, Novi Sad, Serbia, Springer LNAI 8773, 2014, pp. 451–458.
  • Kipyatkova I., Verkhodanova V., Karpov A. Rescoring N-Best Lists for Russian Speech Recognition using Factored Language Models. In Proc. 4th International Workshop on Spoken Language Technologies for Under-resourced Languages SLTU-2014, St. Petersburg, Russia, 2014, pp. 81-86.
  • Karpov A., Krnoul Z., Zelezny M., Ronzhin A. Multimodal Synthesizer for Russian and Czech Sign Languages and Audio-Visual Speech. Proc. 15th International Conference on Human-Computer Interaction, Las Vegas, Nevada, USA, Springer LNCS 8009, 2013, pp. 520-529.