Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/59580
Title: Сравнение архитектур нейронных сетей для формирования базы аллофонов в задачах распознавания речи
Other Titles: Comparison of neural network architectures for allophone database formation in speech recognition tasks
Authors: Коржова, И. А.
Keywords: материалы конференций;защита информации;нейронные сети;аллофоны;распознавание речи;защита переговоров;рекуррентные нейронные сети;долгая краткосрочная память;гибридная аннотация данных;персонализированные аллофоны;предобученные модели;теоретический анализ
Issue Date: 2025
Publisher: БГУИР
Citation: Коржова, И. А. Сравнение архитектур нейронных сетей для формирования базы аллофонов в задачах распознавания речи = Comparison of neural network architectures for allophone database formation in speech recognition tasks / И. А. Коржова // Технические средства защиты информации : материалы ХXIII Международной научно-технической конференции, Минск, 08 апреля 2025 года / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: О. В. Бойправ [и др.]. – Минск, 2025. – С. 188–193.
Abstract: данной работе представлен теоретический анализ различных архитектур нейронных сетей для формирования базы аллофонов в задачах распознавания и защиты речи. Рассмотрены такие модели, как рекуррентные нейронные сети (RNN), долгой краткосрочной памяти (LSTM), GRU и трансформеры, с акцентом на их способность учитывать контекст и долгосрочные зависимости в речевых данных. Оригинальность исследования заключается в разработке концепции системы, которая не только формирует базу аллофонов на основе речи конкретного диктора, но и использует ее для защиты конфиденциальных переговоров. Предложен гибридный подход к аннотации данных, сочетающий ручную разметку экспертов и автоматическую обработку с использованием предобученных моделей, таких как Wav2Vec. На основе анализа существующих исследований сделаны выводы о том, что использование RNN и LSTM может значительно улучшить точность распознавания аллофонов по сравнению с традиционными методами, такими как скрытые марковские модели (НММ). Практическая значимость исследования заключается в возможности применения предложенной концепции для защиты конфиденциальных переговоров путем наложения персонализированных аллофонов на речь диктора.
Alternative abstract: This article presents a theoretical analysis of various neural network architectures for the formation of an allophone database in speech recognition and protection tasks. Models such as recurrent neural networks (RNN), long short-term memory (LSTM), GRU, and transformers are considered, with a focus on their ability to account for context and long-term dependencies in speech data. The originality of the research lies in the development of a system concept that not only forms an allophone database based on the speech of a specific speaker but also uses it to protect confidential conversations. A hybrid approach to data annotation is proposed, combining manual labeling by experts and automatic processing using pre-trained models such as Wav2Vec. Based on the analysis of existing studies, it is concluded that the use of RNN and LSTM can significantly improve the accuracy of allophone recognition compared to traditional methods, such as hidden Markov models (HMM). The practical significance of the research lies in the potential application of the proposed concept for protecting confidential conversations by overlaying personalized allophones on the speaker's speech.
URI: https://libeldoc.bsuir.by/handle/123456789/59580
Appears in Collections:ТСЗИ 2025

Files in This Item:
File Description SizeFormat 
Korzhova_Sravnenie.pdf325.55 kBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.