DC Field | Value | Language |
dc.contributor.author | Lu Gangfan | - |
dc.coverage.spatial | Минск | en_US |
dc.date.accessioned | 2024-10-09T13:45:11Z | - |
dc.date.available | 2024-10-09T13:45:11Z | - |
dc.date.issued | 2024 | - |
dc.identifier.citation | Lu Gangfan. Speaker recognition using neural networks = Распознавание диктора с использованием нейронных сетей / Lu Gangfan // Информационная безопасность : сборник материалов 60-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 22–26 апреля 2024 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2024. – С. 14–19. | en_US |
dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/57899 | - |
dc.description.abstract | This project demonstrates how to build a speaker recognition system using deep
learning techniques. The system uses MFCC to extract features from audio data and capture
spectral and time domain information of speech. After comparing traditional classification
methods and neural network classification methods, then chooses a recurrent neural network
(RNNs) to process of sequence data using. The project was trained and evaluated on the famous
audio dataset VoxCelebl to train and evaluate various speaker recognition models using python.
The system achieved a test accuracy of 93%. Tlus result demonstrates tliat the system is able to
effectively distinguish between different speakers. | en_US |
dc.language.iso | en | en_US |
dc.publisher | БГУИР | en_US |
dc.subject | материалы конференций | en_US |
dc.subject | recurrent neural network | en_US |
dc.subject | speaker recognition | en_US |
dc.subject | VoxCeleb | en_US |
dc.title | Speaker recognition using neural networks | en_US |
dc.title.alternative | Распознавание диктора с использованием нейронных сетей | en_US |
dc.type | Article | en_US |
local.description.annotation | Показан подход к построению системы распознавания диктора с
использованием методов глубокого обучения. Система использует мел-частотные
кепстральные коэффициенты в качестве характеристик аудиоданных. Проведено
сравнение традиционных методов классификации и классификации с
использованием нейронных сетей, по результатам сравнения для обработки
речевых сигналов выбраны рекуррентные нейронные сети (RNNs). Модель,
реализованная на языке программирования Python, была обучена на датасете
VoxCelebl. Точность распознавания (accuracy) составила 93%, что позволяет
модели эффективно распознавать различных дикторов, | en_US |
Appears in Collections: | Информационная безопасность : материалы 60-й научной конференции аспирантов, магистрантов и студентов (2024)
|