Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/54876
Full metadata record
DC FieldValueLanguage
dc.contributor.authorЖаксылык, К.-
dc.contributor.authorЗахарьев, В. А.-
dc.coverage.spatialМинскen_US
dc.date.accessioned2024-03-21T09:18:49Z-
dc.date.available2024-03-21T09:18:49Z-
dc.date.issued2024-
dc.identifier.citationЖаксылык, К. Распределенная система потоковой обработки данных для задач распознавания речи = Distributed stream data processing system for speech recognition tasks / К. Жаксылык, В. А. Захарьев // BIG DATA и анализ высокого уровня = BIG DATA and Advanced Analytics : сборник научных статей X Международной научно-практической конференции, Минск, 13 марта 2024 г. : в 2 ч. Ч. 2 / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. А. Богуш [и др.]. – Минск, 2024. – С. 358–370.en_US
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/54876-
dc.description.abstractПредставлен обзор архитектурных решений для распределенных систем потоковой обработки данных, предназначенных для построения современных сервисов распознавания речи на основе глубоких нейросетевых моделей. Рассмотрены основные компоненты таких систем, включая слои хранения и обработки данных, а также особенности их программной реализации. Особое внимание уделено использованию «Apache Kafka» в качестве брокера сообщений для обеспечения эффективной передачи данных между компонентами системы. Показаны особенности применения «Mlflow» для развертывания модели распознавания речи «Whisper», что обеспечивает удобное управление жизненным циклом модели и ее метаданными. Рассмотрен процесс развёртывания приложения в раках концепции микросервисной архитектуры на базе системы управления вычислительным кластером «Kubernetes», предоставляющей широкие возможности масштабирования вычиcлительных ресурсов. Полученные результаты позволяют определить ключевые характеристики распределённых систем, влияющие на эффективность работы моделей распознавания речи, работающих в реальном времени.en_US
dc.language.isoruen_US
dc.publisherБГУИРen_US
dc.subjectматериалы конференцийen_US
dc.subjectраспределенные системыen_US
dc.subjectраспознавание речиen_US
dc.subjectречевые системыen_US
dc.titleРаспределенная система потоковой обработки данных для задач распознавания речиen_US
dc.title.alternativeDistributed stream data processing system for speech recognition tasksen_US
dc.typeArticleen_US
local.description.annotationThe review of architectural solutions for distributed streaming data processing systems aimed at speech recognition tasks is presented. The main components of such systems are considered, including the architectural structure of the part, as well as software implementation. Particular attention is paid to using Apache Kafka as a message broker to ensure efficient data transfer. It also describes how to use MLflow to deploy the Whisper speech recognition model, which allows for easy management of the model's lifecycle and metadata. A microservice architecture based on Kubernetes is considered, providing scalability and application management. The results obtained allow us to determine the key directions for the development of distributed streaming data processing systems for efficient and accurate speech recognition in real time.en_US
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2024)

Files in This Item:
File Description SizeFormat 
Zhaksylyk_Distributed_stream.pdf469.78 kBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.