DC Field | Value | Language |
dc.contributor.author | Жаксылык, К. | - |
dc.contributor.author | Захарьев, В. А. | - |
dc.coverage.spatial | Минск | en_US |
dc.date.accessioned | 2024-03-21T09:18:49Z | - |
dc.date.available | 2024-03-21T09:18:49Z | - |
dc.date.issued | 2024 | - |
dc.identifier.citation | Жаксылык, К. Распределенная система потоковой обработки данных для задач распознавания речи = Distributed stream data processing system for speech recognition tasks / К. Жаксылык, В. А. Захарьев // BIG DATA и анализ высокого уровня = BIG DATA and Advanced Analytics : сборник научных статей X Международной научно-практической конференции, Минск, 13 марта 2024 г. : в 2 ч. Ч. 2 / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. А. Богуш [и др.]. – Минск, 2024. – С. 358–370. | en_US |
dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/54876 | - |
dc.description.abstract | Представлен обзор архитектурных решений для распределенных систем потоковой
обработки данных, предназначенных для построения современных сервисов распознавания речи на основе
глубоких нейросетевых моделей. Рассмотрены основные компоненты таких систем, включая слои хранения
и обработки данных, а также особенности их программной реализации. Особое внимание уделено
использованию «Apache Kafka» в качестве брокера сообщений для обеспечения эффективной передачи
данных между компонентами системы. Показаны особенности применения «Mlflow» для развертывания
модели распознавания речи «Whisper», что обеспечивает удобное управление жизненным циклом модели и
ее метаданными. Рассмотрен процесс развёртывания приложения в раках концепции микросервисной
архитектуры на базе системы управления вычислительным кластером «Kubernetes», предоставляющей
широкие возможности масштабирования вычиcлительных ресурсов. Полученные результаты позволяют
определить ключевые характеристики распределённых систем, влияющие на эффективность работы
моделей распознавания речи, работающих в реальном времени. | en_US |
dc.language.iso | ru | en_US |
dc.publisher | БГУИР | en_US |
dc.subject | материалы конференций | en_US |
dc.subject | распределенные системы | en_US |
dc.subject | распознавание речи | en_US |
dc.subject | речевые системы | en_US |
dc.title | Распределенная система потоковой обработки данных для задач распознавания речи | en_US |
dc.title.alternative | Distributed stream data processing system for speech recognition tasks | en_US |
dc.type | Article | en_US |
local.description.annotation | The review of architectural solutions for distributed streaming data processing systems
aimed at speech recognition tasks is presented. The main components of such systems are considered, including the architectural structure of the part, as well as software implementation. Particular attention is
paid to using Apache Kafka as a message broker to ensure efficient data transfer. It also describes how to
use MLflow to deploy the Whisper speech recognition model, which allows for easy management of the
model's lifecycle and metadata. A microservice architecture based on Kubernetes is considered, providing
scalability and application management. The results obtained allow us to determine the key directions for
the development of distributed streaming data processing systems for efficient and accurate speech
recognition in real time. | en_US |
Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2024)
|