Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/45537
Full metadata record
DC FieldValueLanguage
dc.contributor.authorСеребряная, Л. В.-
dc.contributor.authorЛасый, И. Е.-
dc.date.accessioned2021-10-06T08:21:56Z-
dc.date.available2021-10-06T08:21:56Z-
dc.date.issued2021-
dc.identifier.citationСеребряная, Л. В. Автоматическое распознавание и представление текста в виде аудиопотока / Л. В. Серебряная, И. Е. Ласый // Доклады БГУИР. – 2021. – № 19 (6). – С. 51–58. – DOI : http://dx.doi.org/10.35596/1729-7648-2021-19-6-51-58.ru_RU
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/45537-
dc.description.abstractРассмотрена задача автоматической генерации речи из текстового файла. Выполнен анализ программных средств, предназначенных для распознавания текстов и преобразования их в аудиопоток. Оценены их преимущества и недостатки, на основании чего сделан вывод об актуальности разработки программного средства автоматической генерации аудиопотока из текста на русском языке. Проанализированы модели на основе искусственных нейронных сетей, которые используются для синтеза речи, после чего построена математическая модель создаваемого программного средства. Она состоит из трех компонентов: сверточного кодировщика, сверточного декодировщика и преобразователя. Спроектирована архитектура программного средства, в которую входят графический интерфейс, сервер приложения и система синтеза речи. Разработан ряд алгоритмов: предварительной обработки текста перед загрузкой в программное средство, преобразования аудиофайлов обучающей выборки и обучения сети, генерации речи на основе произвольных текстовых файлов. Создано программное средство, представляющее собой одностраничное приложение и имеющее веб-интерфейс для взаимодействия с пользователем. Для оценки качества работы программного средства использована метрика, представляющая среднюю оценку разных мнений. В результате агрегации разных мнений метрика получила достаточно высокое значение, на основании чего можно считать, что все поставленные задачи были решены.ru_RU
dc.language.isoruru_RU
dc.publisherБГУИРru_RU
dc.subjectдоклады БГУИРru_RU
dc.subjectмодель искусственной нейронной сетиru_RU
dc.subjectаудиопотокиru_RU
dc.subjectкодировщикиru_RU
dc.subjectдекодировщикиru_RU
dc.subjectгенерация речиru_RU
dc.subjectспектрограммаru_RU
dc.subjectartificial neural network modelru_RU
dc.subjectaudio streamru_RU
dc.subjectencodersru_RU
dc.subjectdecodersru_RU
dc.subjectspeech generationru_RU
dc.subjectspectrogramru_RU
dc.titleАвтоматическое распознавание и представление текста в виде аудиопотокаru_RU
dc.title.alternativeAutomatic recognition and representation of text in the form of audio streamru_RU
dc.typeСтатьяru_RU
dcterms.publisherБГУИР, РБ-
local.description.annotationThe problem of automatic speech generation from a text file is considered. An analytical review of the software has been completed. They are designed to recognize texts and convert them to an audio stream. The advantages and disadvantages of software products are estimated. Based on this, a conclusion was drawn about the relevance of developing a software for automatic generation of an audio stream from a text in Russian. Models based on artificial neural networks, which are used for speech synthesis, are analyzed. After that, a mathematical model of the created software is built. It consists of three components: a convolutional encoder, a convolutional decoder, and a transformer. The architecture of the software is designed. It includes a graphical interface, an application server, and a speech synthesis system. A number of algorithms have been developed: preprocessing text before loading it into a software, converting audio files of a training sample and training a network, generating speech based on arbitrary text files. A software has been created, which is a single-page application and has a web interface for interacting with the user. To assess the quality of the software, a metric was used that represents the average score of different opinions. As a result of the aggregation of different opinions, the metric received a sufficiently high value, on the basis of which it can be assumed that all the tasks have been solved.-
Appears in Collections:№ 19(6)

Files in This Item:
File Description SizeFormat 
Serebryanaya_Avtomaticheskoye.pdf1.38 MBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.