https://libeldoc.bsuir.by/handle/123456789/51271
Title: | Developing Birds Sound Recognition System Using an Ontological Approach |
Other Titles: | Разработка системы распознавания звуков птиц с использованием онтологического подхода |
Authors: | Zianouka, Y. Bialiauski, D. Kajharodava, L. Trafimau, A. Chachlou, V. Hetsevich, J. Zahariev, V. Zhaksylyk, K. |
Keywords: | материалы конференций;recognition system;machine learning;Mel-frequency cepstral coefficients (MFCCs) |
Issue Date: | 2023 |
Publisher: | БГУИР |
Citation: | Zianouka, Y. Developing birds sound recognition system using an ontological approach = Разработка системы распознавания звуков птиц с использованием онтологического подхода / Y. Zianouka [et al.] // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS) : сборник научных трудов / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Минск, 2023. – Вып. 7. – С. 165–170. |
Abstract: | The article presents an intelligent model of automated voice recognition systems (on the example of birds). To develop it, a dataset of birds’ voices was annotated and processed using Mel-Frequency Cepstral Coefficient as an effective tool for modelling the subjective pitch and frequency content of audio signals. For composing and training the model, Convolutional Neural Network is used to implement high level results. The possibilities of using ontological approaches and OSTIS technology for further improvement of the quality of ML models are shown. |
Alternative abstract: | В работе предложена модель распознавания голосов птиц Республики Беларусь, основанная на анализе мел-спектрограмм (MFCC, mel-frequency cepstrum). Мелспектрограмма — это графическое представление звукового сигнала, в котором частоты представлены в мел-шкале вместо линейной шкалы частот, используемой в обычной спектрограмме. Шкала Mel — шкала высоты звуков, отсеивающая частоты звуков, которые человек не слышит, и оставляет самые характерные, находящихся на одинаковой дистанции для слушателя. Для машинного обучения модели была использована глубокая нейронная сеть типа CNN (Convolutional Neural Network) для распознавания класса изображения голоса птиц, так как именно этот вид сети большеподходитдлязадачраспознаванияизображений.Для построения сети CNN мы применили сеть EfficientNetB3, а также еще три слоя (Flatten, Dropout, Dense с функцией softmax в качестве выхода). Таким образом, окончательная модель была построена на основе EfficientNetB3 и 14 различных классов (видов птиц) с оптимизатором Адама (Adam optimizer), категориальной функцией потерь перекрестной энтропии (categorical cross-entropy loss function) и сбалансированными весами классов. |
URI: | https://libeldoc.bsuir.by/handle/123456789/51271 |
Appears in Collections: | OSTIS-2023 |
File | Description | Size | Format | |
---|---|---|---|---|
Zianouka_Developing.pdf | 175.38 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.