Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/45961
Full metadata record
DC FieldValueLanguage
dc.contributor.authorСтаровойтов, В. В.-
dc.contributor.authorГолуб, Ю. И.-
dc.date.accessioned2021-11-19T07:04:41Z-
dc.date.available2021-11-19T07:04:41Z-
dc.date.issued2021-
dc.identifier.citationСтаровойтов, В. В. Об оценке результатов классификации несбалансированных данных по матрице ошибок / Старовойтов В. В., Голуб Ю. И. // Информатика. – 2021. – Т. 18, № 3. – С. 61–71. – DOI : https://doi.org/10.37661/1816-0301-2021-18-1-61-71.ru_RU
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/45961-
dc.description.abstractПри применении классификаторов в реальных приложениях часто число элементов одного класса больше числа элементов другого, т. е. имеет место дисбаланс данных. В статье исследуются оценки результатов классификации данных такого типа. Рассматривается, какой из переводов термина confusion matrix более точен, как предпочтительнее представлять данные в такой матрице и какими функциями лучше оценивать результаты классификации по ней. На реальных данных демонстрируется, что с помощью популярной функции точности accuracy не всегда корректно оцениваются ошибки классификации несбалансированных данных. Нельзя также сравнивать значения функции accuracy, вычисленные по матрицам с абсолютными количественными и нормализованными по классам результатами классификации. При дисбалансе данных точность, вычисленная по матрице ошибок с нормализованными значениями, как правило, будет иметь меньшие значения, поскольку она определяется по иной формуле. Такой же вывод сделан относительно большинства функций, используемых в литературе для нахождения оценок результатов классификации. Показывается, что для представления матриц ошибок лучше использовать абсолютные значения распределения объектов по классам вместо относительных, так как они описывают количество протестированных данных каждого класса и их дисбаланс. При построении классификаторов рекомендуется оценивать ошибки функциями, не зависящими от дисбаланса данных, что позволяет надеяться на получение более корректных результатов классификации реальных данных.ru_RU
dc.language.isoruru_RU
dc.publisherОИПИ НАН Беларусиru_RU
dc.subjectпубликации ученыхru_RU
dc.subjectклассификация объектовru_RU
dc.subjectматрица ошибокru_RU
dc.subjectнейронные сетиru_RU
dc.subjectclassification of objectsru_RU
dc.subjectconfusion matrixru_RU
dc.subjectneural networkru_RU
dc.titleОб оценке результатов классификации несбалансированных данных по матрице ошибокru_RU
dc.title.alternativeAbout the confusion-matrix-based assessment of the results of imbalanced data classificationru_RU
dc.typeСтатьяru_RU
local.description.annotationWhen applying classifiers in real-world applications, data imbalance often occurs when the number of elements of one class is greater than another. The article examines the estimates of the classification results for this type of data. The paper provides answers to three questions: which term is a more accurate translation of the phrase confusion matrix, how it is preferable to represent data in this matrix, and what functions are better to evaluate the results of classification by such a matrix. The paper demonstrates on real data that the popular accuracy function cannot correctly estimate the classification errors for imbalanced data. It is also impossible to compare the values of this function, calculated by matrices with the absolute quantitative results of classification and normalized by classes. If the data is imbalanced, the accuracy calculated from the confusion matrix with normalized values will usually have lower values, since it is calculated by a different formula. The same conclusion is made for most of the classification accuracy functions used in the literature for estimation of classification results. It is shown that to represent confusion matrices it is better to use absolute values of object distribution by classes instead of relative ones, since they give an idea of the amount of data tested for each class and their imbalance. When constructing classifiers, it is recommended to evaluate errors by functions that do not depend on the data imbalance, which allows us to hope for more correct classification results for real data.-
Appears in Collections:Публикации в изданиях Республики Беларусь

Files in This Item:
File Description SizeFormat 
Starovoytov_Ob.pdf836.01 kBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.