Об оценке результатов классификации несбалансированных данных по матрице ошибок

Старовойтов, В. В.; Голуб, Ю. И.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Старовойтов, В. В.	-
dc.contributor.author	Голуб, Ю. И.	-
dc.date.accessioned	2021-11-19T07:04:41Z	-
dc.date.available	2021-11-19T07:04:41Z	-
dc.date.issued	2021	-
dc.identifier.citation	Старовойтов, В. В. Об оценке результатов классификации несбалансированных данных по матрице ошибок / Старовойтов В. В., Голуб Ю. И. // Информатика. – 2021. – Т. 18, № 3. – С. 61–71. – DOI : https://doi.org/10.37661/1816-0301-2021-18-1-61-71.	ru_RU
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/45961	-
dc.description.abstract	При применении классификаторов в реальных приложениях часто число элементов одного класса больше числа элементов другого, т. е. имеет место дисбаланс данных. В статье исследуются оценки результатов классификации данных такого типа. Рассматривается, какой из переводов термина confusion matrix более точен, как предпочтительнее представлять данные в такой матрице и какими функциями лучше оценивать результаты классификации по ней. На реальных данных демонстрируется, что с помощью популярной функции точности accuracy не всегда корректно оцениваются ошибки классификации несбалансированных данных. Нельзя также сравнивать значения функции accuracy, вычисленные по матрицам с абсолютными количественными и нормализованными по классам результатами классификации. При дисбалансе данных точность, вычисленная по матрице ошибок с нормализованными значениями, как правило, будет иметь меньшие значения, поскольку она определяется по иной формуле. Такой же вывод сделан относительно большинства функций, используемых в литературе для нахождения оценок результатов классификации. Показывается, что для представления матриц ошибок лучше использовать абсолютные значения распределения объектов по классам вместо относительных, так как они описывают количество протестированных данных каждого класса и их дисбаланс. При построении классификаторов рекомендуется оценивать ошибки функциями, не зависящими от дисбаланса данных, что позволяет надеяться на получение более корректных результатов классификации реальных данных.	ru_RU
dc.language.iso	ru	ru_RU
dc.publisher	ОИПИ НАН Беларуси	ru_RU
dc.subject	публикации ученых	ru_RU
dc.subject	классификация объектов	ru_RU
dc.subject	матрица ошибок	ru_RU
dc.subject	нейронные сети	ru_RU
dc.subject	classification of objects	ru_RU
dc.subject	confusion matrix	ru_RU
dc.subject	neural network	ru_RU
dc.title	Об оценке результатов классификации несбалансированных данных по матрице ошибок	ru_RU
dc.title.alternative	About the confusion-matrix-based assessment of the results of imbalanced data classification	ru_RU
dc.type	Статья	ru_RU
local.description.annotation	When applying classifiers in real-world applications, data imbalance often occurs when the number of elements of one class is greater than another. The article examines the estimates of the classification results for this type of data. The paper provides answers to three questions: which term is a more accurate translation of the phrase confusion matrix, how it is preferable to represent data in this matrix, and what functions are better to evaluate the results of classification by such a matrix. The paper demonstrates on real data that the popular accuracy function cannot correctly estimate the classification errors for imbalanced data. It is also impossible to compare the values of this function, calculated by matrices with the absolute quantitative results of classification and normalized by classes. If the data is imbalanced, the accuracy calculated from the confusion matrix with normalized values will usually have lower values, since it is calculated by a different formula. The same conclusion is made for most of the classification accuracy functions used in the literature for estimation of classification results. It is shown that to represent confusion matrices it is better to use absolute values of object distribution by classes instead of relative ones, since they give an idea of the amount of data tested for each class and their imbalance. When constructing classifiers, it is recommended to evaluate errors by functions that do not depend on the data imbalance, which allows us to hope for more correct classification results for real data.	-
Appears in Collections:	Публикации в изданиях Республики Беларусь