Title: | Ускорение объединения распределенных наборов данных по заданному критерию |
Other Titles: | Accelerate the joining of distributed datasets by a given criteria |
Authors: | Тырышкина, Е. С. |
Keywords: | материалы конференций;машинное время;вычислительные системы;хранилища данных;MapReduce;Apache Spark;distributed computing systems;data warehouses |
Issue Date: | 2022 |
Publisher: | Бестпринт |
Citation: | Тырышкина, Е. С. Ускорение объединения распределенных наборов данных по заданному критерию = Accelerate the joining of distributed datasets by a given criteria / Е. С. Тырышкина // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : VIII Международная научно-практическая конференция : сборник материалов VIII Международной научно-практической конференции, Минск, 11–12 мая 2022 года / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. А. Богуш [и др.]. – Минск, 2022. – С. 53–56. |
Abstract: | В данной работе исследуется вопрос снижения затрат машинного времени за счет разработки и внедрения метода ускорения операции соединения распределенных массивов данных по заданному критерию. Был проведен обзор литературы по архитектуре распределенных хранилищ данных и
алгоритмам параллельных вычислений в результате которого выделены лимитирующие стадии, замедляющие процесс выполнения операции соединения, которые были исключены в предлагаемом в данной работе методе, на основе которого создан алгоритм и реализована библиотека, расширяющая функционал коммерческого программного продукта. Для оценки результата проведены экспериментальные исследования. Работа данного метода сравнивалась со стандартной библиотекой Spark SQL и показала сокращение времени на ~ 37% для данных размером 2 ТБ и ~ 47% для данных 7 ТБ. |
Alternative abstract: | In this paper, we study the issue of reducing the cost of computer time by developing and implementing a method for accelerating the operation of joining distributed datasets according to a given criterion. A review of the literature on the architecture of distributed data storages and parallel computing algorithms was carried out, as a result of which limiting stages were identified that slow down the process of performing a joining operation, which were excluded in the method proposed in this paper, on the basis of which an algorithm was created and a library was implemented that expands the functionality of a commercial software product. Experimental studies were
carried out to evaluate the result. This method was compared with the Spark SQL standard library and showed ~37% time savings for 2TB data and ~47% for 7TB data. |
URI: | https://libeldoc.bsuir.by/handle/123456789/48390 |
Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2022)
|