Подробное описание документа
Пролетарская В. А.
Модели процессов соединения таблиц хранилища данных по технологии MapReduce/Spark / Пролетарская В. А., Григорьев Ю. А. - DOI 10.18698/0236-3933-2019-5-79-94 // Вестник МГТУ им. Н. Э. Баумана. Сер. Приборостроение. - 2019. - № 5. -
Разработана модель и получена оценка передаваемого по сети объема данных при дублировании таблицы по узлам и с использованием фильтра Блума в среде MapReduce/Spark. Созданы модели процессов выполнения запросов на соединение таблиц базы данных при каскадном использовании фильтра Блума в этой же среде. Рассмотрены два случая соединения таблиц: 1) несколько кустов с одним измерением в каждом; 2) один куст с несколькими измерениями (хранилище типа "звезда"). Получена оценка объема фильтра Блума, передаваемого по сети при соединении таблиц. На примере запроса Q3 из теста TPC-H выполнен анализ адекватности оценки выигрыша в объеме данных, передаваемых по сети при каскадном использовании фильтра Блум. Ошибка прогнозного значения составила 2 %
004.65 Системы управления базами данных (СУБД)
