ГІБРИДНИЙ ПІДХІД ДО ПАРАЛЕЛЬНИХ ОБЧИСЛЕНЬ ДЛЯ ЕФЕКТИВНОГО АНАЛІЗУ ВЕЛИКИХ ДАНИХ
DOI:
https://doi.org/10.31891/2307-5732-2025-355-93Ключові слова:
паралельні обчислення, аналітика великих даних, планування завдань, високопродуктивні обчислення, оптимізація конвеєра данихАнотація
Швидке зростання обсягів даних у науці, бізнесі та цифровій інфраструктурі суттєво підвищило значущість аналітики великих даних як рушія аналізу, прийняття рішень та інновацій. З огляду на властиві великим даним характеристики - обсяг, швидкість та різноманітність («3V»), традиційні послідовні обчислювальні моделі вже не відповідають сучасним викликам. У зв’язку з цим паралельні обчислення стають критично важливими, оскільки забезпечують високу продуктивність, масштабованість та енергоефективність у процесі обробки даних.
У статті подано порівняння трьох основних стратегій паралельних обчислень: CPU-систем, GPU-архітектур та розподілених обчислень. Кожна має власні переваги та обмеження. Центральні процесори (CPU) забезпечують багатопотокове виконання задач загального призначення, але обмежені кількістю ядер і пропускною здатністю пам’яті. Графічні процесори (GPU) надають масивний паралелізм, придатний для інтенсивних обчислень, але мають обмеження у пам’яті й додаткові витрати на передавання даних. Розподілені системи (наприклад, Apache Spark, Dask, Ray) дозволяють горизонтальне масштабування та забезпечують еластичність і відмовостійкість, хоча потребують складної координації між вузлами.
У цій статті аналізується ефективність цих парадигм у реальних сценаріях, спираючись на бенчмарки Spark і Dask, застосування GPU-прискорення в аналітичних фреймворках і гібридні моделі з MPI та OpenACC. Оцінено продуктивність обчислень у різних контекстах, що дозволяє визначити доцільність кожного підходу залежно від задачі.
Новизна дослідження полягає у запропонованій концепції гібридного фреймворку, що поєднує всі три стратегії в єдину багаторівневу архітектуру. CPU відповідають за оркестрацію та легкі обчислення, GPU за паралельну обробку інтенсивних навантажень, а розподілені системи за масштабування та обробку великих обсягів даних. Такий підхід дозволяє суттєво підвищити ефективність використання ресурсів, та продуктивність системи.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 РОМАН ТРІСКА, ЛЕСЯ ГЕНТОШ (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.