ВИКОРИСТАННЯ МІКРОСЕРВІСНОГО ПІДХОДУ В ПРОЦЕСІ ВЕБ-СКРАПІНГУ ВЕЛИКИХ ОБСЯГІВ ДАНИХ ДЛЯ ВЕБ-САЙТІВ ІЗ ДИНАМІЧНИМ ВМІСТОМ

Автор(и)

  • ОРЕСТ СУШИНСЬКИЙ Приватний вищий навчальний заклад «Європейський університет» Автор https://orcid.org/0000-0002-2661-6458
  • ВОЛОДИМИР КОЦУН Приватний вищий навчальний заклад «Європейський університет» Автор https://orcid.org/0000-0003-2363-8157
  • ОЛЕНА СКЛЯРЕНКО Приватний вищий навчальний заклад «Європейський університет» Автор https://orcid.org/0000-0001-6555-1223
  • ЛЕОНІД ЛИТВИНЕНКО Приватний вищий навчальний заклад «Європейський університет» Автор https://orcid.org/0000-0002-0828-383X

DOI:

https://doi.org/10.31891/2307-5732-2023-327-5-243-248

Ключові слова:

мікросервіс, веб-скрапінг, дані

Анотація

Проблема веб-скрапінгу виникає у зв'язку зі зростанням складності веб-сторінок, які використовують 
динамічний вміст, згенерований за допомогою JavaScript. Це ускладнює процес збору даних, оскільки стандартні методи HTTP-запитів не можуть отримати повний вміст сторінки. Мікросервісна архітектура може бути використана для вирішення цієї проблеми, оскільки дозволяє розподілити завдання між невеликими, незалежними сервісами. Аналіз досліджень та публікацій показує, що методи сканування веб-сторінок, які зазвичай використовуються, можуть займати багато часу при скануванні великих обсягів даних. Для вирішення цієї проблеми використовуються різні підходи, такі як швидкий двигун XPath селектора. Метою статті є дослідження особливостей використання мікросервісного підходу в процесі веб-скрапінгу та розгляд основних переваг мікросервісної архітектури. У статті будуть досліджені особливості використання різних підходів у доступі до елементів веб-сайту, зокрема увага буде приділена методам CSS 
селектори, Regex та XPath. Дослідження показало, що мікросервісна архітектура може покращити продуктивність системи, але може призвести до збільшення часу виконання завдань. Вимірювання показників ефективності показали, 
що метод Regex має найменше використання CPU і пам'яті порівняно з іншими методами, а метод XPath забезпечує вищу надійність та стійкість.

Завантаження

Опубліковано

31.10.2023

Як цитувати

СУШИНСЬКИЙ, О. ., КОЦУН, В. ., СКЛЯРЕНКО, О. ., & ЛИТВИНЕНКО, Л. . (2023). ВИКОРИСТАННЯ МІКРОСЕРВІСНОГО ПІДХОДУ В ПРОЦЕСІ ВЕБ-СКРАПІНГУ ВЕЛИКИХ ОБСЯГІВ ДАНИХ ДЛЯ ВЕБ-САЙТІВ ІЗ ДИНАМІЧНИМ ВМІСТОМ. Herald of Khmelnytskyi National University. Technical Sciences, 327(5(2), 243-248. https://doi.org/10.31891/2307-5732-2023-327-5-243-248