ВИКОРИСТАННЯ МІКРОСЕРВІСНОГО ПІДХОДУ В ПРОЦЕСІ ВЕБ-СКРАПІНГУ ВЕЛИКИХ ОБСЯГІВ ДАНИХ ДЛЯ ВЕБ-САЙТІВ ІЗ ДИНАМІЧНИМ ВМІСТОМ
DOI:
https://doi.org/10.31891/2307-5732-2023-327-5-243-248Ключові слова:
мікросервіс, веб-скрапінг, даніАнотація
Проблема веб-скрапінгу виникає у зв'язку зі зростанням складності веб-сторінок, які використовують
динамічний вміст, згенерований за допомогою JavaScript. Це ускладнює процес збору даних, оскільки стандартні методи HTTP-запитів не можуть отримати повний вміст сторінки. Мікросервісна архітектура може бути використана для вирішення цієї проблеми, оскільки дозволяє розподілити завдання між невеликими, незалежними сервісами. Аналіз досліджень та публікацій показує, що методи сканування веб-сторінок, які зазвичай використовуються, можуть займати багато часу при скануванні великих обсягів даних. Для вирішення цієї проблеми використовуються різні підходи, такі як швидкий двигун XPath селектора. Метою статті є дослідження особливостей використання мікросервісного підходу в процесі веб-скрапінгу та розгляд основних переваг мікросервісної архітектури. У статті будуть досліджені особливості використання різних підходів у доступі до елементів веб-сайту, зокрема увага буде приділена методам CSS
селектори, Regex та XPath. Дослідження показало, що мікросервісна архітектура може покращити продуктивність системи, але може призвести до збільшення часу виконання завдань. Вимірювання показників ефективності показали,
що метод Regex має найменше використання CPU і пам'яті порівняно з іншими методами, а метод XPath забезпечує вищу надійність та стійкість.