МЕТОДОЛОГІЯ ПАРСИНГУ СТОРІНОК ВЕБ-САЙТІВ ДЛЯ АВТОМАТИЗАЦІЇ ЗБОРУ РІЗНОСТРУКТУРОВАНИХ ДАНИХ

ДЕНИС ІВАНОВ; ІГОР ГАРКУША

doi:10.31891/2307-5732-2025-359-128

Автор(и)

ДЕНИС ІВАНОВ Національний технічний університет «Дніпровська політехніка» Автор https://orcid.org/0000-0001-8660-0928
ІГОР ГАРКУША Національний технічний університет «Дніпровська політехніка» Автор https://orcid.org/0000-0003-1190-1501

DOI:

https://doi.org/10.31891/2307-5732-2025-359-128

Ключові слова:

парсинг, структуровані дані, неструктуровані дані, веб-скрейпінг, автоматизація збору інформації, веб-сайти, аналіз контенту, BeautifulSoup, Scrapy, семантичний аналіз, обробка тексту, інформаційні системи

Анотація

У статті розглянуто методологію парсингу як комплексну систему методів і засобів, що забезпечує ефективне вилучення як структурованих (таблиці, списки, JSON, XML), так і неструктурованих (текстові блоки, статті, новини) даних із веб-сайтів. Запропоновано узагальнену архітектуру процесу парсингу, яка охоплює етапи аналізу джерела даних, вибору інструментів (наприклад, BeautifulSoup, Scrapy, Selenium, Puppeteer), побудови правил парсингу, обробки виняткових ситуацій (капча, JavaScript-рендеринг, динамічне завантаження контенту), а також збереження результатів у форматах, придатних для подальшого аналізу. Основна увага зосереджена на порівняльному аналізі методів обробки структурованих та неструктурованих даних, включно з підходами до семантичного аналізу, регулярними виразами, застосуванням NLP-технологій та алгоритмів машинного навчання. Визначено основні проблеми, що виникають при автоматичному зборі інформації, зокрема обмеження політики доступу (robots.txt), правові аспекти, складність обробки мультимодального контенту та зміна структури веб-сторінок. Наведено практичні поради для підвищення стійкості парсерів до змін веб-ресурсів і дотримання етичних норм під час обробки відкритих даних. Ефективність описаної методології підтверджено на прикладі створення системи автоматичного моніторингу новинних сайтів, яка здійснює регулярне вилучення текстів публікацій, їх попередню обробку та збереження у базі даних для подальшої тематичної класифікації. Результати дослідження можуть бути застосовані в практичних інформаційних системах, що потребують регулярного збору даних, а також у наукових дослідженнях, де важливе значення має об’єктивне й масштабоване вилучення інформації з веб-середовища.

МЕТОДОЛОГІЯ ПАРСИНГУ СТОРІНОК ВЕБ-САЙТІВ ДЛЯ АВТОМАТИЗАЦІЇ ЗБОРУ РІЗНОСТРУКТУРОВАНИХ ДАНИХ

Автор(и)

DOI:

Ключові слова:

Анотація

Завантаження

Опубліковано

Номер

Розділ

Ліцензія

Як цитувати

Мова

Зробити подання

Індексування

Авторам

Прапор