Web Scraper для отслеживания добавления обновленных документов и их скачивания
Цель:
Создать сервис, который автоматически мониторит сайты и уведомляет о появлении новых документов.
Минимальная задача:
- Отслеживать изменения на заданных страницах.
- Если появился новый документ – отправлять уведомление (Telegram, email, веб-интерфейс).
Дополнительная задача (если несложно и недорого):
- Скачивать новый документ и загружать его в систему автоматически.
Технологии (возможно есть альтернатива):
- Парсинг сайтов: Scrapy / BeautifulSoup / Selenium (если сайт динамический)
- Запросы: requests / playwright (если API)
- База данных (если нужно хранить историю документов): PostgreSQL / SQLite
- Уведомления: Telegram API / Email / Webhook
- Фоновый мониторинг: Celery / APScheduler
- Развёртывание: Python + Docker
Что должен сделать программист:
1. Реализовать мониторинг заданных сайтов (список страниц предоставляется: пример на конкретный раздел сайта
https://minsport.gov.ru/activity/government-regulation/edinyj-kalendarnyj-plan/).
2. Отправлять уведомления при появлении новых документов.
3. Дополнительно (если несложно): скачивать найденные документы и передавать их в систему.
Важно:
- Главная цель – уведомления.
- Скачивание документов – только если это не сильно увеличивает стоимость и сроки.
- Использовать готовые библиотеки (не писать с нуля).
- Предложить решение для обхода ограничений (если сайты блокируют парсинг).