Арсер календаре, тренингов и профессиональных курсов с нескольких сайтов-провайдеров

Замовник: AI | Опубліковано: 28.01.2026
Бюджет: 80 $

Цель проекта Создать скрипты на Python, который автоматически собирает актуальную информацию о тренингах / курсах с сайтов ведущих провайдеров профессионального обучения и сохраняет данные в структурированную таблицу (Excel / Google Sheets / CSV) для последующего анализа, сравнения и обновления.Список сайтов для парсинга (обязательно все): Oxford Management Centre — https://oxford-management.com/training-course-calendar GLOMACS — https://glomacs.com/training-course-calendar LEORON Professional Development Institute — https://leoron.com (календарь часто в PDF, например https://www.leoron.com/download-document/leoron-training-calendar-2026.pdf и аналогичные) Boost Organization — https://boostorg.com/training-courses Informa Connect Academy — https://informaconnect.com/academy/courses + региональные календари (MEA, London, APAC и т.д.) И еще несколько сайтов, который будут направлены выбранному исполнителю в ЛСОбъём и частота Ориентировочно 800–3000 записей (каждый запуск курса в определённой локации/датах — отдельная строка). Скрипт должен поддерживать регулярный запуск (еженедельно / ежемесячно) для обновления данных без дублирования старых записей. Структура выходной таблицы (обязательные столбцы, английские названия в файле):№Column name (EN)Описание / откуда братьПримечание / пример1ProviderНазвание провайдераGLOMACS / Oxford Management Centre2Course CodeКод курса (если есть)PMCMAR-2074 или —3Course TitleПолное название курсаLeading and Managing Yourself Training Course4Start DateДата начала02 Feb 20265End DateДата окончания06 Feb 20266Duration DaysКол-во дней57Location / VenueГород, страна, формат (Classroom / Online / Virtual / Hybrid)Dubai, UAE / Online8Fee USDСтоимость (в долларах, без символа $ и запятых)59509Course OverviewКраткое описание (200–600 символов)This course helps leaders...10ObjectivesОсновные цели (текст или список через точку с запятой)Learn to...; Develop...11Target AudienceЦелевая аудиторияManagers, HR professionals12Agenda Day 1Программа Дня 1 (полный текст)Introduction to Self-Leadership...13Agenda Day 2День 2...…Agenda Day NДо 10 дней (если курс длиннее — объединить в один столбец Full Agenda или добавить столбцы)…14Detail URLПрямая ссылка на страницу курсаhttps://glomacs.com/...15CertificateВыдаваемый сертификатGLOMACS Certificate16LanguageЯзык проведенияEnglish17Last ParsedДата парсинга этой записи2026-01-28 Требования к реализации Язык: Python 3.10+ Основные библиотеки: requests / httpx, BeautifulSoup4, Selenium (если нужна динамика / JS), pdfplumber / PyMuPDF (для PDF LEORON), pandas (для обработки и сохранения) Обработка ошибок: пропускать битые страницы, логировать ошибки (в файл log.txt или консоль) Анти-блокировка: User-Agent ротация, случайные задержки 3–12 сек, прокси ( обсуждается отдельно) Уникальность: при обновлении не дублировать записи (по ключу Provider + Course Title + Start Date + End Date + Location) Не дублировать одинаковые тренинги у разных провайдеров Выходные файлы: courses_full.xlsx (полная таблица) courses_new.xlsx (только новые/обновлённые за последний запуск) log.txt Опционально (доп. оплата): Автоматическая загрузка в Google Sheets (gspread) Еженедельный запуск по cron / GitHub Actions Экспорт в PDF-отчёт (WeasyPrint или аналог) с красивой таблицейЭтапы работы и приёмка Прототип: парсинг 1 сайта (например GLOMACS) + 10–20 строк в таблицу — демонстрация результата Полный парсер всех 7 сайтов + обработка agenda по дням Тестирование на актуальных данных + очистка дубликатов Финальная сдача: исходный код (GitHub приватный репозиторий или архив), инструкция по запуску, примеры файловСроки Ориентировочно 7–18 календарных дней (зависит от опыта исполнителя и сложности анти-бот защиты на сайтах). Фиксированная оплата после демонстрации работающего прототипа + финальный расчёт после полной сдачи.Дополнительные пожелания Код должен быть читаемым, с комментариями Не использовать платные API / сервисы без согласования Соблюдать robots.txt и не перегружать сайты (rate limiting) Если сайт требует регистрации предупредить заранееЕсли у исполнителя есть вопросы или предложения по улучшению структуры таблицы / автоматизации — готов обсудить.Жду ваши предложения с портфолио по парсингу (желательно примеры похожих задач — сбор календарей, курсов, событий, тренингов).