1. Собрать данные: Спарсить данные с трех сайтов, содержащих примерно по 3000 ссылок каждый список ссылок скину доноры не доступны в рф , зачиты
от парсинга нет или слабой .
2. Извлечь информацию: Из каждой ссылки извлечь:
Название контента (основное название).
Оригинальное название контента.
Год выхода
Ссылку, откуда были взяты данные.
Сравнить данные между сайтами:
3. Проверить совпадение между собранными данными:
Сначала сравнить основные названия.
Если основное название совпадает, сравнить год выпуска.
Если основное название не совпадает, использовать оригинальное название и повторить проверку на совпадение года.
При совпадении данных:
Записать идентификатор (ID) контента из URL ссылки.
Сохранить совпавшие данные: ID, ссылка источника данных, ссылки других источников с аналогичными данными.
4. не совпавших данных записать на отдельный файлы смотря по донорам
подробности в лс