Общее представление: Инструмент для поиска роликов, содержащих в себе рекламу артикула товара с wb. Артикул представляет собой последовательность 9 цифр, например «189458953» либо ссылка "https://www.wildberries.ru/catalog/189458953/detail.aspx". Как правило эти артикулы содержаться в описании к ролику или в комментарии автора ролика.
Метрики для сбора: Ссылка на ролик, ссылка на автора, имя автора, кол-во просмотров, дата выпуска ролика, кол-во лайков, кол-во комментариев, кол-во подписчиков блоггера.
Требования к реализации: Инструмент должен работать быстро, иметь устойчивость к ошибкам, то есть возможность автоматического перезапуска в случае непредвиденных ошибок. Код парсера должен быть читабельным и модульным, чтобы была возможность легко его редактировать в дальнейшем. Должен считывать артикулы и записывать данные о найденных роликах в базу данных. База данных не должна быть перегружена. Для работы с базой данных должна быть грамотно реализованая система crud (Create, Read, Update, Delete). Инструмент должен использовать мобильные прокси.
Инструменты реализации: Язык разработки: Python. Приоритетная библиотека для работы с базой данных: SQLAlchemy.