Необходимо собрать в БД всю публичную информацию по системе управления котельной. Информация может включать в себя инструкции по настройке, документацию и спецификации, карточки товаров, инструкции по устранению ошибок, кейсы использования и другие маркетинговые материалы, отзывы клиентов и т.д.
Задача кажется довольно объемной, поэтому хотел бы решать ее по этапам с оплатой по этапам, но если сработаемся хотел бы это делать с одним человеком весь проект. В рамках данного заказа предполагается выполнение только первого этапа.
Этап 1. Парсинг официального сайта, включая библиотеку документации (она на отдельном домене).
Необходимо распарсить всю текстовую информацию содержащуюся на страницах и записать ее в БД в структурированном виде. Причем действовать нужно рекурсивно, т.е. переходить по вложенным ссылкам, если они ссылаются на официальный домен. Парсить нужно только информацию находящуюся на страницах, на этом этапе парсить видео или PDF документы не требуется.
БД должна содержать следующую информацию:
- URL-ссылка на исходник страницы
- Спаршеный текст (собственно данные). Описание ниже.
- тип (страница, PDF, видео и т.д.)
- заголовок страницы
Что нужно от самих данных/статей/документов, которые мы парсим и сохраняем как информацию. Требуется сохранить разметку:
- заголовки с сохранением уровнем заголовка
- списки
- таблицы
- ссылки
- разделение параграфов
- картинки или другой медиа-контент (ссылками на исходник)
Для выполнения задачи могут быть предложены уже готовые проекты crawler в том числе с оплатой за $, если это может упростить задачу.
Следующим этапом будет являться чанкинг и программирование RAG системы, но это в рамках следующих заказов.
Языки программирования: Phyton или PHP. Для парсинга может быть подобран готовый инструмент по согласованию. Также может быть использован по согласованию фреймворк вроде LangChain.