Есть рабочий пайплайн перевода видео (ASR → перевод → TTS). Нужно: - Настроить структурированное логирование и мониторинг. - В процессе логирования перепроверить стабильность и подправить отдельные моменты, чтобы пайплайн вёл себя предсказуемо. - Упаковать пайплайн в контейнер. - Реализовать лёгкую систему оркестрации без Kubernetes — запуск/остановка GPU-инстансов (3090 или аналоги) через API.
Что предстоит сделать - Встроить удобное логирование: уровни, формат, понятные сообщения, отслеживание ошибок. - Одновременно отладить текущую логику: исправить мелкие баги, убедиться, что пайплайн стабилен. - Добавить метрики и наблюдаемость: время обработки, загрузка GPU, количество ошибок. - Собрать Docker-образ с CUDA, продумать health-checks. - Сделать сервис/API для управления контейнерами на GPU-машинах.
Что нужно от вас - Опыт в Python (FastAPI/asyncio или похожий стек). - Умение работать с логированием и метриками. - Опыт в Docker, особенно с CUDA-образами. - Понимание PyTorch и в целом, как устроен компьютер (железо/ресурсы/узкие места). - Опыт запуска и управления задачами на GPU.
Формат работы - Этапы: (1) логирование + дебаг, (2) контейнеризация, (3) оркестрация. - Оплата по результату каждого этапа.
Важно Это не разовый фикс: у нас интересные проекты — от перевода видео до разработки физических роботов и обучения VLA-политик. Ищем человека, которому действительно интересно разбираться в технологиях и с кем комфортно работать.п