<p>Мы запускаем крупный проект по созданию облачной платформы для AI/ML вычислений и 3D-рендеринга (GPU-as-a-Service). В нашем распоряжении находится большой парк GPU-оборудования (тысячи единиц), который мы будем поэтапно вводить в эксплуатацию.</p><p>Ищем опытного DevOps-инженера или системного администратора Linux для настройки первой партии из 10 GPU-ферм (ригов), каждая из которых содержит 8-10 видеокарт.</p><p><b>Цель этого этапа:</b><br />Создать надежную, масштабируемую и безопасную конфигурацию для 10 пилотных серверов, подготовить их для сдачи в аренду на публичных площадках (<a href="http://Vast.ai">Vast.ai</a>, Runpod) и заложить фундамент для дальнейшего развертывания сотен таких же серверов.</p><p>Это не разовый проект. Мы ищем специалиста для долгосрочного сотрудничества и готовы хорошо оплачивать высокий уровень экспертизы.</p><p><b>Ключевые задачи и обязанности:</b></p><ol><li><p><b>Консультация и выбор стека:</b> Обсудить и утвердить оптимальный технологический стек (ОС, система виртуализации, сетевая архитектура).</p></li><li><p><b>Настройка "эталонного" хоста:</b></p><ul><li><p>Установка и настройка ОС Linux (предпочтительно Ubuntu Server 22.04 LTS).</p></li><li><p>Установка и настройка гипервизора <b>Proxmox VE</b>.</p></li><li><p><b>Ключевая задача:</b> Настройка корректного <b>проброса GPU (PCIe Passthrough / VFIO)</b> в гостевые виртуальные машины (ВМ).</p></li><li><p>Настройка сетевых мостов (bridges) и, возможно, VLAN для изоляции.</p></li></ul></li><li><p><b>Создание и настройка гостевых ВМ:</b></p><ul><li><p>Создание шаблонов ВМ с Linux.</p></li><li><p>Установка в ВМ драйверов NVIDIA, CUDA Toolkit, Docker.</p></li></ul></li><li><p><b>Автоматизация развертывания:</b></p><ul><li><p>Создание скриптов (предпочтительно Ansible, но можно и Bash) для автоматизации настройки новых хостов и ВМ по образу "эталонного". Цель — минимизировать ручную работу при масштабировании.</p></li></ul></li><li><p><b>Обеспечение безопасности:</b> Проведение базовой "закалки" (hardening) хостовой и гостевой ОС (настройка фаервола ufw, отключение парольного доступа по SSH и т.д.).</p></li><li><p><b>Интеграция с платформами:</b> Установка и настройка ПО от <a href="http://Vast.ai">Vast.ai</a> / Runpod на гостевых ВМ для их подключения к маркетплейсу.</p></li><li><p><b>Документация:</b> Создание подробной и понятной документации по всей проделанной работе, включая шаги по развертыванию нового сервера с помощью созданных скриптов.</p></li></ol><p><b>Требуемые навыки и опыт (обязательно):</b></p><ul><li><p>Глубокие знания в администрировании Linux (Ubuntu/Debian).</p></li><li><p><b>Подтвержденный практический опыт</b> работы с системой виртуализации <b>Proxmox VE</b>.</p></li><li><p><b>Успешный опыт настройки проброса нескольких GPU (GPU Passthrough) в виртуальные машины.</b> Это самый критичный навык для проекта.</p></li><li><p>Опыт работы с экосистемой NVIDIA: установка драйверов, CUDA, работа с nvidia-smi.</p></li><li><p>Понимание принципов работы сетей: мосты, VLAN, маршрутизация.</p></li><li><p>Опыт работы с Docker.</p></li><li><p>Навыки написания скриптов для автоматизации (Bash/Python/Ansible).</p></li></ul><p><b>Будет большим плюсом (желательно):</b></p><ul><li><p>Опыт работы с ZFS.</p></li><li><p>Опыт развертывания и управления хостами на платформах <a href="http://Vast.ai">Vast.ai</a>, Runpod или аналогичных.</p></li><li><p>Опыт работы с высоконагруженными системами и оборудованием для майнинга/рендеринга.</p></li></ul><p><b>Что мы ожидаем в результате:</b></p><ol><li><p>10 физических серверов (ферм), полностью настроенных и работающих под управлением Proxmox.</p></li><li><p>Настроенные и готовые к работе виртуальные машины, подключенные к Vast.ai/Runpod.</p></li><li><p>Набор скриптов для автоматизации развертывания 11-го и последующих серверов.</p></li><li><p>Техническая документация, достаточная для того, чтобы ваш коллега мог понять архитектуру и продолжить работу.</p></li></ol><p><b>При отклике на этот проект, пожалуйста, ответьте на несколько вопросов:</b></p><ol><li><p>Опишите ваш самый релевантный опыт, связанный с настройкой GPU-серверов и виртуализацией. С какими сложностями при пробросе GPU вы сталкивались и как их решали?</p></li><li><p>Какой стек технологий (ОС, файловая система, инструменты автоматизации) вы бы предложили для решения этой задачи и почему?</p></li><li><p>Укажите вашу почасовую ставку и примерную оценку времени, которое потребуется на выполнение этого пилотного проекта (настройка 10 серверов + автоматизация).</p></li></ol>