Причины:
- Требуется низкоуровневый контроль над моделью (безопасность данных, кастомные дообучения).
- Критична скорость инференса (GPU) или работа без GPU (CPU) для тестов/эмуляции.
- Совместимость с хардом (NVIDIA CUDA, AMD ROCm, Intel ARC) и ОС (Ubuntu/Debian/RHEL).
- Юридические ограничения РФ — использование открытых (open-source) моделей без API-зависимостей.
Решение (по убыванию приоритета для ваших задач):
1. Ollama — простой, быстрый запуск LLM (Llama, Mistral, Qwen, Phi). Работает на CPU/GPU, минимальная настройка.
bash
curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3.22. vLLM — максимальная производительность инференса на GPU (batch inference, PagedAttention). Подходит для больших моделей (70B+).
bash
pip install vllm
vllm serve meta-llama/Llama-2-7b-chat-hf3. LocalAI — аналог OpenAI API, поддерживает whisper, stable diffusion, gguf. Докер или бинарник.
bash
docker run -p 8080:8080 quay.io/go-skynet/local-ai:latest4. llama.cpp — для CPU/GPU с малой памятью (quantized GGUF). Квинтэссенция форензики — оффлайн, детерминировано.
bash
git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make
./main -m path/to/model.gguf -p "Проведи анализ..."Дополнительно (OSINT/форензика):
- Stable Diffusion WebUI (AUTOMATIC1111) — локальный генератор изображений для артефакт-анализа.
- Whisper (OpenAI) + faster-whisper — транскрипция аудио для OSINT.
- TensorFlow/PyTorch — для кастомных моделей (CVE-анализ, детекция аномалий).
Инфраструктура:
- Docker / Podman для изоляции (безопаснее).
- Минимум RAM — 8 ГБ (для 7B моделей через quantization), 32+ ГБ для 70B на CPU.
- GPU — NVIDIA (CUDA 12.x) или AMD (ROCm 5.x).