Изображение


📋 Оглавление 📋


1. Введение: зачем запускать ИИ локально в 2026 году

2. Как работает локальный ИИ: LLM, квантизация, VRAM и токены/сек

3. Уровни входа: что нужно для разных сценариев

4. Устройство №1 — Mac Mini M4 / M4 Pro: лучший баланс цены, тишины и мощности

5. Устройство №2 — ПК с NVIDIA RTX: максимальная производительность для серьёзных задач

6. Устройство №3 — Обычный ноутбук или ПК без GPU: CPU-режим для старта

7. Устройство №4 — Raspberry Pi 5: карманный оффлайн-ассистент на подоконнике

8. Инструмент №1 — Ollama: самый простой способ запустить LLM локально

9. Инструмент №2 — LM Studio: графический интерфейс без командной строки

10. Инструмент №3 — Open WebUI: ChatGPT-интерфейс для локального сервера

11. Топ локальных моделей 2026: DeepSeek R1, Qwen2.5, Llama 3.3, Phi-4, Gemma 3

12. Подбор модели под железо: таблица совместимости RAM/VRAM

13. Практические сценарии: что реально можно делать оффлайн

14. FAQ: 12 горячих вопросов о локальном ИИ

15. Чек-лист: запустить первую локальную нейросеть за один вечер

16. Заключение и теги




1. Введение: зачем запускать ИИ локально в 2026 году


Ещё два года назад запустить нейросеть дома означало иметь игровой ПК за 200 000 рублей и знать, что такое CUDA. В 2026 году это изменилось принципиально: DeepSeek R1 запускается на ноутбуке с 16 ГБ RAM, Mac Mini за 60 000 рублей тихо тянет модели уровня GPT-3.5, а Ollama устанавливается одной командой за минуту.

Три причины, по которым россияне запускают ИИ локально в 2026 году, — и все три только усилились.

Конфиденциальность. Данные хранятся и обрабатываются локально. Разработчик, который работает над конфиденциальным кодом в компании, или учёный, анализирующий чувствительные результаты исследования, могут не беспокоиться, что информация попадёт к третьим лицам или будет использована для обучения коммерческих моделей.

Независимость от облака и VPN. Ни ChatGPT, ни Claude, ни Gemini не работают из России напрямую. Локальная модель работает в любой момент: без интернета, без VPN, без перебоев по геополитическим причинам. Это особенно важно для корпоративных задач с NDA.

Стоимость. API-запросы к GPT-4 или Claude при интенсивной работе обходятся в тысячи рублей в месяц. Запуская локальный ИИ, вы получаете предсказуемую стоимость без поштучной тарификации за токены и можете делать неограниченное количество запросов 24/7.

КритерийОблачный ИИЛокальный ИИ
Доступность из РоссииVPN или агрегаторВсегда, офлайн
Конфиденциальность данныхДанные уходятДанные на устройстве
Стоимость при интенсивной работеТысячи ₽/месРазовая покупка железа
Качество топовых моделейВышеДогоняет
Скорость ответаЗависит от сетиЗависит от железа
МультимодальностьШирокаяРастёт
Порог входаМинимальныйСредний

> 💡 Статья рассчитана на широкую аудиторию: разработчиков, фрилансеров, малый бизнес и энтузиастов. Все рекомендации по железу указаны в рублях по ценам марта 2026 года (ориентировочно).




2. Как работает локальный ИИ: LLM, квантизация, VRAM и токены/сек


Прежде чем выбирать железо, важно понять несколько базовых понятий — без них таблицы совместимости выглядят как магия.

2.1 Параметры модели и размер файла


Языковая модель — это огромный математический объект. Её «размер» измеряется в миллиардах параметров (7B, 14B, 32B, 70B). Больше параметров = умнее модель = больше нужно памяти.

В полном (FP16) формате каждый параметр занимает 2 байта. Модель 7B в FP16 — это ~14 ГБ. Модель 70B — ~140 ГБ. На обычном железе такое не запустить.

2.2 Квантизация: уменьшить без потери смысла


Квантизация — сжатие весов модели с минимальной потерей качества. Квантизация (например, 4-bit) позволяет значительно уменьшить размер модели, зачастую с минимальной потерей качества. Сжатая 13B-модель в 4-bit может занимать всего 7 ГБ.

Основные форматы квантизации в Ollama и LM Studio:

q4_k_m
— 4-битная, оптимальный баланс размера и качества (рекомендуется)
Q5_K_M — 5-битная, чуть качественнее, чуть крупнее
Q8_0 — 8-битная, близко к полному качеству, нужно больше VRAM
Q2_K — 2-битная, маленькая, но заметно слабее


Ollama по умолчанию использует 4-битную квантизацию (Q4_K_M) для большинства моделей, чтобы они запускались на потребительском железе.

2.3 Где хранятся веса: VRAM vs RAM vs диск


Идеальный случай: вся модель помещается в VRAM видеокарты (или Unified Memory у Apple Silicon). Тогда скорость максимальная.

Если модель не влезает в VRAM — она частично уходит в оперативную память (RAM). Скорость падает в 3–10 раз. Если не влезает и в RAM — уходит на диск. Это работает, но очень медленно.

2.4 Токены в секунду: что считается приемлемым


Токен — примерно 0.7 слова. Скорость генерации измеряется в токенах в секунду (t/s).

text
< 3 t/s   — слишком медленно, трудно работать
3–10 t/s — терпимо для несрочных задач
10–30 t/s — комфортно, близко к скорости чтения
30+ t/s — быстро, не отличить от облачного ИИ


2.5 Ключевое понятие: пропускная способность памяти


Для локальных LLM пропускная способность памяти (Memory Bandwidth, GB/s) важнее, чем количество FLOPS. Именно поэтому Apple Silicon с медленными, но единым пулом памяти часто обгоняет дискретные GPU в задачах инференса при сравнимом объёме VRAM.




3. Уровни входа: что нужно для разных сценариев


Прежде чем смотреть на конкретные устройства, определите свой уровень.

УровеньЖелезоМоделиСкоростьБюджетДля кого
НачальныйCPU, 16 ГБ RAM1–7B2–5 t/sЛюбой ПКПопробовать, задачи без спешки
СреднийRTX 3060 12 ГБ / M4 16 ГБ7–14B15–30 t/s50–80 тыс. ₽Регулярная работа
ПродвинутыйRTX 4090 24 ГБ / M4 Pro 64 ГБДо 70B30–60 t/s150–250 тыс. ₽Профессионалы, разработка
СерьёзныйDual GPU / Mac Studio M4 Max70B+50–100 t/s400 тыс. ₽+Команды, продакшн

> 🔴 Главная ошибка новичков: купить мощный GPU с маленьким VRAM. RTX 3070 (8 ГБ) для локального ИИ хуже, чем RTX 3060 (12 ГБ). Объём памяти важнее производительности.




4. Устройство №1 — Mac Mini M4 / M4 Pro: лучший баланс цены, тишины и мощности


Почему Apple Silicon особенная для локального ИИ. Главное преимущество Mac — архитектура Unified Memory: CPU, GPU и Neural Engine делят один пул памяти. Это означает, что 16 ГБ в Mac Mini доступны и для системы, и для нейросети целиком — без разделения на «системная RAM» и «VRAM».

Для сравнения: на Windows-ПК с RTX 3060 (12 ГБ VRAM) и 16 ГБ системной RAM видеокарта видит только свои 12 ГБ, и большую модель в них не поместить.

Mac Mini M4 (16 ГБ, ~59 000 ₽).

Базовая конфигурация — стартовая точка для серьёзного локального ИИ. Mac Mini M4 потребляет всего 5–15 Вт под типичной нагрузкой инференса — против 300–450 Вт у NVIDIA A100. Это делает его экономичным для постоянно включённого персонального ИИ-сервера.

Что запускается: модели до 8B параметров в Q4_K_M — комфортно, до 14B — медленнее, но работает. DeepSeek R1 8B — хорошо. Llama 3.2 3B — очень быстро.

Mac Mini M4 Pro (24 ГБ, ~110 000 ₽).

Конфигурация с M4 Pro, 24 ГБ RAM и 16-ядерным GPU — оптимальный вариант для работы с локальными моделями до 30B параметров. Это уже серьёзный рабочий инструмент: DeepSeek R1 14B летит, 32B работает комфортно.

Mac Mini M4 Pro (64 ГБ, ~175 000 ₽).

Флагман линейки Mac Mini для ИИ-задач. Mac Studio M4 Max с 64 ГБ обеспечивает производительность в 2–10 раз выше, чем Mac Mini M4, в зависимости от конфигурации и размера модели. Модели 70B в Q4_K_M работают на скоростях 20–35 t/s — комфортная рабочая скорость.

Пропускная способность памяти. M4 Pro имеет 273 ГБ/с пропускной способности памяти, M4 Max — 410–546 ГБ/с. Это напрямую переводится в скорость генерации токенов.

Инструменты для Mac. Помимо Ollama, для Apple Silicon есть специализированный фреймворк MLX от самой Apple — обеспечивает более высокую производительность, чем llama.cpp, на тех же моделях.

bash
<h2 id="ustanovka-mlx-cherez-pip">Установка MLX через pip</h2>
pip install mlx mlx-lm

<h2 id="zapusk-llama-3-8b-cherez-mlx-bystree-ollama-na-apple-silicon">Запуск Llama 3 8B через MLX (быстрее Ollama на Apple Silicon)</h2>
mlx_lm.generate \
--model mlx-community/Meta-Llama-3-8B-Instruct-4bit \
--prompt "Объясни квантизацию простыми словами"


Минусы Mac для локального ИИ. Нельзя поставить больше RAM после покупки — выбирайте объём сразу. При длительных сессиях устройство заметно греется. Официальная покупка Mac в России требует обходных путей — серые поставки дороже.




5. Устройство №2 — ПК с NVIDIA RTX: максимальная производительность для серьёзных задач


Когда NVIDIA выигрывает у Apple. Хотя Apple Silicon обеспечивает впечатляющую производительность для интегрированных систем, RTX 4090 всё равно значительно превосходит эти конфигурации в сырой скорости инференса — часто в 3–5 раз быстрее Mac Studio для аналогичных размеров моделей.

Разница особенно заметна при prompt processing (обработка длинного входного текста) и batching (несколько запросов одновременно). Для разработчиков, строящих сервисы с локальным ИИ, NVIDIA на сервере — правильный выбор.

RTX 4060 Ti 16 ГБ (~55 000 ₽) — оптимальная покупка 2026 года.

16 ГБ VRAM по цене среднего смартфона — главная рекомендация для тех, кто хочет максимум за разумные деньги. Запускает DeepSeek R1 14B в Q4_K_M с комфортной скоростью, Llama 3.3 32B — с небольшим оффлоадом в RAM.

RTX 4090 24 ГБ (~200 000 ₽) — для энтузиастов и профи.

На RTX 4090 модели DeepSeek-R1-Distill-Llama-70B показывают среднюю скорость генерации около 23 токенов/сек — это полноценная рабочая скорость для большой модели. Карта закрывает 95% реальных задач с локальным ИИ. Недостаток: энергопотребление до 450 Вт, шум, тепло.

Два GPU: RTX 4090 × 2 (~400 000 ₽).

Дуальная конфигурация RTX 4090, обеспечивающая 48 ГБ общей VRAM, позволяет запускать 70B-модели с разумной скоростью и стоит около $4 000 для полного сетапа — значительно дешевле профессиональных GPU.

Важно: RTX 5000-серия. RTX 5070 Ti 16 ГБ показывает особо привлекательное соотношение цены и производительности. При покупке нового железа в 2026 году стоит рассмотреть карты серии 50xx — они предлагают заметно лучший performance-per-dollar по сравнению с 40xx.

Системные требования для ПК с RTX:
text
Минимум для комфортной работы с 14B моделями:
GPU: RTX 4060 Ti 16 ГБ (или аналог с 12+ ГБ VRAM)
RAM: 32 ГБ DDR5 (для оффлоада больших моделей)
CPU: Ryzen 7 7700X или Intel Core i7-13700K
SSD: NVMe, 1+ ТБ (модели занимают 4–40 ГБ каждая)
БП: 750 Вт+ (с запасом на GPU)





6. Устройство №3 — Обычный ноутбук или ПК без GPU: CPU-режим для старта


Не нужно покупать новое железо, чтобы попробовать локальный ИИ. CPU-режим работает на любом компьютере с достаточным количеством RAM.

Системные требования для CPU-режима:

Для CPU-версий рекомендуется минимум 8 ГБ RAM для моделей 3B, 16 ГБ для моделей 7B и 32 ГБ для моделей 13B.

text
Сценарий A — 8 ГБ RAM (старый ноутбук):
Модель: Phi-4 mini (3.8B) или DeepSeek R1 1.5B
Скорость: 1–3 t/s
Годится для: несрочных вопросов, экспериментов

Сценарий B — 16 ГБ RAM (средний ноутбук 2022+ года):
Модель: Llama 3.2 7B или DeepSeek R1 8B
Скорость: 3–6 t/s
Годится для: регулярного использования, если не торопитесь

Сценарий C — 32 ГБ RAM (рабочая станция):
Модель: DeepSeek R1 14B, Qwen2.5 14B
Скорость: 5–10 t/s
Годится для: полноценной работы


Интегрированная графика. Ноутбуки с AMD Ryzen 7940HS / Intel Core Ultra (Meteor Lake и новее) имеют встроенный GPU с доступом к системной RAM. LM Studio особенно хорошо оптимизирован под интегрированные GPU, что даёт заметный прирост скорости по сравнению с чистым CPU-режимом.

Реалистичные ожидания. CPU-режим — это старт, не продакшн. Скорость в 3–5 t/s означает, что ответ на средний вопрос придёт через 20–60 секунд. Для длинных задач (перевод, рерайтинг) — минуты. Это терпимо для экспериментов и некритичных задач, но утомительно при интенсивном использовании.




7. Устройство №4 — Raspberry Pi 5: карманный оффлайн-ассистент на подоконнике


Raspberry Pi 5 — крошечный компьютер размером с ладонь за 6 000–8 000 рублей. Запустить на нём GPT-4 не получится, но для специализированного оффлайн-ассистента он вполне подходит.

Что реально работает на Pi 5. На Raspberry Pi 5 с помощью Ollama можно запустить компактные варианты моделей на 2–4B параметров — gemma2:2b или phi-4:mini. Это компактные, актуальные на 2025 год варианты, они легче и быстрее старых версий вроде tinyllama или phi-3, но всё равно подходят для старта на Raspberry Pi 5.

С помощью Ollama — open source решения — LLM можно запускать прямо на Raspberry Pi, без интернета и сторонних API. Raspberry Pi превращается в локальный AI-движок для простых задач.

Практические сценарии для Pi 5:
- Голосовой оффлайн-ассистент в умном доме (Whisper.cpp для распознавания + LLM)
- Локальный чат-бот для корпоративной документации без интернета
- ИИ-модератор для небольшого форума на изолированном сервере
- Образовательный проект — запустить свой ИИ за минимальный бюджет

Честные ожидания. Скорость на Pi 5 — 1–3 t/s. Для небольших вопросов это терпимо, для длинных задач — нет. Pi 5 — это «достаточно», а не «хорошо».

Установка Ollama на Raspberry Pi:
bash
<h2 id="odna-komanda-i-ollama-ustanovlena">Одна команда — и Ollama установлена</h2>
curl -fsSL https://ollama.com/install.sh | sh

<h2 id="zapusk-kompaktnoy-modeli">Запуск компактной модели</h2>
ollama run phi4-mini

<h2 id="dobavlenie-veb-interfeysa-cherez-docker">Добавление веб-интерфейса через Docker</h2>
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:main





8. Инструмент №1 — Ollama: самый простой способ запустить LLM локально


Ollama — самый популярный инструмент для локального запуска LLM на пользовательских устройствах. Главное преимущество Ollama — его простота: он превращает сложный процесс инференса LLM, требующий глубоких знаний в DevOps и машинном обучении, в операцию за пару кликов. Работает на Windows, Mac и Linux.

Установка — одна команда:
bash
<h2 id="linux-i-macos">Linux и macOS</h2>
curl -fsSL https://ollama.com/install.sh | sh

<h2 id="windows-skachat-ustanovschik-s-ollama-com">Windows — скачать установщик с ollama.com</h2>
<h2 id="posle-ustanovki-zapusk-modeli-odnoy-komandoy">После установки — запуск модели одной командой:</h2>
ollama run llama3.2

<h2 id="ili-deepseek-r1-7b">Или DeepSeek R1 7B</h2>
ollama run deepseek-r1:7b

<h2 id="spisok-dostupnyh-modeley">Список доступных моделей</h2>
ollama list

<h2 id="udalit-model">Удалить модель</h2>
ollama rm llama3.2


Ключевые возможности Ollama в 2026 году. Ollama построен поверх llama.cpp и обеспечивает отличную скорость с поддержкой GPU для NVIDIA (CUDA), Apple Silicon (Metal) и AMD (ROCm). Поддерживает OpenAI-совместимый API для подключения существующих приложений, обширную библиотеку моделей — Llama, Mistral, Gemma, Phi, Qwen и другие, структурированные ответы и создание кастомных моделей через Modelfile.

В 2025–2026 году Ollama значительно расширила список поддерживаемых моделей — в него вошли Llama 3.3, DeepSeek-R1 и Gemma 3. Платформа получила новый движок для нативной поддержки мультимодальных моделей: теперь можно обрабатывать текст и изображения в одном запросе. Кроме того, Ollama обзавелась полноценным графическим интерфейсом для чата, выбора моделей и работы без командной строки.

API для разработчиков. Ollama поднимает локальный HTTP-сервер на порту 11434, совместимый с форматом OpenAI API. Это означает, что любое приложение, работающее с ChatGPT, можно переключить на локальную модель без изменения кода:

bash
<h2 id="zapros-k-lokalnoy-modeli-cherez-openai-sovmestimyy-api">Запрос к локальной модели через OpenAI-совместимый API</h2>
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-r1:8b",
"messages": [{"role": "user", "content": "Привет! Как дела?"}]
}'


Кастомные модели через Modelfile:
text
<h2 id="sozdat-personalnogo-assistenta-s-sistemnym-promptom">Создать персонального ассистента с системным промптом</h2>
FROM llama3.2
SYSTEM "Ты — полезный помощник. Отвечай на русском языке, кратко и по делу."
PARAMETER temperature 0.7
PARAMETER num_ctx 4096





9. Инструмент №2 — LM Studio: графический интерфейс без командной строки


LM Studio предлагает дружелюбный интерфейс нейросети для ПК и большой каталог моделей. Для работы с языковыми нейросетями на локальном компьютере LM Studio оптимален для тех, кто хочет удобный графический интерфейс.

Для кого LM Studio лучше Ollama. Если вы не хотите видеть командную строку — LM Studio ваш выбор. Весь процесс происходит через GUI: поиск модели → скачивание → загрузка → чат. Разница с ChatGPT для конечного пользователя — только скорость.

Ключевые возможности LM Studio:
- Встроенный поиск и скачивание моделей с Hugging Face прямо из интерфейса
- Локальный сервер с OpenAI-совместимым API (аналог Ollama)
- Сравнение моделей: несколько моделей в одном интерфейсе
- Настройка параметров генерации: temperature, top_p, context length — через ползунки
- Поддержка GGUF-формата, автоматический подбор квантизации под доступную VRAM

LM Studio особенно хорошо оптимизирован под интегрированные GPU — это важно для ноутбуков без дискретной видеокарты.

Ограничение LM Studio. Нет Docker-образа и командной строки — это инструмент с графическим интерфейсом, не серверное решение. Для встраивания в пайплайны и автоматизацию лучше подходит Ollama.

Скачать: `lmstudio.ai` — Windows, macOS, Linux, бесплатно.




10. Инструмент №3 — Open WebUI: ChatGPT-интерфейс для локального сервера


Продвинутые решения, например, Ollama, могут запускать локальный сервер. К нему можно подключить веб-интерфейсы вроде Open WebUI, превращая командную строку в полноценный аналог ChatGPT.

Open WebUI — веб-интерфейс, который разворачивается локально в браузере и подключается к работающему Ollama-серверу. Выглядит и работает как ChatGPT, но данные не покидают компьютер.

Установка через Docker — три команды:
bash
<h2 id="zapusk-ollama-v-fone-esli-ne-zapuschen">Запуск Ollama в фоне (если не запущен)</h2>
ollama serve

<h2 id="zapusk-open-webui-s-podklyucheniem-k-ollama">Запуск Open WebUI с подключением к Ollama</h2>
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main

<h2 id="otkryt-v-brauzere">Открыть в браузере</h2>
open http://localhost:3000


Что даёт Open WebUI:
- Чат-интерфейс с историей диалогов
- Переключение между несколькими локальными моделями
- Загрузка документов (PDF, DOCX) для работы с ними в чате — RAG из коробки
- Несколько пользователей на одном сервере (для семьи или небольшой команды)
- Голосовой ввод через Whisper
- Генерация изображений через локальный Stable Diffusion

Мобильный доступ. Приложение LMSA для Android подключается к локально запущенному LM Studio или Ollama по Wi-Fi и обеспечивает чат с вашими локальными моделями со смартфона. Это превращает домашний компьютер в персональный ИИ-сервер, доступный с телефона внутри домашней сети.




11. Топ локальных моделей 2026: DeepSeek R1, Qwen2.5, Llama 3.3, Phi-4, Gemma 3


DeepSeek R1 (дистилляты)


DeepSeek взяли оригинальные модели Qwen2.5 и Llama3 и дообучили их «думать» как большая DeepSeek R1, используя её в качестве учителя. Так qwen2.5:7b, llama3.1:8b, qwen2.5:14b, qwen2.5:32b и llama3.3:70b стали значительно умнее, чем как были обучены их создателями.

Дистиллят — это не упрощённая версия, это маленькая модель, обученная мыслить по принципам большой. DeepSeek R1 8B в Q4_K_M занимает ~5 ГБ и запускается на GPU с 6+ ГБ VRAM — отличное соотношение размера и качества.

bash
<h2 id="varianty-deepseek-r1-pod-raznoe-zhelezo">Варианты DeepSeek R1 под разное железо</h2>
ollama run deepseek-r1:1.5b # 1.1 ГБ, для старого железа
ollama run deepseek-r1:7b # 4.7 ГБ, для 8+ ГБ VRAM
ollama run deepseek-r1:8b # 5.2 ГБ, оптимальный старт
ollama run deepseek-r1:14b # 9.0 ГБ, для 12+ ГБ VRAM
ollama run deepseek-r1:32b # 20 ГБ, для 24+ ГБ
ollama run deepseek-r1:70b # 43 ГБ, для 48+ ГБ


Qwen2.5 и Qwen2.5-Coder


Qwen2.5 выпущена компанией Alibaba Cloud. Версия Qwen2.5-72B имеет 72.7 миллиарда параметров и около 131 тысячи токенов контекста. Семейство сильно в русском языке и в задачах программирования.

bash
ollama run qwen2.5:7b         # Универсальная, хороший русский
ollama run qwen2.5:14b # Отличный баланс качества и скорости
ollama run qwen2.5-coder:32b # Лучшая для программирования


Llama 3.3 70B


Meta Llama 3.3 70B — одна из сильнейших открытых моделей по итогам 2025 года. Llama3.3 70B занимает около 42 ГБ и может подойти не всем — для запуска нужно железо с соответствующим объёмом памяти. На системах с 48+ ГБ VRAM (два RTX 4090 или M4 Pro 64 ГБ) работает комфортно.

Microsoft Phi-4


Phi-4 — семейство компактных моделей от Microsoft, оптимизированных под задачи рассуждения. Phi-4 mini (3.8B) — лучший выбор для CPU-режима и Raspberry Pi: phi-4:mini это компактный вариант на 4B параметров, актуальный на 2025 год, он легче и быстрее, но всё равно подходит для старта на слабом железе.

bash
ollama run phi4-mini    # 3.8B, для слабого железа
ollama run phi4 # 14B, серьёзная версия


Gemma 3 (Google)


В 2025 году Ollama добавила поддержку Gemma 3. Встроенная Gemma 3:4b умеет работать с разными форматами контента, включая русский язык.

bash
ollama run gemma3:4b    # Быстрая, хороший русский
ollama run gemma3:12b # Серьёзная версия
ollama run gemma3:27b # Для мощного железа





12. Подбор модели под железо: таблица совместимости RAM/VRAM


Доступная памятьРекомендуемые моделиСкорость (ориент.)Примечание
8 ГБ RAM (CPU)DeepSeek R1 1.5B, Phi-4 mini1–2 t/sТолько для знакомства
16 ГБ RAM (CPU)DeepSeek R1 7B, Llama 3.2 7B3–5 t/sПриемлемо для несрочных задач
32 ГБ RAM (CPU)DeepSeek R1 14B, Qwen2.5 14B5–8 t/sРабочий вариант
6–8 ГБ VRAMPhi-4 mini, Gemma 3:4b, DeepSeek R1 7B15–25 t/sБазовый GPU-уровень
12 ГБ VRAMDeepSeek R1 8B/14B, Qwen2.5 14B20–35 t/sХороший уровень
16 ГБ VRAMDeepSeek R1 14B Q8, Qwen2.5 14B30–50 t/sКомфортно
24 ГБ VRAMDeepSeek R1 32B, Llama 3.3 32B25–40 t/sПрофессиональный уровень
Mac M4 16 ГБDeepSeek R1 8B–14B20–35 t/sUnified Memory
Mac M4 Pro 24 ГБDeepSeek R1 32B30–45 t/sОтличный баланс
Mac M4 Pro 64 ГБLlama 3.3 70B25–40 t/sСерьёзный уровень
48+ ГБ VRAM (dual GPU)Llama 3.3 70B40–60 t/sМаксимум для потреб. железа

> 💡 Правило большого пальца: размер модели в Q4_K_M (ГБ) ≈ количество параметров × 0.6. Модель 14B займёт ~8.4 ГБ, 32B — ~19 ГБ, 70B — ~42 ГБ.




13. Практические сценарии: что реально можно делать оффлайн


Написание и редактирование текстов

Рекомендация: Qwen2.5 14B или DeepSeek R1 14B. Хорошо работают с русским, понимают стиль, умеют переписывать, сокращать, адаптировать тон. Скорость на RTX 4060 Ti 16 ГБ — ~30 t/s, достаточно для плавной работы.

Программирование

Рекомендация: Qwen2.5-Coder 32B — лучший локальный ассистент для кода. Поддерживает все основные языки, хорошо понимает контекст, объясняет ошибки. На 24+ ГБ VRAM работает быстро. Для лёгкого железа — DeepSeek R1 8B.

Работа с документами: суммаризация, вопросы по тексту

Рекомендация: Open WebUI с загрузкой документа + Llama 3.3 8B или Qwen2.5 14B. Загружаете PDF договора или технического задания, задаёте вопросы по нему. Работает полностью офлайн, данные не уходят никуда.

Перевод

Рекомендация: Qwen2.5 (серия сильна в многоязычности, включая русский-английский-китайский). DeepSeek R1 тоже справляется. Для профессионального качества — 14B+.

Голосовой ассистент офлайн

Схема: Whisper.cpp (распознавание речи) → Ollama (ответ) → TTS (синтез речи). Всё работает без интернета. На Mac Mini M4 это работает в реальном времени — практически как Алиса, но полностью локально и с вашим сценарием.

RAG: ИИ по вашей базе знаний

Retrieval-Augmented Generation — подключение векторной базы к локальному ИИ. Open WebUI поддерживает это из коробки. Практический сценарий: загрузить всю документацию компании, справочники, регламенты — и задавать вопросы по ним без интернета. Работает на RTX 4060 Ti или Mac Mini M4 Pro.




14. FAQ: 12 горячих вопросов о локальном ИИ


Q 01 С чего начать, если ничего не понимаю в ИИ и железо среднее?
A Установите Ollama (одна команда), запустите `ollama run phi4-mini` и попробуйте поговорить. Если скорость устраивает — остаётесь на этой модели. Если нет — это сигнал к апгрейду железа или смене модели на меньшую. Весь процесс занимает 15 минут.

Q 02 Какую видеокарту купить специально для локального ИИ в 2026 году?
A RTX 4060 Ti с 16 ГБ VRAM — главная рекомендация. Это лучшее сочетание цены (~55 000 ₽), объёма памяти (16 ГБ) и энергопотребления (165 Вт). Не берите RTX 3070/3080 с 8 ГБ — на них не поместятся нормальные модели. Объём памяти важнее TFLOPS.

Q 03 Mac Mini M4 или ПК с RTX 4060 Ti — что лучше?
A Зависит от приоритетов. Mac Mini: тихий, компактный, потребляет 5–15 Вт, работает из коробки, не нужна отдельная сборка. RTX 4060 Ti: быстрее при prompt processing, удобнее расширять, можно поставить вторую карту. По скорости генерации (t/s) сопоставимы при похожем объёме памяти.

Q 04 Нужен ли интернет для локального ИИ?
A Только для первоначального скачивания модели. После скачивания всё работает полностью без интернета — модель хранится локально. Это и есть главный смысл «локального ИИ».

Q 05 Почему локальный DeepSeek хуже облачного?
A Полную модель DeepSeek R1 (671B параметров) развернуть локально практически невозможно для большинства пользователей. Локальные версии используют дистилляты — выжимку, и это не совсем аналог реальной модели облачного сервиса. Дистилляты 7–14B значительно уступают полной модели в сложных задачах рассуждения. Для большинства практических задач разница не критична.

Q 06 Сколько места на диске нужно под модели?
A Каждая модель в Q4_K_M занимает примерно: 1.5B — 1 ГБ, 7B — 4.7 ГБ, 14B — 9 ГБ, 32B — 20 ГБ, 70B — 43 ГБ. Рекомендуется держать под модели отдельный SSD на 500 ГБ+ — это позволит хранить 5–10 моделей одновременно и переключаться между ними.

Q 07 Можно ли запустить несколько моделей одновременно?
A Технически да, но каждая модель занимает свой объём памяти. Если суммарный размер превысит доступную VRAM — модели начнут оффлоадиться в RAM с потерей скорости. Ollama поддерживает многомодельный запуск, но реалистично держать одновременно 2 небольшие модели.

Q 08 Работают ли локальные модели с русским языком?
A Да, большинство топовых моделей хорошо понимают и генерируют текст на русском. Лучшие по русскому из локальных: Qwen2.5 (Alibaba обучала на большом русскоязычном корпусе), Llama 3.3 70B, DeepSeek R1. Phi-4 mini и Gemma 3:4b — слабее в русском, но работают.

Q 09 Как часто нужно обновлять модели?
A Новые версии выходят регулярно, но модели не «устаревают» как программное обеспечение — они не перестают работать. Обновляться стоит при выходе значительно лучшей версии (Llama 3.2 → 3.3, DeepSeek R1 → R2) или при появлении модели, лучше закрывающей вашу задачу.

Q 10 Безопасно ли запускать локальную нейросеть на рабочем компьютере с корпоративными данными?
A Это и есть главное преимущество: данные не покидают устройство. Но стоит учесть: крупные модели создают значительную нагрузку на процессор и GPU, что может замедлить другие задачи. Рекомендуется выделить под локальный ИИ отдельную машину или запускать его во время перерывов.

Q 11 Ollama или LM Studio — что выбрать?
A Ollama — если нужен API для подключения приложений, автоматизации, Docker. LM Studio — если хочется удобный GUI без командной строки. Можно использовать оба: LM Studio для экспериментов, Ollama для постоянного сервера.

Q 12 Можно ли дообучить локальную модель на своих данных?
A Да, базово — с помощью MLX или Python-фреймворков можно проводить локальное fine-tuning небольших моделей. Обучение очень вычислительно интенсивно и требует значительно больше памяти, чем инференс. Для большинства практических задач достаточно качественного системного промпта или RAG.




15. Чек-лист: запустить первую локальную нейросеть за один вечер


Шаг 1: Определить железо (5 мин)
- ☐ Проверить объём RAM: `Система → О системе`
- ☐ Проверить GPU и объём VRAM: `Диспетчер устройств / GPU-Z`
- ☐ Выбрать модель по таблице из раздела 12

Шаг 2: Установить Ollama (5 мин)
- ☐ Перейти на `ollama.com` → скачать установщик под свою ОС
- ☐ Linux/Mac: выполнить `curl -fsSL https://ollama.com/install.sh | sh`
- ☐ Убедиться, что установка прошла: `ollama --version`

Шаг 3: Скачать и запустить первую модель (10–30 мин — время зависит от интернета)
- ☐ Для старта на любом железе: `ollama run phi4-mini`
- ☐ Для среднего железа (16+ ГБ RAM / 12+ ГБ VRAM): `ollama run deepseek-r1:8b`
- ☐ Дождаться скачивания и попробовать задать вопрос
- ☐ Оценить скорость: если ниже 3 t/s — попробовать меньшую модель

Шаг 4: Добавить удобный интерфейс (20 мин, опционально)
- ☐ Убедиться, что Docker установлен: `docker --version`
- ☐ Запустить Open WebUI командой из раздела 10
- ☐ Открыть `localhost:3000` в браузере
- ☐ Выбрать модель в интерфейсе и начать чат

Шаг 5: Настройка под задачи (30 мин)
- ☐ Попробовать загрузить документ в Open WebUI и задать вопрос по нему
- ☐ Создать системный промпт под свою задачу через Modelfile
- ☐ Настроить автозапуск Ollama при старте системы
- ☐ Опционально: скачать вторую модель для сравнения

Регулярные задачи
- ☐ Раз в месяц: `ollama pull ` для обновления модели
- ☐ Мониторить новые выпуски: r/LocalLLaMA на Reddit или Habr AI-тематика
- ☐ Следить за дисковым пространством — модели незаметно съедают гигабайты




16. Заключение и теги


Локальный ИИ в 2026 году — это не хобби гиков с серверной в гараже. Ollama демократизирует доступ к передовым технологиям, позволяя широкому кругу пользователей убедиться, что индустрия ИИ не просто так охватывает всё больше сфер.

Для российского пользователя это особенно актуально: ни VPN, ни иностранная карта, ни санкционные риски не влияют на работу локальной модели. Она работает в офлайне, хранит данные у вас, не знает об ограничениях — и не передаёт ничего ни в США, ни в Китай.

Итоговый маршрут по бюджету: стартовый — любой ПК с 16 ГБ RAM + Ollama + DeepSeek R1 7B бесплатно; оптимальный — RTX 4060 Ti 16 ГБ (~55 000 ₽) или Mac Mini M4 16 ГБ (~59 000 ₽) + DeepSeek R1 14B; профессиональный — Mac Mini M4 Pro 64 ГБ (~175 000 ₽) или RTX 4090 + Llama 3.3 70B.

Дальнейший путь: после базового запуска — RAG-система по корпоративной документации через Open WebUI, голосовой ассистент через Whisper.cpp, и наконец — fine-tuning малой модели под специфику ваших задач.

> 🤖 Локальный ИИ — это не только про приватность. Это про контроль. Контроль над тем, что ваш ИИ знает, как отвечает и кому принадлежит.