Гайд Запуск аналогов ChatGPT на домашнем ПК в пару кликов и с интерфейсом⁠⁠

wlux.net · 03.10.2023

В течении последнего месяца в сфере текстовых нейронок всё кипит - после слитой в сеть модели Llama, aka "ChatGPT у себя на пекарне" люди ощутили, что никакой зацензуренный OpenAI по сути им и не нужен, а хорошие по мощности нейронки можно запускать локально, имея минимум 16ГБ обычной ОЗУ и хороший процессор.

Пока технические паблики только начинают отдуплять что происходит, и выкладывают какие-то протухшие гайды месячной давности, я вам закину пару вещей прямо с фронта.

Где запускать?

Способ первый - на процессоре (koboldcpp)

Я бы мог вставить сюда ссылку на репозиторий

Пожалуйста, войдите или зерегистрируйтесь, чтобы увидеть скрытый текст.

, который запускали чуть ли не на кофеварке, и сказать - пользуйтесь!
Но как бы там ни было, это - для гиков. А у нас всё в пару кликов и без командной строки.И работать должно нормально, а не «на 4ГБ».
Поэтому, вот обещанная возможность запустить хорошую модель (13B параметров) на 16ГБ обычной ОЗУ без лишних мозгоделок -

Пожалуйста, войдите или зерегистрируйтесь, чтобы увидеть скрытый текст.

.
koboldcpp - это форк репозитория llama.cpp, с несколькими дополнениями, и в частности интегрированным интерфейсом Kobold AI Lite, позволяющим "общаться" с нейросетью в нескольких режимах, создавать персонажей, сценарии, сохранять чаты и многое другое.

Скачиваем любую стабильную версию скомпилированного exe, запускаем, выбираем модель (где их взять ниже), переходим в браузер и пользуемся. Всё!
Если у вас 32ГБ ОЗУ, то можно запустить и 30B модель - качество будет сильно лучше, но скорость ниже.Данный способ принимает модели в формате ggml, и не требует видеокартыP.S. Если у кого-то есть сомнения о запуске exe, то вы всегда можете проверить исходники и собрать всё самостоятельно - программа открыта.

Теперь koboldcpp поддерживает также и разделение моделей на GPU/CPU по слоям, что означает, что вы можете перебросить некоторое количество слоёв модели на GPU, тем самым ускорив работу модели, и освободив немного ОЗУ.Так что, если у вас есть видеокарта от Nvidia, можете смело перераспределять часть нагрузки на GPU. Как это сделать: Выберите пресет CuBLAS в лаунчере, и установить кол-во слоёв, которые вы хотите выделить на видеокарту.

Чем больше VRAM = тем больше слоёв можно выделить = тем быстрее работа нейросети

Также, у кобольда появился небольшой лаунчер, скриншот которого выше. При запуске советую выставить Threads равным кол-во ядер вашего процессора, включить High Priority и Unban Tokens.Также, если вы используете модели с большим контекстом, не забудьте увеличить Context Size.

Способ второй - запуск на видеокарте (oobabooga)

Требует много VRAM, но скорость генерации выше. Запуск чуть сложнее, но также без выноса мозгов.

Скачиваем вот этот репозиторий

Пожалуйста, войдите или зерегистрируйтесь, чтобы увидеть скрытый текст.

и читаем приложенные инструкции - нужно будет запустить несколько батников.К вам в ту же папку загрузится репозиторий

Пожалуйста, войдите или зерегистрируйтесь, чтобы увидеть скрытый текст.

, и подтянет за собой все необходимые зависимости. Установка проходит чисто, используется виртуальная среда.
К сожалению, в повсеместные 8ГБ VRAM поместится только 7B модель в 4bit режиме, что по факту будет хуже модели 13B из первого способа. 13B влезет только в 16GB VRAM видеокарту.А если у вас есть 24ГБ VRAM (RTX 4090, ага), то к вам влезет даже 30B модель! Но это, конечно, меньшая часть людей.
Интерфейс чуть менее удобен, чем в первом способе. Чуток тормозной. Единственный плюс - есть extensions, такие как встроенный Google Translate, который позволит общаться с моделью на русском языке.

oobabooga - cкриншот со страницы проекта на github

Теперь лаунчер стал чуть проще, и никакие параметры заранее выставлять не нужно. Просто запускаете то, что установилось, и в настройках выбираете движок, на котором будет работать модель.Движков кстати добавили много, и в том числе добавили llama.cpp в этот интерфейс (Однако напомню, что весит он > 15ГБ, и если вам нужно запускать llama.cpp - лучше это делать с кобольдом).llama.cpp - если хотите запускать ggml модели на этом интерфейсе.exllama - ОЧЕНЬ быстрый движок, который позволяет запускать модели на нескольких видеокартах одновременно. Однако, на данный момент не позволяет выгружать слои моделей на CPU. Использовать только если у вас много VRAM. gptq формат.GPTQ-for-LLaMa - стандартный движок, который и был до этого. Поддерживает разделение на GPU/CPU, но медленнее чем llamacpp, если у вас мало VRAM. gptq формат.Все движки и их настройки теперь доступны через интерфейс.

Выбор движка GPTQ-for-LLaMa, и внизу мы можем выделить кол-во слоёв для разделения на CPU/GPU

Из двух способов я советую использовать первый, т.к. он банально стабильнее, менее заморочен, и точно сможет запуститься у 80% пользователей.Если у вас есть крутая видюха с хотя бы 16ГБ VRAM - пробуйте запускать на втором.

Где брать модели?

Сейчас есть 3 качественных модели, которые действительно имеет смысл попробовать - LLama, Alpaca и Vicuna.

Llama - оригинал слитой в первые дни модели. По заявлениям синей компании, запрещённой в РФ, 13B версия в тестах равносильна ChatGPT (135B).По моим ощущениям - на 80% это может быть и правда, но и не с нашей 4bit моделью.
Alpaca - дотренировка Llama на данных с инструкциями. Сделай мне то, расскажи мне это и т.д.Эта модель лучше чем LLama в чат режиме.
Vicuna - дотренировка LLama прямо на диалогах с ChatGPT. Максимально похожа на ChatGPT. Есть только 13b версия, на данный момент.Подчеркну - МАКСИМАЛЬНО похожа. А значит - также как и ChatGPT процензурена.
Скачать каждую из них можно вот здесь -

Пожалуйста, войдите или зерегистрируйтесь, чтобы увидеть скрытый текст.

(Профиль huggingface пользователя, который делает качественные кванты моделей в любом формате. Можно найти почти всё.)Обратите внимание на формат перед скачиванием - ggml или gptq.

Предыдущие модели хоть и по-прежнему рабочие, но немного устарели. Появилось много новых вариантов, которые можно найти по ссылке

Пожалуйста, войдите или зерегистрируйтесь, чтобы увидеть скрытый текст.

модели, которые, по моему мнению, лучше всего показали себя с момента публикации:Llama2 - новая, официальная, стандартная версия ллам. Умнее чем первая версия, но ещё больше цензуры. (GPTQ | GGML)Wizard-Vicuna-13B-Uncensored - Универсально-хорошая модель, которая умнее и стандартной llama, и vicuna. Расцензурена. (GPTQ | GGML)WizardLM's WizardCoder 15B - хорошая модель для написания кода (GPTQ | GGML)Llama2 13B Orca v2 8K - хорошая roleplay модель с расширенным контекстом (модель помнит/воспринимает больше текста при общении) (GPTQ | GGML)

Чтобы скачать - переходим по ссылке, потом на Files and versions.Для GGML формата просто качаем файл с припиской q5_K_M. Если таких их нет - q4_1. Это форматы квантования.В GPTQ просто так качать сложно, поэтому качаем через oobabooga -> Model -> Download custom model or LoRA -> вставляем ссылку и нажимаем Download.

Варианты использования?

Оба интерфейса позовляют создавать персонажа, в роли которого будет работать AI.Поэтому, вариантов использования может быть довольно много.
Пропишите персонажу, что он - AI-ассистент программист, и он будет помогать с кодом.Скажите, что он повар - и он поможет с рецептами.Скажите, что он милая девушка - и придумайте сами там что-нибудь…В общем, тут всё как с ChatGPT - взаимодействие в чате мало чем отличается.
Также, в первом интерфейсе есть режимы Adventure и Story - позволяющие играть с нейросетью, или писать истории.
Продвинутые же пользователи могут подключиться к API запущенных моделей, и использовать их в своих проектах. Оба интерфейса позволяют подключиться по API.

Также, для roleplay штук, советую запустить другой интерфейс - SillyTavern. Почему не писал о нём ранее - потому что это действительно только интерфейс, в котором нет движка. Для его работы нужно запускать либо koboldcpp, либо oobabooga с флагом --api.Почему он лучше для roleplay - широкая поддержка различных персонажей, в том числе от сообщества, Author's note, World Info, ПЕРЕВОД ЧАТА НА РУССКИЙ ЯЗЫК, Text-to-Speech и многое другое.Идеальная связка, по моему мнению, koboldcpp + SillyTavern.

youngkaras · 05.10.2023

Помогло очень сильно, спасибо

Chepushilo332 · 06.10.2023

Спасибо большое, очень помог

Лена-Алена · 11.05.2024

Спасибо! Скопировала. Обязательно попробую

ahrimainbcs · 12.05.2024

Спасибо за помощь, это как раз то, что я искал

Facece777 · 23.10.2024

Это лучший гайд который я видел. Спасибо. Кто пробовал, подскажите пожалуйста как работает?

bedkin · 23.10.2024

То халява спасибо добрый человек

Гайд Запуск аналогов ChatGPT на домашнем ПК в пару кликов и с интерфейсом⁠⁠

wlux.net

Где запускать?

Способ первый - на процессоре (koboldcpp)

Способ второй - запуск на видеокарте (oobabooga)

Где брать модели?

Варианты использования?

Последние темы в этом разделе:

youngkaras

Chepushilo332

Лена-Алена

ahrimainbcs

Facece777

bedkin

Поиск по форуму

Похожие темы:

Гайд Запуск аналогов ChatGPT на домашнем ПК в пару кликов и с интерфейсом⁠⁠

wlux.net

Где запускать?​

Способ первый - на процессоре (koboldcpp)​

Способ второй - запуск на видеокарте (oobabooga)​

Где брать модели?​

Варианты использования?​

Последние темы в этом разделе:

youngkaras

Chepushilo332

Лена-Алена

ahrimainbcs

Facece777

bedkin

Поиск по форуму

Похожие темы:

Privacy & Transparency

Privacy & Transparency

Где запускать?

Способ первый - на процессоре (koboldcpp)

Способ второй - запуск на видеокарте (oobabooga)

Где брать модели?

Варианты использования?