- 20.06.2022
- 23 845
- 218
- 36
- Награды
- 10
- Пол
- Муж.
Репутация:
- Автор темы
- Администратор
- Модератор
- Команда форума
- #1
Сегодня я хочу рассказать вам про самую простую и доступную для понимания нейросеть, которая создает изображения по вашему текстовому описанию. Она называется Fooocus и основана на знаменитой Stable Diffusion XL. Это идеальное решение в качестве вашей первой нейросети, и необходимый инструмент для любого дизайнера или контент мейкера.
Автор Fooocus не случайный разработчик, а сам создатель ControlNet, очень важной подсистемы для Stable Diffusion, которая изменила все в мире генерации изображений, позволив художникам и дизайнерам полностью контролировать создаваемый арт. Создатель сравнивает свой проект с Midjourney по качеству арта и удобству использования. И действительно порог входа в эту нейросеть очень низкий, а результаты отличные с первой генерации. Установим, изучим, сделаем выводы, поехали.
Что нам понадобится:
- Компьютер или ноутбук с видеокартой минимум на 8GB видеопамяти.
- Около 25GB свободного места на диске для одного режима и 40GB для всех трех.
Fooocus пока еще не забанен в Google Colab, а это значит, что если у вас нет подходящего компьютера вы можете запустить приложение на серверах гугла совершенно бесплатно. ПК бояре могут спускаться к следующему заголовку. Поговорим про запуск в облаке.
Запуск в Google Colab
Открываем вот , и нажимаете на кнопку плей, соглашаетесь с гуглом и жмите кнопку Выполнить. Ждите пока произойдёт скачивание и установка на сервер Google Colab, это может занять до 10 минут.
Вы поймете что установка завершена и программа готова к работе когда внизу консоли увидите App started successful. и рядом будет ссылка вида , вот на неё и надо будет кликнуть. Программа откроется готовая к работе.
Если вы хотите запустить в режиме Realistic или в режиме Anime замените строку кода !python entry_with_update.py --share на строку !python entry_with_update.py --preset anime --share для режима Аниме, или на !python entry_with_update.py --preset realistic --share для режима Реализма. Про режимы я еще расскажу ниже.
Помните, что Google Colab еще весной прикрыл возможность использовать свои мощности для генерации в Automatic 1111, другом интерфейсе нейросети, скорее всего скоро прикроют и этот, поэтому не рассчитывайте на него слишком сильно. Кроме того по итогам моих тестов, вижу что контейнер с фокусом вылетает если сильно грузить его, например если несколько раз подряд отправлять изображение на аутпеинтинг каждый раз с увеличением разрешения. Так, что только локальная версия вас не подведет, к ней и перейдем.
Локальная установка
Если у вас это первый опыт общения с генеративными нейросетями, то для начала необходимо:
По желанию переходим по адресу: жмём Get started и смотрим, что умеет эта нейросеть, если результат вас устроил, то вы вернулись к этому тексту и продолжили читать, предварительно поставив лайк, подписавшись на канал и написав что-нибудь этакое в комментариях.- обновить до последней версии.
- скачать по ссылке и установить его. Обязательно
поставьте галочку «add to path».
- скачать и установить, ничего не меняя при установке.
Приступим к локальной установке Fooocus.
или качаем архив, нажав на (при условии, что у вас операционная система Windows 10/11).
В этой статье мы рассматриваем установку только на Windows и видеокарты от NVIDIA. Если у вас видеокарта AMD и\или другая операционная система то вам , там вы найдёте всю нужную информацию.
Вид ссылки на скачивание
Скачанный архив необходимо распаковать в любую удобную папку, в пути не должно быть кириллицы (русских букв).
c:\Program Files (x86)\нейросети\фокус — (неправильно).
c:\Program Files (x86)\Neuro\Fooocus — (правильно).
Режимы запуска интерфейса
После того как вы распаковали архив, в вашей папке Fooocus должно быть три файла (смотрим на скриншот выше): run.bat, run_anime.bat и run_realistic.bat. Каждый из этих файлов запускает определенный режим со своим набором настроек и уже загруженной моделью.
Режимы запуска: run.bat -run_anime.bat - run_realistic.bat
Все режимы в значительной степени отличаются друг от друга. Они содержат разные модели и стили, которые используются для генерации изображений, и отличаются настройками для каждого режима.
При запуске файла run.bat запускается так называемый универсальный режим, подключается модель Juggernaut XL, Lora SDXL Offset Example Lora и 3 стиля Fooocus V2, Fooocus Enhance, Fooocus Sharp. Этот режим подойдёт практически для любого запроса, как для создания артов, так и для создания реалистичных изображений.
При запуске файла run_realistic.bat запускается режим для создания реалистичных изображений, портретов, фотографий и подключается модель Realistic Stock Photo, Lora SDXL Film Photography Style и 3 стиля Fooocus V2, Fooocus Photograph, Fooocus Negative (негативный промпт содержит в себе: unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3D, watermark, signature, label).
При запуске файла run_anime.bat запускается режим для создания изображений в аниме-стиле и художественных артов. Подключается модель blue_pencil-XL, рефайнер DreamShaper 8, Lora SDXL Offset Example Lora и 6 стилей: Fooocus V2, Fooocus Masterpiece, SAI Anime, SAI Digital Art, SAI Enhance, SAI Fantasy Art. В позитивном запросе сначала указывайте 1girl, если вам нужно сгенерировать девушку, а в негативном — low quality, watermark.
Не думаю, что описание режимов будет слишком полезным и информативным, но, по крайней мере, у вас будет понимание, с чего начать и что каждый из этих режимов предлагает.
Запуск Fooocus.
Если вы установили все программы по ссылкам, то пора запускать Fooocus. Идём в папку с распакованным фокусом и запускаем run.bat или любой другой из предлагаемых.Процесс запуска
Должно получиться вот так:
Запущенный в вашем браузере интерфейс Fooocus
Теперь остаётся написать какой-то запрос (промпт), естественно, на английском языке, и нажать Generate.
Первая генерация может занять больше времени, но последующие генерации будут происходить быстрее.
Если вы заметили, что процесс генерации не дает удовлетворительного результата, вы можете остановить его, нажав кнопку "Stop" или "Skip". В режиме генерации одного изображения эти кнопки выполняют одинаковую функцию, а при генерации нескольких изображений кнопка "Skip" пропускает текущее изображение и переходит к генерации следующего.
Пример: A green lawn, a white gopher in a blue hat sits in the grass and eats a brownie. (Зелёная лужайка, белый суслик в синей шапке сидит в траве и ест пирожок).
С учетом того, что я не вносил изменений во вкладку настроек, такой результат "на лету" довольно неплох. Далее можно открыть вкладку настроек и попробовать улучшить наше генерируемое изображение.
Жмём галочку Advanced и видим панель настроек.
Как выглядит вкладка настроек
Setting
Performance — производительность, в нашем случае скорость генерации изображения, на выбор доступно три режима: Speed — 30 шагов, Quality — 60 шагов и Extreme Speed — очень быстрый режим, работающий за счёт использования технологии рендеринга LCM. Я выставляю всегда режим Quality, разница в скорости работы режимов ощутима, но я не готов пожертвовать качеством в угоду скорости.Aspect Ratios — выбираем необходимое разрешение и соотношение сторон, выбор разрешений фиксированный не просто так, они установлены с учётом разрешений, на которых обучались SDXL-модели, а это значит, что вы при всём желании не сможете выбрать неправильное соотношение сторон и разрешение, при котором генерируемое изображение будет искажаться. (Очень удобный инструмент, и не нужно устанавливать и настраивать дополнительные расширения.)
Image number — (количество изображений) выставляйте на своё усмотрение, максимально можно выставить до 32, я ставлю всегда 1 изображение, чтобы понимать, что нужно подкорректировать в запросе.
Сколько изображений нейросеть должна сгенерировать
Negative prompt — это то, что вы категорически не хотите видеть на своём изображении. (Не забывайте, что все промты, как негативные, так и позитивные, мы всегда указываем на английском языке.)
То, что вы не хотите видеть на своем изображении
Random — по умолчанию всегда включён, и каждую генерацию будет разный результат, если мы снимем галочку, то увидим так называемый сид (seed) — все изображения создаются из белого шума, и сид — это ID уникального для каждого изображения шума. Использовать конкретный seed можно, если вы экспериментируете с запросом или различными Loras либо просто хотите повторить ранее созданное изображение.
Тот самый Seed
History Log — содержит всю информацию о ваших сгенерированных ранее изображениях, здесь есть и Seed для каждого изображения, и запрос, и много другой информации. Focus в отличие от Automatic 1111 и прочих не умеет хранить информацию внутри самого изображения, и вы не сможете посмотреть информацию о генерации через PNG INFO.
Тот самый лог
Style — по умолчанию всегда включено 3 стиля, один из них, Fooocus V2, это GPT-модель которая помогает вам с улучшением указанных вами запросов. Иногда она полезна а иногда нет, решать вам пользоваться этим стилем или нет.
Экспериментировать со стилями интересно, их можно «смешивать» без ограничений по количеству и получать забавные и непредсказуемые результаты.
Возьми чупик
Стилей очень много, и можно потратить уйму времени, подбирая вариант для себя. Для удобства предусмотрена строка поиска.
Вкладка выбора модели, loras и рефайнера
Здесь мы можем выбирать модели для генерации своих изображений, выбрать рефайнер (если нужно) и добавить Loras модели. В Fooocus уже предустановлены несколько моделей, увидеть которые вы можете, нажав на Base model. Если они вас не устроят или вам захочется чего-то нового, то идите. , смотрите и качайте то, что нравится. (скачанные модели всегда должны лежать по пути: ваш диск / папка fooocus / models / checkpoints.)
Refiner — это своего рода улучшалка, в большинстве случаев модели с не нуждаются в использовании рефайнера, внимательно читайте пояснения автора модели, там как правило указаны все необходимые параметры для корректной работы модели. Я рефайнером пользуюсь крайне редко, но вы можете поэкспериментировать.
Ниже мы видим, что можно добавить до 5 различных Lora.
Lora — это (от англ. «Low-Rank Adaptation») дополнительный компонент для нейросети, который позволяет обучаться искусственному интеллекту в процессе создания объектов, которые он ещё не умеет отображать. Вес Lora варьируется от -2 до 2. Какое значение выставлять — решать вам. Оптимальное для моих нужд значение — от 0,5 до 0,7.
вы можете посмотреть доступный список Lora-моделей (не забывайте про фильтр на сайте, это упростит процесс поиска нужной модели или лоры).
Скачанные Lora модели нужно хранить по пути:
ваш диск\папка с fooocus\models\loras
Weight — обозначает вес или силу влияния выбранной лоры на генерируемое изображение. Как правило, вес по умолчанию 1, но вы можете менять значения в обе стороны и выбирать подходящий вам вариант.
Advanced:
Guidance Scale — определяет, как сильно сильно нейросеть должна следовать запросу. Зачастую автор модели в описании указывает рекомендуемое значение CFG, если информации нет, то можете оставить по умолчанию либо методом проб выбрать то значение, которое вам подходит.
Слишком высокое значение может засыпать изображение артефактами и чересчур раскрасить его и сделать ненатуральным.
Значение Guidance Scale 30
А слишком низкое значение обесцветит изображение и сделает его скучным, хотя иногда для получения нужного эффекта низкое значение как раз и нужно.
Значение Guidance Scale 1
Image Sharpness, в свою очередь, отвечает за добавочный шум при генерации изображения, и чем больше значение, тем больше деталей будет на вашем изображении, избыток шума может привести к эффекту перешарпа и некоей замусоренности изображения.
Значение Image Sharpness 0
Значение Image Sharpness 30
Я почти всегда выставляю значения Guidance Scale 5–6, Image Sharpness 7–9.
Developer Debug Mode — это меню для тонкой настройки, но я крайне не рекомендую там ничего менять, исключение — это 3 пункта на скриншоте ниже , тут можно поиграть, когда вы хотите прикрутить на генерируемое изображение своё или чьё-то лицо.
Пример
Но эту тему мы рассмотрим позднее.
Developer Debug Mode
С функционалом и настройками, надеюсь, немного разобрались, теперь нужно научиться правильно составлять запросы.
Чтобы нейросеть понимала вас, важно правильно составлять запросы. В Fooocus также используется встроенный GPT-движок, который может помочь вам улучшить ваши запросы.
Существует определённая структура построения запроса: тип изображения, объект, подробное описание внешности, дополнительные элементы, место, эффекты, стиль.
Если запомнить структуру, то в дальнейшем у вас не будет возникать проблем при создании сложных композиций.
Вложения
Последние темы в этом разделе:
- Обход captchaV2
- Как стать специалистом по кибербезопасности «с нуля»
- Тренировочная мишень. Сравниваем ратники с NjRat
- Ddos и Dos атаки. В чём их различие и чем опасны!
- Слив трафика из Ютуб Шортс + Выводим Shorts ролики и каналы в топ
- Пособие по финансовой грамотности от А до Я
- Поднимаем Веб-скрапер на основе ИИ
- Как сделать свой Discord бот на основе Chat GPT
- Получаем BYBIT MasterCard карту для граждан РФ и Беларуси - Оплата зарубежных сервисов
- Бесплатно пользуемся нейросетью без цензуры