Так как это нейросеть, то что бы добиться приемлемого качества голоса, необходимо долго "учить" её, на основе разных голосовых записей человека
это занимает сотни часов и десятки гигабайт файлов.
Приступим:
1)Переходим по ссылке на github проект клонирования голоса:
и сразу скачаем проект на пк
2)Скачиваем заранее натренированные модели:
3) Если ваш ПК и интернет это позволяет, рекомендуется также скачать готовый сет для клонирования голоса:
Дальше разберемся что куда кидать.
4)Если вы устанавливали Avatarify(подмена лица), то у вас должен быть установленная Anaconda prompt.
Если у вас её нет, то скачиваем по ссылке:
Нужно выбрать Python 3.7 версию
5) Нужно также скачать и установить тулкит CUDA 10.0, если конечно до этого не устанавливали.
6)После всего этого, запускаем Anaconda prompt(miniconda3) и прописываем следующие команды:
conda create -n clone python=3.6
Далее нас попросят нажать y и продолжить(enter):
Готово,теперь нам нужно активировать виртуальную среду, которую мы только что сделали
Для этого прописываем там же:
conda activate clone
После этого, нужно устанавливать необходимые пакеты
прописываем в консоле Anaconda:
conda install pytorch
Также подтверждаем
Теперь распаковываем архив с github, и копируем его путь.
Далее в консоли анаконды
прописываем:
cd (ВАШ ПУТЬ К ФАЙЛАМ С АРХИВА)
Теперь прописываем:
pip install -r requirements.txt
пошла установка необходимых модулей,нужно дождаться конца установки.
ещё пропишем одну команду:
conda install numba
Теперь нужно распаковать те доп. архивы,которые вы скачивали ранее
архив pretrained.zip распаковываем прямо в папку с программой Real-TimeVoice-Cloning-master, а второй архив если скачивали:создаём в папке с программой подпапку LibriSpeech
в ней создаём папку train-clean-100 и туда скидываем данные с распакованного архива.
Так же,что бы не было ошибок, закидываем в папку утилиты dll файлы CUDA:
cudart64_100.dll
cudnn64_7.dll
Их можно найти в папке: C:\ProgramData\Miniconda3\pkgs\pytorch-1.0.0-py3.7_cuda100_cudnn7_1\Lib\site-packages\torch\lib
Если устанавливали avatarify, то тут:
ProgramData\Miniconda3\envs\avatarify\Lib\site-packages\torch\lib
Теперь попробуем запустить:
Вводим в анаконде следующее:
python demo_toolbox.py
Процесс много жрёт! на системе с 16 гб ОЗУ пришлось закрыть почти все программы, имейте ввиду
У нас откроется главное окно
Вверху по кнопке Browse мы загружаем нужный нам образец голоса в формате wav.
Либо можно записать фрагмент своего голоса, нажав на кнопку record.
Вы должны понимать, что речь должна быть нормальной, состоящей из 9-10 слов,обладать чёткостью.
Натренированные данные заточены под английский текст, так что с русским тут не выйдет(англ. более менее)
После того, как загрузили голос, пишем нужный текст на английском вверху справа, и нажимаем кнопку Synthesize and vocode.
После чего, мы услышим полученный вариант голоса
Если несколько раз проводить эту процедуру, то качество голоса может самостоятельно улучшаться.
Вот пример голоса Игоря, до и через несколько проходов:
Если хотите сохранить результат:
Редактируем изначально файл demo_cli.py, прописываем нужный текст и имя исх.файла:
Сохраняем, и в анаконде вместо python demo_toolbox.py прописываем: python demo_cli.py
И всё, пойдёт процесс генерации.
По завершению вы получите в той же папке готовый вариант.
Что же,вариант очень интересный, но занимает много времени,ресурсов и сил