Описание:
Полное руководство по освоению искусственного интеллекта с помощью глубокого обучения и нейронных сетей
Чему вы научитесь
- Создание различных агентов глубокого обучения (включая DQN и A3C)
- Применяйте разнообразные передовые алгоритмы обучения с подкреплением к любой проблеме
- Q-Learning с глубокими нейронными сетями
- Методы градиента политики с нейронными сетями
- Обучение с подкреплением с помощью сетей RBF
- Используйте сверточные нейронные сети с глубоким Q-обучением
- Понять важные основы OpenAI ChatGPT, GPT-4
Материалы курса
12 разделов • 80 лекций • Общая продолжительность 10 ч 38 мин
- Введение и логистика
- Основы обучения с подкреплением
- OpenAI Gym и базовые методы обучения с подкреплением
- ТД Лямбда
- Градиенты политики
- Глубокое Q-обучение
- А3С
- Обзор основ Theano и Tensorflow
- Настройка вашей среды (часто задаваемые вопросы по запросу студентов)
- Дополнительная помощь с программированием на Python для начинающих (FAQ по запросу студентов)
- Эффективные стратегии обучения для машинного обучения (FAQ по запросу студентов)
- Приложение / FAQ Финал
Требования
Знать основы обучения с подкреплением, MDP, динамическое программирование, Монте-Карло, TD Learning
Математика на уровне колледжа полезна
Опыт создания моделей машинного обучения на Python и Numpy
Знать, как создавать искусственные и сверточные нейронные сети с использованием Theano или Tensorflow
Описание:
Вы когда-нибудь задумывались, как на самом деле работают такие технологии искусственного интеллекта, как OpenAI ChatGPT и GPT-4? В этом курсе вы узнаете об основах этих революционных приложений.
Этот курс посвящен применению глубокого обучения и нейронных сетей в обучении с подкреплением.
Если вы посещали мой первый курс по обучению с подкреплением, то вы знаете, что обучение с подкреплением находится на переднем крае того, что мы можем сделать с помощью ИИ.
В частности, сочетание глубокого обучения с обучением с подкреплением привело к тому, что AlphaGo победил чемпиона мира в стратегической игре Go, привело к созданию самоуправляемых автомобилей и машин, которые могут играть в видеоигры на сверхчеловеческом уровне.
Обучение с подкреплением существует с 70-х годов прошлого века, но до сих пор ничего подобного не было.
Мир меняется очень быстро. Штат Калифорния меняет свои правила, чтобы компании, производящие самоуправляемые автомобили, могли тестировать свои машины без человека в машине для контроля. Мы увидели, что обучение с подкреплением - это совершенно другой вид машинного обучения, чем обучение с подкреплением и обучение без подкрепления.
Алгоритмы контролируемого и неконтролируемого машинного обучения предназначены для анализа и прогнозирования данных, в то время как обучение с подкреплением - это обучение агента взаимодействию с окружающей средой и максимизации его вознаграждения. В отличие от алгоритмов контролируемого и неконтролируемого обучения, у агентов обучения с подкреплением есть стимул - они хотят достичь цели.
Это настолько интересная перспектива, что в ретроспективе контролируемое/неконтролируемое машинное обучение и «наука о данных» могут показаться скучными. Зачем обучать нейронную сеть изучать данные в базе данных, если можно обучить ее взаимодействовать с реальным миром?
Глубокое обучение с подкреплением и искусственный интеллект обладают большим потенциалом, но они также несут в себе огромный риск. Билл Гейтс и Элон Маск сделали публичные заявления о некоторых рисках, которые ИИ представляет для экономической стабильности и даже нашего существования. Как мы узнали на моем первом курсе по обучению с подкреплением, один из главных принципов обучения агентов обучения с подкреплением заключается в том, что при обучении ИИ могут возникнуть непредвиденные последствия.
ИИ думают не так, как люди, поэтому они придумывают новые и неинтуитивные решения для достижения своих целей, зачастую удивляя экспертов в данной области - людей, которые лучше всех разбираются в том, что они делают.
OpenAI - это некоммерческая организация, основанная Элоном Маском, Сэмом Альтманом (Y Combinator) и другими людьми для того, чтобы прогресс ИИ приносил пользу, а не вред.
Частью мотивации OpenAI является экзистенциальный риск, который ИИ представляет для людей. Они считают, что открытое сотрудничество - один из ключей к снижению этого риска.
Одна из главных особенностей OpenAI заключается в том, что у них есть платформа под названием OpenAI Gym, которую мы будем активно использовать в этом курсе.
Она позволяет любому человеку в любой точке мира тренировать агентов обучения с подкреплением в стандартных средах.
В этом курсе мы будем развивать то, что сделали в прошлом курсе, и работать с более сложными средами, в частности, с теми, которые предоставляет OpenAI Gym:
- CartPole
- Mountain Car
- Atari games
Чтобы обучить эффективных обучающихся агентов, нам понадобятся новые методы.
Мы расширим наши знания об обучении с помощью алгоритма TD Lambda, рассмотрим особый тип нейронных сетей, называемый RBF-сетью, рассмотрим градиентный метод политики и закончим курс рассмотрением Deep Q-Learning (DQN) и A3C (Asynchronous Advantage Actor-Critic).
Преподаватель:
- Lazy Programmer Team
Ленивый программист - опытный онлайн-педагог с непоколебимой страстью к распространению знаний. Имея более чем 10-летний опыт работы, он произвел революцию в области науки о данных и машинного обучения, покорив аудиторию по всему миру своими комплексными курсами и учебными пособиями.
- Lazy Programmer Inc.
Ленивый программист - опытный онлайн-педагог с непоколебимой страстью к распространению знаний. Имея более чем 10-летний опыт работы, он произвел революцию в области науки о данных и машинного обучения, покорив аудиторию по всему миру своими комплексными курсами и учебными пособиями.
Оригинал описания:
The Complete Guide to Mastering Artificial Intelligence using Deep Learning and Neural Networks
Build various deep learning agents (including DQN and A3C)
Apply a variety of advanced reinforcement learning algorithms to any problem
Q-Learning with Deep Neural Networks
Policy Gradient Methods with Neural Networks
Reinforcement Learning with RBF Networks
Use Convolutional Neural Networks with Deep Q-Learning
Understand important foundations for OpenAI ChatGPT, GPT-4
Материалы курса
Introduction and Logistics
The Basics of Reinforcement Learning
OpenAI Gym and Basic Reinforcement Learning Techniques
TD Lambda
Policy Gradients
Deep Q-Learning
A3C
Theano and Tensorflow Basics Review
Setting Up Your Environment (FAQ by Student Request)
Extra Help With Python Coding for Beginners (FAQ by Student Request)
Effective Learning Strategies for Machine Learning (FAQ by Student Request)
Appendix / FAQ Finale
Бонус: Русские субтитры + Русские аудио дорожки машинный перевод + для удобства воспроизведения добавлена отдельная папка с сшитыми видео файлами (Русская аудио дорожка + видео файл) [Premium Ai].
*Аудио перевод произведён с синхронизацией таймингов.