Лекция №7. Обучение с подкреплением

Обучение с подкреплением представляет собой метод машинного обучения на основе обучения интеллектуального агента, который действует во внешней среде. Предполагается, что в каждый дискретный момент времени программируемый агент находится в определенном состоянии s. В зависимости от этого состояния у агента есть на выбор несколько возможных действий. Агент выбирает некоторое действие, после чего оказывается в новом состоянии и получает определенное подкрепление, которое зависит от предыдущего состояния и выбранного действия. Предполагается, что агенту нужно увеличивать сумму своих подкреплений.

В обучении с подкреплением ключевым моментом является функции Q(s,a), которая является субъективной оценкой действия a в состоянии s. На основании этой функции агент принимает решение. В тоже время в результате игры агент постоянно модифицирует эту функции, что и является обучением.

Посмотрите нашу видео-лекцию, посвященную обучению с подкреплением:

Опишем алгоритм SARSA обучения с подкреплением

1. Инициализировать Q(s, a)
2. Повторять для каждой игры
   3. Инициализировать s
   4. Выбрать a по s (ε-жадную)
   5. Повторять для каждого шага
      6. Выполнить a, найти r, s’
      7. Найти a’ по s’, используя (ε-жадную)
      8. Q(s, a) = Q(s, a) + α[r + γQ(s’,a’)-Q(s,a)]
      9. s = s’, a = a’
   10. Пока s не станет финальным

Рассмотрим теперь алгоритм обучения с подкреплением Q-learning.

1. Инициализировать Q(s, a)
2. Повторять для каждой игры
   3. Инициализировать s
   4. Повторять для каждого шага
      5. Выбрать a по s (ε-жадную)
      6. Выполнить a, найти r, s’
      7. Q(s, a) = Q(s, a) + α[r + γmaxa’Q(s’,a’)-Q(s,a)]
      8. s = s’
   9. Пока s не станет финальным

Мы реализовали алгоритм Q-learning для игры в "Крестики-нолики". Исходный текст этой программы на языке C# можно скачать AI-XO3.

В процессе игры программа строит функцию Q(s,a), которая используется для выбора оптимальных ходов. Мы видим, что с каждым моментом программа играет все лучше.

Home | Лекции | Python | Видео | Скачать | Ссылки
Copyright (c) 2017, Roman Shamin
34
13128
20