
Щодо застосування глибокого навчання з підкріпленням у сучасних системах.
Author(s) -
А С Мальцев
Publication year - 2021
Publication title -
komp'ûterno-ìntegrovanì tehnologìï: osvìta, nauka, virobnictvo
Language(s) - Ukrainian
Resource type - Journals
eISSN - 2524-0560
pISSN - 2524-0552
DOI - 10.36910/6775-2524-0560-2021-44-06
Subject(s) - physics
У статті розкрито принципи застосування глибокого навчання з підкріпленням у сучасних системах. Підкреслено, що у функції навчання з підкріпленням входить адаптація немарківської моделі прийняття рішень до ситуації, що склалася за рахунок аналізу передісторії процесу прийняття рішень, внаслідок чого підвищується якість прийнятих рішень. Описано принцип реалізації навчання з підкрі.пленням та схематично розкрито схему взаємодії агента з навколишнім середовищем. Для детального опису запропоновано використання 2D-задачі балансування полюсів, яку покладено в основу математичного аспекту. Наголошено, що у сучасних системах найбільш часто використовується дві схеми навчання з підкріпленням це метод часових різниць та метод Монте-Карло. Здійснено математичне обґрунтування кожного методу окремо та запропоновано архітектуру глибокої Q-мережі. Описано модельні та безмодельні методи, підкреслено, що модельні методи засновані на моделях навчання з підкріпленням, що змушують агента намагатися зрозуміти світ і створити модель для його подання. Безмодельні методи намагаються захопити дві функції, функцію переходу від станів і функцію винагороди, з цієї моделі агент має посилання і може планувати відповідно. Проте, зазначається, що немає необхідності вивчати модель, і агент може замість цього вивчати політику безпосередньо, використовуючи такі алгоритми, як Q-навчання або градієнт політики. Глибока Q-мережа, використовує згорткову нейронну мережу для прямої інтерпретації графічного представлення вхідного стану з навколишнім середовищем. Обґрунтовано, що глибоку Q-мережу можна розглядати як параметризовану мережу політики, яка постійно навчається для наближення оптимальної політики, а, математично, глибока Q-мережа використовує рівняння Беллмана для мінімізації функції втрат, що є ефективним для зниження часу. Однак використання нейронної мережі для наближення функції значення виявилося нестабільним і може призвести до розбіжностей через зміщення, що походить від корелятивних вибірок