z-logo
open-access-imgOpen Access
Щодо застосування глибокого навчання з підкріпленням у сучасних системах.
Author(s) -
А С Мальцев
Publication year - 2021
Publication title -
komp'ûterno-ìntegrovanì tehnologìï: osvìta, nauka, virobnictvo
Language(s) - Ukrainian
Resource type - Journals
eISSN - 2524-0560
pISSN - 2524-0552
DOI - 10.36910/6775-2524-0560-2021-44-06
Subject(s) - physics
У статті розкрито принципи застосування глибокого навчання з підкріпленням у сучасних системах. Підкреслено, що у функції навчання з підкріпленням входить адаптація немарківської моделі прийняття рішень до ситуації, що склалася за рахунок аналізу передісторії процесу прийняття рішень, внаслідок чого підвищується якість прийнятих рішень. Описано принцип реалізації навчання з підкрі.пленням та схематично розкрито схему взаємодії агента з навколишнім середовищем. Для детального опису запропоновано використання 2D-задачі балансування полюсів, яку покладено в основу математичного аспекту. Наголошено, що у сучасних системах найбільш часто використовується дві схеми навчання з підкріпленням це метод часових різниць та метод Монте-Карло. Здійснено математичне обґрунтування кожного методу окремо та запропоновано архітектуру глибокої Q-мережі. Описано модельні та безмодельні методи, підкреслено, що модельні методи засновані на моделях навчання з підкріпленням, що змушують агента намагатися зрозуміти світ і створити модель для його подання. Безмодельні методи намагаються захопити дві функції, функцію переходу від станів і функцію винагороди, з цієї моделі агент має посилання і може планувати відповідно. Проте, зазначається, що немає необхідності вивчати модель, і агент може замість цього вивчати політику безпосередньо, використовуючи такі алгоритми, як Q-навчання або градієнт політики. Глибока Q-мережа, використовує згорткову нейронну мережу для прямої інтерпретації графічного представлення вхідного стану з навколишнім середовищем. Обґрунтовано, що глибоку Q-мережу можна розглядати як параметризовану мережу політики, яка постійно навчається для наближення оптимальної політики, а, математично, глибока Q-мережа використовує рівняння Беллмана для мінімізації функції втрат, що є ефективним для зниження часу. Однак використання нейронної мережі для наближення функції значення виявилося нестабільним і може призвести до розбіжностей через зміщення, що походить від корелятивних вибірок

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here