Модифицированный интеллектуальный контроллер с адаптивным критиком

Изобретение относится к классу интеллектуальных контроллеров, использующих принцип обучения с подкреплением, и может использоваться для создания систем управления объектами, работающими в недетерминированной среде. Техническим результатом является повышение адаптационных свойств устройства за счет перенастройки критика во время работы устройства. Модифицированный интеллектуальный контроллер с адаптивным критиком содержит: объект управления, блок критика, решающую нейронную сеть, блок действий, блок расчета временной разности, блок расчета подкрепления и блок выбора действия и связи между ними. 1 ил.

 

Изобретение относится к классу интеллектуальных контроллеров, использующих принцип обучения с подкреплением, и может использоваться для создания систем управления объектами, работающими в недетерминированной среде.

Известен патент США МПК G06F 15/18, 6532454 «Stable adaptive control using critic designs», который реализует обучение с подкреплением с использованием нейронных сетей. Устройство по данному патенту состоит из решающей и моделирующей нейронных сетей, блока критики, а также блока вычисления ошибки прогнозирования и связей между блоками.

Принцип работы устройства по патенту МПК G06F 15/18, 6532454 следующий - решающая нейронная сеть получает значение подкрепления, вычисляет действие на данной итерации и передает его на моделирующую нейронную сеть, которая вычисляет прогнозное значение рабочего параметра системы, после выполнения действия система получает реальное значение рабочего параметра, критик вычисляет новое значение подкрепления и корректируется работа моделирующей нейронной сети.

Известен также интеллектуальный контроллер на основе сетей адаптивной критики - патент США МПК G06F 15/18, 5448681. Данное устройство состоит из объекта управления, блок критика и решающей нейронной сети. Выходы объекта управления связаны с входами блока критика, а также входами решающей нейронной сети, выход решающей нейронной сети связан с объектом управления и блоком критика, выход сети критика связан с входом решающей нейронной сети.

Принцип работы устройства по патенту МПК G06F 15/18, 6532454 следующий - объект управления выдает сигнал о своем состоянии, блок критика вычисляет качество выбираемого действия для текущей временной итерации и состояния объекта, решающая нейронная сеть вычисляет управляющее воздействие.

Недостатками устройств по патенту МПК G06F 15/18, 6532454 является то, что в них не запоминается история работы системы и критик работает по первоначально настроенным параметрам.

Недостатками устройств по патенту МПК G06F 15/18, 4563746 являются - нет блока запоминания истории работы системы и низкие адаптационные свойства в связи с жестко заданным принципом работы блока критика.

Техническим результатом предлагаемого устройства является повышение адаптационных свойств за счет перенастройки критика во время работы устройства.

Задача - разработка модифицированного интеллектуального контроллера с адаптивным критиком с возможностью перенастройки критика во время работы устройства.

Технический результат достигается тем, что в модифицированном интеллектуальном контролере с адаптивным критиком, содержащем объект управления, блок критика, решающую нейронную сеть, первый выход объекта управления связан с первым входом решающей нейронной сети, второй выход объекта управления связан со вторым входом решающей нейронной сети, выход решающей нейронной сети связан с первым входом блока критика, и в него введены блок действий, блок расчета временной разности, блок расчета подкрепления и блок выбора действия, при этом первый выход объекта управления связан также с первым входом блока действий, первым входом блока расчета временной разности и первым входом блока расчета подкрепления, второй выход объекта управления также связан со вторым входом блока действий, вторым входом блока расчета временной разности и вторым входом блока расчета подкрепления, выход блока действий связан со вторым входом блока критика, первый и второй выходы блока расчета временной разности связаны с первым и вторым входами блока критика, а третий выход связан с выходом блока критика, выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, выход блока критика связан с четвертым входом блока расчета временной разности, выход блока критика также связан с входом блока выбора действия, первый выход блока выбора действия связан третьим входом блока действий, а второй выход блока выбора действия связан с входом объекта управления.

Повышение адаптационных свойств достигается за счет того, что в модифицированном интеллектуальном контроллере с адаптивным критиком добавлены блок расчета временной разности и блок расчета подкрепления, которые отвечают соответственно за расчет временной разности и подкрепления, при этом блок расчета временной разности также дообучает критика во время работы системы. Кроме того, в систему введен блок выбора действий из возможных, после обработки их блоком критика. Для запоминания предыдущих результатов работы в устройство добавлен блок действий, который сохраняет историю работы системы и выбирает возможные действия в конкретной ситуации.

Таким образом совокупность существующих признаков, изложенных в формуле изобретения, позволяет достичь желаемый технический результат.

На фиг.1 изображена схема модифицированного интеллектуального контроллера с адаптивным критиком.

Система состоит из нескольких структурных компонент: объекта управления 1, блока действий 2, решающей нейронной сети 3, блока критика 4, блока расчета временной разности 5, блока расчета подкрепления 6, блока выбора действия 7.

Также в системе присутствуют следующие связи: от объекта управления идет выход по состоянию объекта управления 8, который соединен с блоком действий по входу 8.1, решающей нейронной сетью по входу 8.2, блоком расчета временной разности по входу 8.3 и блоком расчета подкрепления по входу 8.4. Также от объекта управления идет сигнал по состоянию окружающей среды 9, который соединен с блоком действий по входу 9.1, решающей нейронной сетью по входу 9.2, блоком расчета временной разности по входу 9.3 и блоком расчета подкрепления по входу 9.4. От блока действия идет связь на блок критика 10. От решающей нейронной сети идет связь на блок критика 11. Выход блока критика соединен с входом блока выбора действий по сигналу 12 и входом блока расчета временной разности по сигналу 13. Выходы блока расчета временной разности связаны с входами критика по сигналам 14, 15 и выходом по сигналу 16. От блока расчета подкрепления идет сигнал на блок расчета временной разности по сигналу 17. Первый выход блока выбора действия соединен с входом блока действий 18, а второй с объектом управления по сигналу 19.

Блок действий 2 предназначен для хранения таблицы возможных действий во всех возможных ситуациях и выбора возможных действий в данной конкретной ситуации.

Решающая нейронная сеть 3 предназначена для прогнозирования следующего значения рабочего параметра системы (или нескольких параметров). Под рабочим параметром понимается тот параметр системы, оценивая который система может определить, как она работает, либо это параметр, который служит ориентиром для работы системы (рабочих параметров может быть несколько).

Блок критика 4 предназначен для расчета качества ситуации V(t), последующей при выборе определенного действия.

Блок расчета временной разности 5 предназначен для расчета временной разности по формуле:

δ(t)=r(t)+γ·V(t)-V(t-1),

где γ∈(0;1] - коэффициент забывания.

Блок расчета подкрепления 6 предназначен для расчета подкрепления r(t). Формула расчета подкрепления задается разработчиком.

Блок выбора действия 7 предназначен для выбора конкретного действия из всех возможных в данной ситуации. При выборе используется так называемое «ε - жадное правило» (Sutton R., Barto A. Reinforcement Learning: An Introducion. - Cambridge: MIT Press, 1998), которое можно записать как: с вероятностью (1-ε) выбирается то действие, которому соответствует максимальное значение качества ситуации при этом 0<ε<<1.

Принцип работы интеллектуального контроллера следующий. Объект управления 1 выполняет действие и образует на выходе сигналы состояния объекта управления 8 и окружающей среды 9. Данные сигналы идут на следующие блоки: блок действий 2 - сигналы 8.1 и 9.1, решающую нейронную сеть 3 - сигналы 8.2 и 9.2, блок расчета временной разности 5 - сигналы 8.3 и 9.3, блок расчета подкрепления 6 - сигналы 8.4 и 9.4. При этом блок действий 2 сохраняет значения состояния окружающей среды и объекта управления, а также сигнал управления на данной итерации 18, идущий от блока выбора действий 7.

Решающая нейронная сеть 3, получая значения состояния объекта управления 8.2 и окружающей среды 9.2, прогнозирует следующее значение рабочего параметра 11 и подает его на вход блока критика 4. На блок критика также последовательно подаются все возможные варианты действий, которые может совершить объект в текущей ситуации - данный сигнал идет по связи 10 от блока действий 2. Блок критика последовательно для каждой пары значений {возможное действие; прогнозное значение рабочего параметра} выдает значение качества V, которое вместе с возможным действием идет на блок расчета временной разности 16 и блок выбора действий 12. Блок выбора действий 7 запоминает все пришедшие к нему значения {возможное действие; качество действия} и, основываясь на ε - жадном правиле, выбирает текущее действие 19 и посылает его на объект управления 1. Выбранное действие 18 также посылается на блок действий 2.

Одновременно с выбором действия блоком выбора действия и отработкой его объектом управления, в блоке расчета подкрепления 6 рассчитывается текущее значение подкрепления 17, которое передается в блок расчета временной разности 5. Блок расчета временной разности в свою очередь рассчитывает значение временной разности и, если необходимо, переобучает нейронную сеть блока критика.

Решающая нейронная сеть - это стандартный многослойный персептрон с обучением по методу обратного распространения ошибки. Блок критика - также стандартный многослойный персептрон с обучением по методу обратного распространения ошибки. Параметры нейронных сетей выбираются в зависимости от решаемой задачи.

Обучение блока критика во время работы по изменившейся и вновь поступившей временной разности происходит следующим образом: блок расчета временной разности по сигналам 14 и 15 подает сохраненные пары {сигнал управления; прогнозное значение рабочего параметра}, а по сигналу 16 подает желаемое значение выхода. Обучение методом обратного распространения ошибки происходит до тех пор, пока ошибка нейронной сети критика не станет меньше заданной, при этом реальное значение нейронной сети критика поступает в блок расчета временной разности по сигналу 15 (Rumelhart D.Е., Hinton G.Е., Williams R.J., "Learning representations by back-propagating errors," Nature, vol.323, pp.533-536, 1986).

Модифицированный интеллектуальный контроллер с адаптивным критиком, содержащий объект управления, блок критика, решающую нейронную сеть, первый выход объекта управления связан с первым входом решающей нейронной сети, второй выход объекта управления связан со вторым входом решающей нейронной сети, выход решающей нейронной сети связан с первым входом блока критика, отличающийся тем, что в него введены блок действий, блок расчета временной разности, блок расчета подкрепления и блок выбора действия, при этом первый выход объекта управления связан также с первым входом блока действий, первым входом блока расчета временной разности и первым входом блока расчета подкрепления, второй выход объекта управления также связан со вторым входом блока действий, вторым входом блока расчета временной разности и вторым входом блока расчета подкрепления, выход блока действий связан со вторым входом блока критика, первый и второй выходы блока расчета временной разности связаны с первым и вторым входами блока критика, а третий выход связан с выходом блока критика, выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, выход блока критика связан с четвертым входом блока расчета временной разности, выход блока критика также связан с входом блока выбора действия, первый выход блока выбора действия связан третьим входом блока действий, а второй выход блока выбора действия связан с входом объекта управления.



 

Похожие патенты:

Изобретение относится к средствам автоматизированного моделирования в сетевой среде. .

Изобретение относится к вычислительной технике. .

Изобретение относится к вычислительной технике и может быть использовано для построения высоконадежных отказоустойчивых интегрированных бортовых управляющих комплексов в космической, авиационной, ядерной, химической, энергетической и других отраслях.

Изобретение относится к средствам использования сетевова кэша. .

Изобретение относится к средствам обработки информации для прогнозирования стационарных и нестационарных случайных процессов. .

Изобретение относится к вычислительной технике и может быть использовано при создании программного обеспечения управляющих вычислительных систем. .

Изобретение относится к интеллектуальным контроллерам, использующим принцип обучения с подкреплением, и может использоваться для управления сложными системами в недетерминированной среде.

Изобретение относится к широкополосным беспроводным сетям связи, использующим ретрансляцию преимущественно в режимах разновидностей пакетной коммутации. .

Изобретение относится к области вычислительной техники и может быть использовано для анализа состояния защищенности, мониторинга и управления безопасностью автоматизированных систем

Изобретение относится к области информационной безопасности сетей связи и может быть использовано при сравнительной оценке структур сети связи на предмет их устойчивости к отказам, вызванным воздействиями случайных и преднамеренных помех

Изобретение относится к оптимизации микропроцессорной архитектуры

Изобретение относится к автоматике и вычислительной технике и может быть использовано для прогнозирования стационарных и нестационарных случайных процессов, повышения качества и точности управления в цифровых системах контроля и наведения различных (в т.ч

Изобретение относится к компьютерным сетям, в частности Интернету, и предназначено для использования в веб-сервисах закладок

Изобретение относится к современным пилотажно-навигационным комплексам (ПНК) летательных аппаратов (ЛА) и их бортовой аппаратуре

Изобретение относится к компьютерной технике, в частности к портативному компьютерному комплексу

Изобретение относится к области обработки цифровых мультимедийных данных

Изобретение относится к вычислительной технике, а в частности к управляющей системе, предназначенной для сбора информации от корабельных систем и комплексного представления информации на мониторах, а также для управления поворотными устройствами электронно-оптических визиров
Наверх