Desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes

In reinforcement learning, an agent is implemented with the aim of learning to perform some specified task in a given environment through the experiences obtained from interactions with that environment. The environment is the essential structure for this learning, since it is there that the funda...

ver descrição completa

Na minha lista:
Detalhes bibliográficos
Autor principal: Machado, Kaíque Gomes
Outros Autores: Dória Neto, Adrião Duarte
Formato: bachelorThesis
Idioma:pt_BR
Publicado em: Universidade Federal do Rio Grande do Norte
Assuntos:
Endereço do item:https://repositorio.ufrn.br/handle/123456789/53481
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
id ri-123456789-53481
record_format dspace
institution Repositório Institucional
collection RI - UFRN
language pt_BR
topic Aprendizado por reforço
Reinforcement learning
Sistema de tanques acoplados
Coupled tank systems
Modelagem de sistemas
Systems modeling
Identificação de sistemas
Systems identification,
Redes neurais recorrentes
Recurrent neural networks
Ambientes gym
Gym environments
spellingShingle Aprendizado por reforço
Reinforcement learning
Sistema de tanques acoplados
Coupled tank systems
Modelagem de sistemas
Systems modeling
Identificação de sistemas
Systems identification,
Redes neurais recorrentes
Recurrent neural networks
Ambientes gym
Gym environments
Machado, Kaíque Gomes
Desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes
description In reinforcement learning, an agent is implemented with the aim of learning to perform some specified task in a given environment through the experiences obtained from interactions with that environment. The environment is the essential structure for this learning, since it is there that the fundamental configurations for training agents are defined. One of these configurations is the choice of reward criteria and the definition of action spaces. Considering a system of two coupled tanks as an environment and the task specified as controlling the level of tank 1, training an agent in this real problem requires great care to avoid possible accidents in the laboratory. Some examples are level overflow, incorrect voltages sent to the pump and possible loss of these tools. Thus, the development of virtual environments is essential for training agents in this type of problem. With this, the objective of this work is to implement a virtual environment with the Gymnasium (Gym) library of a system of coupled tanks to avoid possible accidents in the laboratory and, with its graphical interface, facilitate the comparison of performance of trained agents. For this, the identification of the tank system was used as a strategy for modeling the system through two LSTM (Long-Short Term Memory) neural networks. A network with only one LSTM layer for level prediction (single network) and another network with an LSTM layer for each level (split network). Finally, the results obtained from the training of the single and divided networks are presented, in addition to exposing the results of the Gym environment developed. It is also shown that the split network served the purpose of modeling the tank system with a few millimeters error.
author2 Dória Neto, Adrião Duarte
author_facet Dória Neto, Adrião Duarte
Machado, Kaíque Gomes
format bachelorThesis
author Machado, Kaíque Gomes
author_sort Machado, Kaíque Gomes
title Desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes
title_short Desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes
title_full Desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes
title_fullStr Desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes
title_full_unstemmed Desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes
title_sort desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes
publisher Universidade Federal do Rio Grande do Norte
publishDate 2023
url https://repositorio.ufrn.br/handle/123456789/53481
work_keys_str_mv AT machadokaiquegomes desenvolvimentodeumambientevirtualdetanquesparatreinamentodeagentesinteligentes
AT machadokaiquegomes developmentofavirtualenvironmentforagenttrainingtankssmart
_version_ 1773957869327089664
spelling ri-123456789-534812023-07-17T14:53:02Z Desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes Development of a virtual environment for agent training tanks smart Machado, Kaíque Gomes Dória Neto, Adrião Duarte Martins, Daniel Lopes Florêncio, Heitor Medeiros Amorim, Leonardo Gomes de Paiva Aprendizado por reforço Reinforcement learning Sistema de tanques acoplados Coupled tank systems Modelagem de sistemas Systems modeling Identificação de sistemas Systems identification, Redes neurais recorrentes Recurrent neural networks Ambientes gym Gym environments In reinforcement learning, an agent is implemented with the aim of learning to perform some specified task in a given environment through the experiences obtained from interactions with that environment. The environment is the essential structure for this learning, since it is there that the fundamental configurations for training agents are defined. One of these configurations is the choice of reward criteria and the definition of action spaces. Considering a system of two coupled tanks as an environment and the task specified as controlling the level of tank 1, training an agent in this real problem requires great care to avoid possible accidents in the laboratory. Some examples are level overflow, incorrect voltages sent to the pump and possible loss of these tools. Thus, the development of virtual environments is essential for training agents in this type of problem. With this, the objective of this work is to implement a virtual environment with the Gymnasium (Gym) library of a system of coupled tanks to avoid possible accidents in the laboratory and, with its graphical interface, facilitate the comparison of performance of trained agents. For this, the identification of the tank system was used as a strategy for modeling the system through two LSTM (Long-Short Term Memory) neural networks. A network with only one LSTM layer for level prediction (single network) and another network with an LSTM layer for each level (split network). Finally, the results obtained from the training of the single and divided networks are presented, in addition to exposing the results of the Gym environment developed. It is also shown that the split network served the purpose of modeling the tank system with a few millimeters error. No aprendizado por reforço, um agente é implementado com objetivo de aprender a realizar alguma tarefa especificada em um determinado ambiente através das experiências obtidas de interações com esse ambiente. O ambiente é a estrutura essencial para esse aprendizado, visto que é nele que são definidas as configurações fundamentais para o treinamento dos agentes. Uma dessas configurações é a escolha dos critérios de recompensa e a definição dos espaços de ações. Considerando como ambiente um sistema de dois tanques acoplados e a tarefa especificada como sendo o controle do nível do tanque 1, o treinamento de um agente nesse problema real exige muitos cuidados para evitar possíveis acidentes em laboratório. Alguns exemplos são o transbordo de nível, as tensões incorretas enviadas a bomba e as eventuais perdas dessas ferramentas. Dessa maneira, o desenvolvimento de ambientes virtuais é essencial para treinamento de agentes nesse tipo de problema. Com isso, o objetivo deste trabalho é implementar um ambiente virtual com a biblioteca Gymnasium (Gym) de um sistema de tanques acoplados para evitar possíveis acidentes em laboratório e, com sua interface gráfica, facilitar a comparação de desempenho de agentes treinados. Para isso, foi utilizado a identificação do sistema de tanques como estratégia de modelagem do sistema através de duas redes neurais LSTM (Long-Short Term Memory). Uma rede com apenas uma camada LSTM para predição dos níveis (rede única) e outra rede com uma camada LSTM para cada nível (rede dividida). Por fim, são apresentados os resultados obtidos do treinamento das redes única e dividida além de expor os resultados do ambiente Gym desenvolvido. Também é apresentado que a rede dividida atendeu ao propósito de modelar o sistema de tanques com erro de poucos milímetros. 2023-07-17T14:53:02Z 2023-07-17T14:53:02Z 2023-07-03 bachelorThesis MACHADO, Kaíque Gomes. Desenvolvimento de um ambiente virtual de tanques para treinamento de agentes inteligentes. Orientador: Adrião Duarte Doria Neto. 2023. 54 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Departamento de Engenharia de Computação, Universidade Federal do Rio Grande do Norte, Natal, 2023. https://repositorio.ufrn.br/handle/123456789/53481 pt_BR Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ application/pdf Universidade Federal do Rio Grande do Norte Brasil UFRN Engenharia da Computação Engenharia de Computação e Automação