Técnicas de aprendizagem por reforço na resolução do Mundo de Wumpus

RODRIGUES, Rodrigo Moraes

Técnicas de aprendizagem por reforço na resolução do Mundo de Wumpus

dc.contributor.advisor-co1	ARAÚJO, Natália Freitas
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/2344521554133884	pt_BR
dc.contributor.advisor1	TEIXEIRA, Otávio Noura
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5784356232477760	pt_BR
dc.creator	RODRIGUES, Rodrigo Moraes
dc.creator.Lattes	http://lattes.cnpq.br/3319752965119803	pt_BR
dc.date.accessioned	2023-01-30T14:25:26Z
dc.date.available	2023-01-30T14:25:26Z
dc.date.issued	2022-12-13
dc.description.abstract	This work aims to analyze the performance of an agent based on Reinforcement Learning. Your learning engine is based on three algorithms: Qlearning (QL), Deep Q-Network (DQN) and Double Deep Q-Network (DDQN). To validate the agent and its methods, it was defined as environment the World of Wumpus, which was modeled according to the environment standards adopted by DeepMind Lab. From the experiments performed and their respective configurations, it was observed that the agents managed to reach the main objective only in two configurations of environments. In the 4x4 environment the winning percentage of the QL, DQN algorithms and DDQN were 0.005, 22.96, 18.73% respectively, which drastically reduced specifically for the 10x10 scenario and failing to meet the objective for the other environments.	pt_BR
dc.description.resumo	Este trabalho tem por objetivo analisar o desempenho de um agente baseado em Aprendizagem por Reforço. O seu mecanismo de aprendizagem está baseado em três algoritmos: Q-learning (QL), Deep Q-Network (DQN) e Double Deep Q-Network (DDQN). Para validação do agente e seus métodos, foi definido como ambiente o Mundo de Wumpus, o qual foi modelado segundo os padrões de ambientes adotados pela DeepMind Lab. A partir dos experimentos realizados e suas respectivas configurações, foi observado que os agentes conseguiram alcançar o objetivo principal somente em duas configurações de ambientes. No ambiente 4x4 a porcentagem de vitória dos algoritmos QL, DQN e DDQN foram 0.005, 22.96, 18.73 % respectivamente, o que reduziu drasticamente para o cenário 10x10 e não conseguindo cumprir o objetivo para os demais ambientes.	pt_BR
dc.identifier.citation	RODRIGUES, Rodrigo Moraes. Técnicas de aprendizagem por reforço na resolução do Mundo de Wumpus. Orientador: Otávio Noura Teixeira; Coorientadora: Natália Freitas Araújo. 2022. [18] f. Trabalho de Curso (Bacharelado em Engenharia da Computação) – Faculdade de Engenharia da Computação, Campus Universitário de Tucuruí, Universidade Federal do Pará, Tucuruí, 2022. Disponível em: https://bdm.ufpa.br/handle/prefix/5176. Acesso em:.	pt_BR
dc.identifier.uri	https://bdm.ufpa.br/handle/prefix/5176
dc.rights	Acesso Aberto	pt_BR
dc.source.uri	Disponível na Internet via Sagitta	pt_BR
dc.subject	Q-learning	pt_BR
dc.subject	Deep Q-Network	pt_BR
dc.subject	Double Deep Q-Network	pt_BR
dc.subject	Mundo de Wumpus	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	pt_BR
dc.title	Técnicas de aprendizagem por reforço na resolução do Mundo de Wumpus	pt_BR
dc.type	Trabalho de Curso - Graduação - Artigo	pt_BR

Arquivo(s)

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: TCC_Artigo_TecnicasAprendizagemReforco.pdf
Tamanho:: 1.43 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.84 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Aparece na Coleção

Faculdade de Engenharia da Computação - FECOMP/CAMTUC