Técnicas de aprendizagem por reforço na resolução do Mundo de Wumpus

RODRIGUES, Rodrigo Moraes

Técnicas de aprendizagem por reforço na resolução do Mundo de Wumpus

Arquivo(s)

TCC_Artigo_TecnicasAprendizagemReforco.pdf (1.43 MB)

Tipo de Documento

Trabalho de Curso - Graduação - Artigo

Data

13-12-2022

Autor(es)

RODRIGUES, Rodrigo Moraes

Orientador(es)

TEIXEIRA, Otávio Noura

Coorientador(es)

ARAÚJO, Natália Freitas

Tipo de acesso

Acesso Aberto

Citar como

RODRIGUES, Rodrigo Moraes. Técnicas de aprendizagem por reforço na resolução do Mundo de Wumpus. Orientador: Otávio Noura Teixeira; Coorientadora: Natália Freitas Araújo. 2022. [18] f. Trabalho de Curso (Bacharelado em Engenharia da Computação) – Faculdade de Engenharia da Computação, Campus Universitário de Tucuruí, Universidade Federal do Pará, Tucuruí, 2022. Disponível em: https://bdm.ufpa.br/handle/prefix/5176. Acesso em:.

Este trabalho tem por objetivo analisar o desempenho de um agente baseado em Aprendizagem por Reforço. O seu mecanismo de aprendizagem está baseado em três algoritmos: Q-learning (QL), Deep Q-Network (DQN) e Double Deep Q-Network (DDQN). Para validação do agente e seus métodos, foi definido como ambiente o Mundo de Wumpus, o qual foi modelado segundo os padrões de ambientes adotados pela DeepMind Lab. A partir dos experimentos realizados e suas respectivas configurações, foi observado que os agentes conseguiram alcançar o objetivo principal somente em duas configurações de ambientes. No ambiente 4x4 a porcentagem de vitória dos algoritmos QL, DQN e DDQN foram 0.005, 22.96, 18.73 % respectivamente, o que reduziu drasticamente para o cenário 10x10 e não conseguindo cumprir o objetivo para os demais ambientes.