Please use this identifier to cite or link to this item:
https://bdm.ufpa.br/jspui/handle/prefix/5176
Compartilhar:
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor1 | TEIXEIRA, Otávio Noura | - |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/5784356232477760 | pt_BR |
dc.contributor.advisor-co1 | ARAÚJO, Natália Freitas | - |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/2344521554133884 | pt_BR |
dc.creator | RODRIGUES, Rodrigo Moraes | - |
dc.creator.Lattes | http://lattes.cnpq.br/3319752965119803 | pt_BR |
dc.date.accessioned | 2023-01-30T14:25:26Z | - |
dc.date.available | 2023-01-30T14:25:26Z | - |
dc.date.issued | 2022-12-13 | - |
dc.identifier.citation | RODRIGUES, Rodrigo Moraes. Técnicas de aprendizagem por reforço na resolução do Mundo de Wumpus. Orientador: Otávio Noura Teixeira; Coorientadora: Natália Freitas Araújo. 2022. [18] f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) – Campus Universitário de Tucuruí, Universidade Federal do Pará, Tucuruí, 2022. Disponível em: https://bdm.ufpa.br:8443/jspui/handle/prefix/5176. Acesso em:. | pt_BR |
dc.identifier.uri | https://bdm.ufpa.br:8443/jspui/handle/prefix/5176 | - |
dc.description.abstract | This work aims to analyze the performance of an agent based on Reinforcement Learning. Your learning engine is based on three algorithms: Qlearning (QL), Deep Q-Network (DQN) and Double Deep Q-Network (DDQN). To validate the agent and its methods, it was defined as environment the World of Wumpus, which was modeled according to the environment standards adopted by DeepMind Lab. From the experiments performed and their respective configurations, it was observed that the agents managed to reach the main objective only in two configurations of environments. In the 4x4 environment the winning percentage of the QL, DQN algorithms and DDQN were 0.005, 22.96, 18.73% respectively, which drastically reduced specifically for the 10x10 scenario and failing to meet the objective for the other environments. | pt_BR |
dc.description.resumo | Este trabalho tem por objetivo analisar o desempenho de um agente baseado em Aprendizagem por Reforço. O seu mecanismo de aprendizagem está baseado em três algoritmos: Q-learning (QL), Deep Q-Network (DQN) e Double Deep Q-Network (DDQN). Para validação do agente e seus métodos, foi definido como ambiente o Mundo de Wumpus, o qual foi modelado segundo os padrões de ambientes adotados pela DeepMind Lab. A partir dos experimentos realizados e suas respectivas configurações, foi observado que os agentes conseguiram alcançar o objetivo principal somente em duas configurações de ambientes. No ambiente 4x4 a porcentagem de vitória dos algoritmos QL, DQN e DDQN foram 0.005, 22.96, 18.73 % respectivamente, o que reduziu drasticamente para o cenário 10x10 e não conseguindo cumprir o objetivo para os demais ambientes. | pt_BR |
dc.description.provenance | Submitted by Emilly Coêlho (emilly.coelho@tucurui.ufpa.br) on 2023-01-19T18:44:34Z No. of bitstreams: 5 TCC_Artigo_TecnicasAprendizagemReforco.pdf: 1495504 bytes, checksum: 679e8f2dc5c1e2c57c6ea4c6756aa09b (MD5) license_url: 49 bytes, checksum: 4afdbb8c545fd630ea7db775da747b2f (MD5) license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license.txt: 1887 bytes, checksum: b085b34e3a936aaa9f87e70026a02bc8 (MD5) | en |
dc.description.provenance | Approved for entry into archive by Mayara Menezes (mayara@ufpa.br) on 2023-01-30T14:25:26Z (GMT) No. of bitstreams: 5 TCC_Artigo_TecnicasAprendizagemReforco.pdf: 1495504 bytes, checksum: 679e8f2dc5c1e2c57c6ea4c6756aa09b (MD5) license_url: 49 bytes, checksum: 4afdbb8c545fd630ea7db775da747b2f (MD5) license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license.txt: 1887 bytes, checksum: b085b34e3a936aaa9f87e70026a02bc8 (MD5) | en |
dc.description.provenance | Made available in DSpace on 2023-01-30T14:25:26Z (GMT). No. of bitstreams: 5 TCC_Artigo_TecnicasAprendizagemReforco.pdf: 1495504 bytes, checksum: 679e8f2dc5c1e2c57c6ea4c6756aa09b (MD5) license_url: 49 bytes, checksum: 4afdbb8c545fd630ea7db775da747b2f (MD5) license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license.txt: 1887 bytes, checksum: b085b34e3a936aaa9f87e70026a02bc8 (MD5) Previous issue date: 2022-12-13 | en |
dc.rights | Acesso Aberto | pt_BR |
dc.source.uri | Disponível na Internet via Sagitta | pt_BR |
dc.subject | Q-learning | pt_BR |
dc.subject | Deep Q-Network | pt_BR |
dc.subject | Double Deep Q-Network | pt_BR |
dc.subject | Mundo de Wumpus | pt_BR |
dc.subject.cnpq | CNPQ::ENGENHARIAS | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | pt_BR |
dc.title | Técnicas de aprendizagem por reforço na resolução do Mundo de Wumpus | pt_BR |
dc.type | Trabalho de Conclusão de Curso - Graduação - Artigo | pt_BR |
Appears in Collections: | Faculdade de Engenharia da Computação - FECOMP/CAMTUC |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
TCC_Artigo_TecnicasAprendizagemReforco.pdf | 1,46 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License