Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN
dc.contributor.advisor1 | GONZÁLEZ, Marcos Tulio Amaris | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/9970287865377659 | pt_BR |
dc.creator | PINHEIRO, Pedro Luiz Braga | |
dc.creator.Lattes | http://lattes.cnpq.br/4700792753830171 | pt_BR |
dc.date.accessioned | 2023-01-16T14:29:14Z | |
dc.date.available | 2023-01-16T14:29:14Z | |
dc.date.issued | 2022-09-30 | |
dc.description.abstract | This work aims to develop a process to classify the descriptions of products present in electronic invoices (NF-e). This classification is based on the 8 digits of the Common Mercosur Nomenclature (NCM), separated into 4 parts, Chapter, Position, Subheading and item/Subitem. The classification was performed using the Support Vector Machine (SVM) algorithm and the Naıve Bayess algorithm together with Natural Language Processing (NLP) techniques, for processing a database of 340,000 different products. The data were divided into 80% training and 20% testing and an accuracy of 90% was obtained for a total of 98 classes. | pt_BR |
dc.description.resumo | Esse trabalho tem como objetivo desenvolver um processo para classificar as descrições dos produtos presentes nas Notas Ficais eletrônicas (NF-e). Essa classificação e feita sobre os 8 dígitos da Nomenclatura Comum do Mercosul (NCM), separado em 4 partes, Capítulo, Posição, Subposição e item/Subitem. A classificação foi realizada utilizando o algoritmo de Máquina de Vetores de Suporte (SVM) e o algoritmo de Naive Bayes em conjunto com as técnicas de Processamento Natural de Linguagem (PNL), para o processamento de uma base de dados de 340.000 produtos distintos. Os dados foram divididos em 80% treinamento e 20% teste e obteve-se um acurácia de 90% para um total de 98 classes. | pt_BR |
dc.identifier.citation | PINHEIRO, Pedro Luiz Braga. Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN. Orientador: Marcos Tulio Amaris Gonzalez. 2022. [18] f. Trabalho de Curso (Bacharelado em Engenharia da Computação) – Faculdade de Engenharia da Computação, Campus Universitário de Tucuruí, Universidade Federal do Pará, Tucuruí, 2022. Disponível em: https://bdm.ufpa.br:8443/jspui/handle/prefix/5010. Acesso em:. | pt_BR |
dc.identifier.uri | https://bdm.ufpa.br/handle/prefix/5010 | |
dc.rights | Acesso Aberto | pt_BR |
dc.source.uri | Disponível na Internet via Sagitta | pt_BR |
dc.subject | Processamento de linguagem natural | pt_BR |
dc.subject | Aprendizagem de máquina | pt_BR |
dc.subject | Classificação de texto | pt_BR |
dc.subject | Nomenclatura Comum do Mercosul | pt_BR |
dc.subject | Natural processing language | pt_BR |
dc.subject | Machine learning | pt_BR |
dc.subject | Text classification | pt_BR |
dc.subject | Mercosul Common Nomenclature | pt_BR |
dc.subject.cnpq | CNPQ::ENGENHARIAS | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | pt_BR |
dc.title | Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN | pt_BR |
dc.type | Trabalho de Curso - Graduação - Artigo | pt_BR |
Arquivo(s)
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- TCC_Artigo_MetodologiaCascataQuatro.pdf
- Tamanho:
- 996.12 KB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.84 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: