Please use this identifier to cite or link to this item:
https://bdm.ufpa.br/jspui/handle/prefix/5010
Compartilhar:
Type: | Trabalho de Conclusão de Curso - Graduação - Artigo |
Issue Date: | 30-Sep-2022 |
Title: | Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN |
Creator: | PINHEIRO, Pedro Luiz Braga |
First advisor: | GONZÁLEZ, Marcos Tulio Amaris |
Citation: | PINHEIRO, Pedro Luiz Braga. Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN. Orientador: Marcos Tulio Amaris Gonzalez. 2022. [18] f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) – Campus Universitário de Tucuruí, Universidade Federal do Pará, Tucuruí, 2022. Disponível em: https://bdm.ufpa.br:8443/jspui/handle/prefix/5010. Acesso em:. |
Resumo: | Esse trabalho tem como objetivo desenvolver um processo para classificar as descrições dos produtos presentes nas Notas Ficais eletrônicas (NF-e). Essa classificação e feita sobre os 8 dígitos da Nomenclatura Comum do Mercosul (NCM), separado em 4 partes, Capítulo, Posição, Subposição e item/Subitem. A classificação foi realizada utilizando o algoritmo de Máquina de Vetores de Suporte (SVM) e o algoritmo de Naive Bayes em conjunto com as técnicas de Processamento Natural de Linguagem (PNL), para o processamento de uma base de dados de 340.000 produtos distintos. Os dados foram divididos em 80% treinamento e 20% teste e obteve-se um acurácia de 90% para um total de 98 classes. |
Abstract: | This work aims to develop a process to classify the descriptions of products present in electronic invoices (NF-e). This classification is based on the 8 digits of the Common Mercosur Nomenclature (NCM), separated into 4 parts, Chapter, Position, Subheading and item/Subitem. The classification was performed using the Support Vector Machine (SVM) algorithm and the Naıve Bayess algorithm together with Natural Language Processing (NLP) techniques, for processing a database of 340,000 different products. The data were divided into 80% training and 20% testing and an accuracy of 90% was obtained for a total of 98 classes. |
CNPq: | CNPQ::ENGENHARIAS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
Keywords: | Processamento de linguagem natural Aprendizagem de máquina Classificação de texto Nomenclatura Comum do Mercosul Natural processing language Machine learning Text classification Mercosul Common Nomenclature |
Type of access: | Acesso Aberto |
URI Source: | Disponível na Internet via Sagitta |
Appears in Collections: | Faculdade de Engenharia da Computação - FECOMP/CAMTUC |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
TCC_Artigo_MetodologiaCascataQuatro.pdf | 996,12 kB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License