Please use this identifier to cite or link to this item: https://bdm.ufpa.br/jspui/handle/prefix/5010
Compartilhar:
Type: Trabalho de Conclusão de Curso - Graduação - Artigo
Issue Date: 30-Sep-2022
Title: Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN
Creator: PINHEIRO, Pedro Luiz Braga
First advisor: GONZÁLEZ, Marcos Tulio Amaris
Citation: PINHEIRO, Pedro Luiz Braga. Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN. Orientador: Marcos Tulio Amaris Gonzalez. 2022. [18] f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) – Campus Universitário de Tucuruí, Universidade Federal do Pará, Tucuruí, 2022. Disponível em: https://bdm.ufpa.br:8443/jspui/handle/prefix/5010. Acesso em:.
Resumo: Esse trabalho tem como objetivo desenvolver um processo para classificar as descrições dos produtos presentes nas Notas Ficais eletrônicas (NF-e). Essa classificação e feita sobre os 8 dígitos da Nomenclatura Comum do Mercosul (NCM), separado em 4 partes, Capítulo, Posição, Subposição e item/Subitem. A classificação foi realizada utilizando o algoritmo de Máquina de Vetores de Suporte (SVM) e o algoritmo de Naive Bayes em conjunto com as técnicas de Processamento Natural de Linguagem (PNL), para o processamento de uma base de dados de 340.000 produtos distintos. Os dados foram divididos em 80% treinamento e 20% teste e obteve-se um acurácia de 90% para um total de 98 classes.
Abstract: This work aims to develop a process to classify the descriptions of products present in electronic invoices (NF-e). This classification is based on the 8 digits of the Common Mercosur Nomenclature (NCM), separated into 4 parts, Chapter, Position, Subheading and item/Subitem. The classification was performed using the Support Vector Machine (SVM) algorithm and the Naıve Bayess algorithm together with Natural Language Processing (NLP) techniques, for processing a database of 340,000 different products. The data were divided into 80% training and 20% testing and an accuracy of 90% was obtained for a total of 98 classes.
CNPq: CNPQ::ENGENHARIAS
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Keywords: Processamento de linguagem natural
Aprendizagem de máquina
Classificação de texto
Nomenclatura Comum do Mercosul
Natural processing language
Machine learning
Text classification
Mercosul Common Nomenclature
Type of access: Acesso Aberto
URI Source: Disponível na Internet via Sagitta
Appears in Collections:Faculdade de Engenharia da Computação - FECOMP/CAMTUC

Files in This Item:
File Description SizeFormat 
TCC_Artigo_MetodologiaCascataQuatro.pdf996,12 kBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons