Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN

PINHEIRO, Pedro Luiz Braga

Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN

Arquivo(s)

TCC_Artigo_MetodologiaCascataQuatro.pdf (996.12 KB)

Tipo de Documento

Trabalho de Curso - Graduação - Artigo

Data

30-09-2022

Autor(es)

PINHEIRO, Pedro Luiz Braga

Orientador(es)

GONZÁLEZ, Marcos Tulio Amaris

Tipo de acesso

Acesso Aberto

Citar como

PINHEIRO, Pedro Luiz Braga. Uma metodologia em cascata de quatro etapas para classificar códigos NCM usando técnicas de PLN. Orientador: Marcos Tulio Amaris Gonzalez. 2022. [18] f. Trabalho de Curso (Bacharelado em Engenharia da Computação) – Faculdade de Engenharia da Computação, Campus Universitário de Tucuruí, Universidade Federal do Pará, Tucuruí, 2022. Disponível em: https://bdm.ufpa.br/handle/prefix/5010. Acesso em:.

Esse trabalho tem como objetivo desenvolver um processo para classificar as descrições dos produtos presentes nas Notas Ficais eletrônicas (NF-e). Essa classificação e feita sobre os 8 dígitos da Nomenclatura Comum do Mercosul (NCM), separado em 4 partes, Capítulo, Posição, Subposição e item/Subitem. A classificação foi realizada utilizando o algoritmo de Máquina de Vetores de Suporte (SVM) e o algoritmo de Naive Bayes em conjunto com as técnicas de Processamento Natural de Linguagem (PNL), para o processamento de uma base de dados de 340.000 produtos distintos. Os dados foram divididos em 80% treinamento e 20% teste e obteve-se um acurácia de 90% para um total de 98 classes.