Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte
The volume of data stored and accessed daily is growing on a geometric scale. About 2.5 billion gigabytes are generated every day. In addition, 90 % of the world’s data has been produced in the last two years. Many terms have been used to describe this giant volume of stored data in a structured...
Na minha lista:
Autor principal: | |
---|---|
Outros Autores: | |
Formato: | Dissertação |
Idioma: | pt_BR |
Publicado em: |
Brasil
|
Assuntos: | |
Endereço do item: | https://repositorio.ufrn.br/jspui/handle/123456789/27508 |
Tags: |
Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
|
id |
ri-123456789-27508 |
---|---|
record_format |
dspace |
spelling |
ri-123456789-275082019-08-18T05:24:47Z Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte A distributed data mining platform for big data: a case study applied to the tax office of Rio Grande do Norte Santos, Diego Soares dos Xavier Júnior, João Carlos Campos, André Mauricio Cunha Madeira, Charles Andrye Galvão Signoretti, Alberto Mineração de texto Aprendizado de máquina Big Data CNPQ::ENGENHARIAS The volume of data stored and accessed daily is growing on a geometric scale. About 2.5 billion gigabytes are generated every day. In addition, 90 % of the world’s data has been produced in the last two years. Many terms have been used to describe this giant volume of stored data in a structured or non-structured way. Big Data is one of these terms. For many researchers, Big Data is the phenomenon where data is produced in various formats and stored by a large number of devices and equipment. Some efforts have been done to offer open source tools and frameworks that can handle or provide capabilities that can deal with and mine this huge amount of data. However, as the nature of the data is quite diverse, choosing or developing tools to deal with such data becomes a non-trivial problem. In addition, few tools are able to extract knowledge from the data. In this sense, knowledge extraction becomes more difficult due to specific characteristics of the data, such as: the description of a product which is totally flexible and without validation. For this reason, in certain problem domains, it is necessary to apply data mining techniques in text attributes to extract standardized values. The main objective of this paper is to propose a distributed data mining platform for the Tax Administration of Rio Grande do Norte, which can extract knowledge in a varied way, considering the specific characteristics of electronic invoices (NFC-e’s). O volume de dados armazenados e acessados diariamente vem crescendo em escala geométrica. Todos os dias são gerados cerca de 2,5 bilhões de gigabytes. Além disso, 90% dos dados no mundo foram produzidos nos últimos dois anos. Muitos termos têm sido utilizados para descrever esse volume gigante de dados armazenados de forma estruturada ou não. Big Data é um desses termos. Para muitos pesquisadores, Big Data é o fenômeno em que os dados são produzidos em vários formatos e armazenados por uma grande quantidade de dispositivos e equipamentos. Muito também tem sido feito para oferecer ferramentas e frameworks de código aberto que possam lidar ou oferecer funcionalidades capazes de manipular e minerar esse enorme volume de dados. Contudo, como a natureza dos dados é bastante diversa, escolher ou desenvolver ferramentas para lidar com esses dados se torna um problema nada trivial. Além disso, poucas ferramentas conseguem extrair conhecimento dos dados. Isso torna a tarefa de manipulação de dados difícil, principalmente devido às características muito específicas, tais como a descrição de um produto, que é totalmente flexível e sem validação. Por essa razão, em certos domínios de problema, é necessário aplicar técnicas de mineração de dados em atributos textuais para extrair valores padronizados. O objetivo principal deste trabalho é propor uma plataforma distribuída de mineração de dados para a Secretaria de Tributação do Rio Grande do Norte, que possa extrair conhecimento de maneira variada, considerando as características específicas das notas fiscais eletrônicas (NFC-e’s). 2019-08-13T00:26:18Z 2019-08-13T00:26:18Z 2018-12-07 masterThesis SANTOS, Diego Soares dos. Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte. 2018. 70f. Dissertação (Mestrado Profissional em Engenharia de Software) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018. https://repositorio.ufrn.br/jspui/handle/123456789/27508 pt_BR Acesso Aberto application/pdf Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE SOFTWARE |
institution |
Repositório Institucional |
collection |
RI - UFRN |
language |
pt_BR |
topic |
Mineração de texto Aprendizado de máquina Big Data CNPQ::ENGENHARIAS |
spellingShingle |
Mineração de texto Aprendizado de máquina Big Data CNPQ::ENGENHARIAS Santos, Diego Soares dos Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte |
description |
The volume of data stored and accessed daily is growing on a geometric scale. About 2.5
billion gigabytes are generated every day. In addition, 90 % of the world’s data has been
produced in the last two years. Many terms have been used to describe this giant volume
of stored data in a structured or non-structured way. Big Data is one of these terms. For
many researchers, Big Data is the phenomenon where data is produced in various formats
and stored by a large number of devices and equipment. Some efforts have been done
to offer open source tools and frameworks that can handle or provide capabilities that
can deal with and mine this huge amount of data. However, as the nature of the data is
quite diverse, choosing or developing tools to deal with such data becomes a non-trivial
problem. In addition, few tools are able to extract knowledge from the data. In this sense,
knowledge extraction becomes more difficult due to specific characteristics of the data,
such as: the description of a product which is totally flexible and without validation. For
this reason, in certain problem domains, it is necessary to apply data mining techniques
in text attributes to extract standardized values. The main objective of this paper is to
propose a distributed data mining platform for the Tax Administration of Rio Grande do
Norte, which can extract knowledge in a varied way, considering the specific characteristics
of electronic invoices (NFC-e’s). |
author2 |
Xavier Júnior, João Carlos |
author_facet |
Xavier Júnior, João Carlos Santos, Diego Soares dos |
format |
masterThesis |
author |
Santos, Diego Soares dos |
author_sort |
Santos, Diego Soares dos |
title |
Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte |
title_short |
Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte |
title_full |
Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte |
title_fullStr |
Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte |
title_full_unstemmed |
Uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à Secretaria de Tributação do Rio Grande do Norte |
title_sort |
uma plataforma distribuída de mineração de dados para big data: um estudo de caso aplicado à secretaria de tributação do rio grande do norte |
publisher |
Brasil |
publishDate |
2019 |
url |
https://repositorio.ufrn.br/jspui/handle/123456789/27508 |
work_keys_str_mv |
AT santosdiegosoaresdos umaplataformadistribuidademineracaodedadosparabigdataumestudodecasoaplicadoasecretariadetributacaodoriograndedonorte AT santosdiegosoaresdos adistributeddataminingplatformforbigdataacasestudyappliedtothetaxofficeofriograndedonorte |
_version_ |
1773959185893949440 |