Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark

This research aims to identify and classify the main difficulties and issues of interest of Apache Spark application developers regarding the framewok usage. For this purpose, we use the Latent Dirichlet Allocation algorithm to perform a probabilistic modeling of topics on information extracted f...

ver descrição completa

Na minha lista:

Detalhes bibliográficos
Autor principal:	Albuquerque, Denis José Sousa de
Outros Autores:	Costa, Umberto Souza da
Formato:	Dissertação
Idioma:	pt_BR
Publicado em:	Brasil
Assuntos:	Big Data Apache Spark Modelagem de tópicos probabilística Latent Dirichlet Allocation (LDA) Stack Overflow Taxonomia CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Endereço do item:	https://repositorio.ufrn.br/jspui/handle/123456789/28122
Tags:	Adicionar Tag Sem tags, seja o primeiro a adicionar uma tag!

id	ri-123456789-28122
record_format	dspace
spelling	ri-123456789-281222019-12-08T05:26:29Z Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark Identification of difficulties and issues of interest to Big Data application developers using the Apache Spark Albuquerque, Denis José Sousa de Costa, Umberto Souza da Musicante, Martin Alejandro Nunes, Marcus Alexandre Souza Neto, Plácido Antonio de Big Data Apache Spark Modelagem de tópicos probabilística Latent Dirichlet Allocation (LDA) Stack Overflow Taxonomia CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO This research aims to identify and classify the main difficulties and issues of interest of Apache Spark application developers regarding the framewok usage. For this purpose, we use the Latent Dirichlet Allocation algorithm to perform a probabilistic modeling of topics on information extracted from Stack Overflow, since the manual inspection of the entire dataset is not feasible. From the knowledge obtained by the comprehensive study of related works, we established and applied a methodology based on the practices usually employed. We developed Spark applications for the automated execution os tasks, such as the data selection and preparation, the discovery of topics - applying the probabilistic modeling algorithm with various configurations - and metrics computation. Analyzes of the results were carried by a group of 5 researchers: two doctor professors, one doctoral student and two master students. Based on the semantic analysis of the labels assigned to each of the identified topics, a taxonomy of interests and difficulties was constructed. Finally, we ranked the most important themes according to the various calculated metrics and compared the methods and results of our study with those presented in another work. Este trabalho de pesquisa busca identificar e classificar as principais dificuldades e questões de interesse dos desenvolvedores de aplicações para o processamento de Big Data utilizando o framework Apache Spark. Nesse sentido, utilizamos o algoritmo Latent Dirichlet Allocation para realizar a modelagem probabilística de tópicos em informações extraídas do Stack Overflow, uma vez que não é viável a inspeção manual de todo o conjunto de dados. A partir do conhecimento obtido pelo estudo abrangente de trabalhos relacionados, estabelecemos e aplicamos uma metodologia baseada nas práticas usualmente empregadas. Construímos aplicações Spark para execução automatizada das tarefas, tais como a seleção e preparação dos dados, o agrupamento de tópicos – aplicação do algoritmo de modelagem probabilista para várias configurações – e a computação de métricas. Análises sobre os resultados obtidos foram conduzidas por um grupo composto por 5 pesquisadores: dois professores doutores, um aluno doutorando e dois alunos mestrandos. A partir da análise semântica dos rótulos atribuídos para cada um dos tópicos identificados, uma taxonomia de interesses e dificuldades foi construída. Por fim, estabelecemos um ranqueamento dos temas mais importantes de acordo com as várias métricas calculadas e comparamos os métodos e resultados de nosso estudo com os apresentados em outro trabalho. 2019-12-04T22:08:11Z 2019-12-04T22:08:11Z 2019-09-27 masterThesis ALBUQUERQUE, Denis José Sousa de. Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark. 2019. 118f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2019. https://repositorio.ufrn.br/jspui/handle/123456789/28122 pt_BR Acesso Aberto application/pdf Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
institution	Repositório Institucional
collection	RI - UFRN
language	pt_BR
topic	Big Data Apache Spark Modelagem de tópicos probabilística Latent Dirichlet Allocation (LDA) Stack Overflow Taxonomia CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
spellingShingle	Big Data Apache Spark Modelagem de tópicos probabilística Latent Dirichlet Allocation (LDA) Stack Overflow Taxonomia CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Albuquerque, Denis José Sousa de Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark
description	This research aims to identify and classify the main difficulties and issues of interest of Apache Spark application developers regarding the framewok usage. For this purpose, we use the Latent Dirichlet Allocation algorithm to perform a probabilistic modeling of topics on information extracted from Stack Overflow, since the manual inspection of the entire dataset is not feasible. From the knowledge obtained by the comprehensive study of related works, we established and applied a methodology based on the practices usually employed. We developed Spark applications for the automated execution os tasks, such as the data selection and preparation, the discovery of topics - applying the probabilistic modeling algorithm with various configurations - and metrics computation. Analyzes of the results were carried by a group of 5 researchers: two doctor professors, one doctoral student and two master students. Based on the semantic analysis of the labels assigned to each of the identified topics, a taxonomy of interests and difficulties was constructed. Finally, we ranked the most important themes according to the various calculated metrics and compared the methods and results of our study with those presented in another work.
author2	Costa, Umberto Souza da
author_facet	Costa, Umberto Souza da Albuquerque, Denis José Sousa de
format	masterThesis
author	Albuquerque, Denis José Sousa de
author_sort	Albuquerque, Denis José Sousa de
title	Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark
title_short	Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark
title_full	Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark
title_fullStr	Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark
title_full_unstemmed	Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark
title_sort	identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para big data com o framework apache spark
publisher	Brasil
publishDate	2019
url	https://repositorio.ufrn.br/jspui/handle/123456789/28122
work_keys_str_mv	AT albuquerquedenisjosesousade identificacaodedificuldadesequestoesdeinteressededesenvolvedoresdeaplicacoesparabigdatacomoframeworkapachespark AT albuquerquedenisjosesousade identificationofdifficultiesandissuesofinteresttobigdataapplicationdevelopersusingtheapachespark
_version_	1773965203250085888

Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark

Registros relacionados