Mutação de transformações para teste de programas Spark

The growth in the volume of data generated in the last years, a phenomenon known as Big Data, presented a series of challenges for its collection, storage and, especially, processing because they require important computational resources and adapted execution environments. Different parallel and...

ver descrição completa

Na minha lista:
Detalhes bibliográficos
Autor principal: Souza Neto, João Batista de
Outros Autores: Musicante, Martin Alejandro
Formato: doctoralThesis
Idioma:pt_BR
Publicado em: Universidade Federal do Rio Grande do Norte
Assuntos:
Endereço do item:https://repositorio.ufrn.br/handle/123456789/30646
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
id ri-123456789-30646
record_format dspace
institution Repositório Institucional
collection RI - UFRN
language pt_BR
topic Big Data; Teste de Mutação; Apache Spark; Taxonomia; Operadores de Mutação.
Mutation Operators
Mutation Testing
Transmut Spark
spellingShingle Big Data; Teste de Mutação; Apache Spark; Taxonomia; Operadores de Mutação.
Mutation Operators
Mutation Testing
Transmut Spark
Souza Neto, João Batista de
Mutação de transformações para teste de programas Spark
description The growth in the volume of data generated in the last years, a phenomenon known as Big Data, presented a series of challenges for its collection, storage and, especially, processing because they require important computational resources and adapted execution environments. Different parallel and distributed processing systems are used for Big Data processing. Some systems adopt a control flow model, such as Hadoop, that applies the MapReduce programming style, while others adopt a data flow model, such as Apache Spark. The reliability of large-scale data processing programs becomes important due to the large amount of computational resources required for their execution, making it important to test them before they run in production in an expensive distributed computing infrastructure. This thesis proposes a mutation testing approach for programs that follow a data flow model like Apache Spark. Mutation testing is a testing technique that relies on simulating faults by modifying a program to create faulty versions called mutants. The generation of mutants is carried by mutation operators that are able to simulate specific faults in the program. Mutants are used in the test design and evaluation process in order to have a test set capable of identifying the faults simulated by the mutants. In order to apply the mutation testing process to Big Data processing programs, it is important to be aware of the types of faults that can be found in this context to design mutation operators that can simulate them. Thus, we conducted a study to characterize faults and problems that can appear in Spark programs. Based on this study, we designed a set of mutation operators for programs that follow a data flow model. These operators simulate faults in the program through changes in its data flow and operations. The mutation operators were formalized with a model we propose to represent data processing programs based on data flow. To support the application of our mutation operators, we developed the tool TRANSMUT-Spark that automates the main steps of the mutation testing process in Spark programs. We conducted experiments to evaluate the mutation operators and tool in terms of costs and effectiveness. The results of these experiments showed the feasibility of applying the mutation testing process in Spark programs and their contribution to the testing process in order to develop more reliable programs
author2 Musicante, Martin Alejandro
author_facet Musicante, Martin Alejandro
Souza Neto, João Batista de
format doctoralThesis
author Souza Neto, João Batista de
author_sort Souza Neto, João Batista de
title Mutação de transformações para teste de programas Spark
title_short Mutação de transformações para teste de programas Spark
title_full Mutação de transformações para teste de programas Spark
title_fullStr Mutação de transformações para teste de programas Spark
title_full_unstemmed Mutação de transformações para teste de programas Spark
title_sort mutação de transformações para teste de programas spark
publisher Universidade Federal do Rio Grande do Norte
publishDate 2020
url https://repositorio.ufrn.br/handle/123456789/30646
work_keys_str_mv AT souzanetojoaobatistade mutacaodetransformacoesparatestedeprogramasspark
_version_ 1773957894398541824
spelling ri-123456789-306462020-11-29T07:44:45Z Mutação de transformações para teste de programas Spark Souza Neto, João Batista de Musicante, Martin Alejandro Moreira, Anamaria Martins Vargas-solar, Genoveva Aquino Junior, Gibeon Soares de Souza Neto, Placido Antonio de Vergílio, Silvia Regina Costa, Umberto Souza da Big Data; Teste de Mutação; Apache Spark; Taxonomia; Operadores de Mutação. Mutation Operators Mutation Testing Transmut Spark The growth in the volume of data generated in the last years, a phenomenon known as Big Data, presented a series of challenges for its collection, storage and, especially, processing because they require important computational resources and adapted execution environments. Different parallel and distributed processing systems are used for Big Data processing. Some systems adopt a control flow model, such as Hadoop, that applies the MapReduce programming style, while others adopt a data flow model, such as Apache Spark. The reliability of large-scale data processing programs becomes important due to the large amount of computational resources required for their execution, making it important to test them before they run in production in an expensive distributed computing infrastructure. This thesis proposes a mutation testing approach for programs that follow a data flow model like Apache Spark. Mutation testing is a testing technique that relies on simulating faults by modifying a program to create faulty versions called mutants. The generation of mutants is carried by mutation operators that are able to simulate specific faults in the program. Mutants are used in the test design and evaluation process in order to have a test set capable of identifying the faults simulated by the mutants. In order to apply the mutation testing process to Big Data processing programs, it is important to be aware of the types of faults that can be found in this context to design mutation operators that can simulate them. Thus, we conducted a study to characterize faults and problems that can appear in Spark programs. Based on this study, we designed a set of mutation operators for programs that follow a data flow model. These operators simulate faults in the program through changes in its data flow and operations. The mutation operators were formalized with a model we propose to represent data processing programs based on data flow. To support the application of our mutation operators, we developed the tool TRANSMUT-Spark that automates the main steps of the mutation testing process in Spark programs. We conducted experiments to evaluate the mutation operators and tool in terms of costs and effectiveness. The results of these experiments showed the feasibility of applying the mutation testing process in Spark programs and their contribution to the testing process in order to develop more reliable programs O crescimento do volume de dados gerado, sua produção contínua e em larga escala e sua heterogeneidade levaram ao desenvolvimento do conceito de Big Data. A coleta, armazenamento e, sobretudo, processamento deste grande volume de dados exigem importantes recursos computacionais e ambientes de execução adaptados. Diferentes sistemas de pro- cessamento paralelo e distribuído são utilizados para o processamento de Big Data. Alguns sistemas adotam um modelo de fluxo de controle, como o sistema Hadoop que aplica o modelo MapReduce, e outros adotam um modelo de fluxo de dados, como o Apache Spark. A confiabilidade de programas de processamento de grandes volumes de dados se torna importante devido à grande quantidade de recursos computacionais necessários para sua execução. Por isso, é importantes testar esses programas antes que eles sejam executados em produção em uma infraestrutura custosa de computação distribuída. O teste de pro- gramas de processamento de Big Data tem ganhado interesse nos últimos anos, mas a área ainda possui poucos trabalhos que abordam o teste funcional desse tipo de programa e em sua maioria abordam apenas o teste de programas MapReduce. Esta tese de doutorado visa reduzir a lacuna existente na área ao propor uma abordagem de teste de mutação para programas que seguem um modelo de fluxo de dados. O teste de mutação é uma técnica de teste que se baseia na simulação de defeitos através de modificações no programa para criar versões defeituosas chamadas mutantes. A geração dos mutantes é realizada por operadores de mutação que são capazes de simular defeitos específicos no programa. Mutantes são utilizados no processo de projeto e avaliação de testes de modo a ter um conjunto de testes capaz de identificar os defeitos simulados pelos mutantes. Para aplicar o processo de teste de mutação em programas de processamento de Big Data, é importante ter conhecimento dos tipos de defeitos que podem ser encontrados nesse contexto para, então, projetar operadores de mutação que possam simulá-los. Com base nisso, realizamos um estudo para caracterizar defeitos e problemas que podem surgir em programas Spark. Esse estudo resultou em duas taxonomias. A primeira taxonomia agrupa e caracteriza problemas não-funcionais que afetam o desempenho de execução de programas Spark. A segunda taxonomia é focada em defeitos funcionais que afetam o comportamento de pro- gramas Spark. Com base na taxonomia de defeitos funcionais, projetamos um conjunto de operadores de mutação para programas que seguem um modelo de fluxo de dados. Esses operadores simulam defeitos no programa através de mudanças no seu fluxo de dados e nas suas operações. Os operadores de mutação foram formalizados com um modelo que propomos para representar programas de processamento de dados baseados em fluxo de dados. Para dar suporte a aplicação dos nossos operadores de mutação, desenvolvemos a ferramenta TRANSMUT-Spark que automatiza as principais etapas do processo de teste de mutação em programas Spark. Realizamos experimentos para avaliar os opera- dores de mutação e ferramenta em termos de custos e efetividade. Os resultados desses experimentos mostraram a viabilidade da aplicação do processo de teste de mutação em programas Spark e sua contribuição no processo de teste com o intuito de desenvolver programas mais confiáveis. 2020-11-24T13:01:35Z 2020-11-24T13:01:35Z 2020-07-31 doctoralThesis SOUZA NETO, João Batista de. Mutação de transformações para teste de programas Spark. 2020. 231f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2020. https://repositorio.ufrn.br/handle/123456789/30646 pt_BR Acesso Aberto application/pdf Universidade Federal do Rio Grande do Norte Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO