Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina
Proteomics studies have shown the large number of proteins discovered and their importance for the study of life. However, there is still a high percentage of these proteins that have not been functionally annotated and that for health and biotechnological advances this definition of unknown prot...
Na minha lista:
Autor principal: | |
---|---|
Outros Autores: | |
Formato: | Dissertação |
Idioma: | pt_BR |
Publicado em: |
Universidade Federal do Rio Grande do Norte
|
Assuntos: | |
Endereço do item: | https://repositorio.ufrn.br/handle/123456789/51918 |
Tags: |
Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
|
id |
ri-123456789-51918 |
---|---|
record_format |
dspace |
institution |
Repositório Institucional |
collection |
RI - UFRN |
language |
pt_BR |
topic |
Homólogo remoto DUF Alphafold Similaridade estrutural de proteínas FATCAT CNPQ::CIENCIAS BIOLOGICAS |
spellingShingle |
Homólogo remoto DUF Alphafold Similaridade estrutural de proteínas FATCAT CNPQ::CIENCIAS BIOLOGICAS Costa, Priscila Caroline de Sousa Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina |
description |
Proteomics studies have shown the large number of proteins discovered and their
importance for the study of life. However, there is still a high percentage of these proteins that
have not been functionally annotated and that for health and biotechnological advances this
definition of unknown proteins is essential. The functions of proteins are defined by their
conformity and three-dimensional structure, therefore, data on the three-dimensional structure
of these proteins help define their functions. Currently, there is a large amount and diversity of
proteins that have their sequence characterized, but there is still a methodological bottleneck
to obtain their structural data. With the recent development of the AlphaFold program, which
accurately predicts the three-dimensional structure of proteins from their amino acid
sequence, this bottleneck can be overcome. Thus, the aim of this project is to evaluate the
impact of using these structural prediction tools on protein functional annotations. In this
work, we seek to help in the functional description of protein domains of unknown function
(DUF). For this, predicted data of its three-dimensional structure were submitted to
computational tools that perform a search for other structures that share structural similarity.
The present study demonstrates that many domains can benefit from this analysis. In addition,
we generated a classification model using the SVM method, which proved to be effective,
presenting a ROC AUC value of 0.9191 and standard deviation of 0.0099, capable of
identifying whether two proteins that share a structural similarity are remote homologues, or
that is, whether they are derived from a common ancestor. This classifier will be used to
analyze the similarity results and suggest functions for these domains. In this way, it would be
possible to identify the structural similarity between proteins that share low sequence similarity. |
author2 |
Sakamoto, Tetsu |
author_facet |
Sakamoto, Tetsu Costa, Priscila Caroline de Sousa |
format |
masterThesis |
author |
Costa, Priscila Caroline de Sousa |
author_sort |
Costa, Priscila Caroline de Sousa |
title |
Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina |
title_short |
Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina |
title_full |
Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina |
title_fullStr |
Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina |
title_full_unstemmed |
Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina |
title_sort |
identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina |
publisher |
Universidade Federal do Rio Grande do Norte |
publishDate |
2023 |
url |
https://repositorio.ufrn.br/handle/123456789/51918 |
work_keys_str_mv |
AT costapriscilacarolinedesousa identificacaodehomologosremotosutilizandoferramentasdealinhamentoestruturaldeproteinaseaprendizadodemaquina AT costapriscilacarolinedesousa identificationofremotehomologoususingproteinstructuralalignmenttoolsandmachinelearning |
_version_ |
1773961350845825024 |
spelling |
ri-123456789-519182023-03-22T17:59:00Z Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina Identification of remote homologous using protein structural alignment tools and machine learning Costa, Priscila Caroline de Sousa Sakamoto, Tetsu http://lattes.cnpq.br/3847957850720470 https://orcid.org/0000-0003-3023-0117 http://lattes.cnpq.br/1342530085695810 Bleicher, Lucas Terrematte, Patrick César Alves Homólogo remoto DUF Alphafold Similaridade estrutural de proteínas FATCAT CNPQ::CIENCIAS BIOLOGICAS Proteomics studies have shown the large number of proteins discovered and their importance for the study of life. However, there is still a high percentage of these proteins that have not been functionally annotated and that for health and biotechnological advances this definition of unknown proteins is essential. The functions of proteins are defined by their conformity and three-dimensional structure, therefore, data on the three-dimensional structure of these proteins help define their functions. Currently, there is a large amount and diversity of proteins that have their sequence characterized, but there is still a methodological bottleneck to obtain their structural data. With the recent development of the AlphaFold program, which accurately predicts the three-dimensional structure of proteins from their amino acid sequence, this bottleneck can be overcome. Thus, the aim of this project is to evaluate the impact of using these structural prediction tools on protein functional annotations. In this work, we seek to help in the functional description of protein domains of unknown function (DUF). For this, predicted data of its three-dimensional structure were submitted to computational tools that perform a search for other structures that share structural similarity. The present study demonstrates that many domains can benefit from this analysis. In addition, we generated a classification model using the SVM method, which proved to be effective, presenting a ROC AUC value of 0.9191 and standard deviation of 0.0099, capable of identifying whether two proteins that share a structural similarity are remote homologues, or that is, whether they are derived from a common ancestor. This classifier will be used to analyze the similarity results and suggest functions for these domains. In this way, it would be possible to identify the structural similarity between proteins that share low sequence similarity. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES Os estudos da proteômica tem mostrado o grande número de proteínas descobertas e a sua importância para o estudo da vida. Porém, ainda existe uma alta porcentagem dessas proteínas que não foram anotadas funcionalmente e que para os avanços da saúde e biotecnológicos essa definição de proteínas desconhecidas é essencial. As funções das proteínas são definidas pela sua conformidade e estrutura tridimensional, por isso, dados da estrutura tridimensional dessas proteínas auxiliam na definição de suas funções. Atualmente, existe uma grande quantidade e diversidade de proteínas que possuem sua sequência caracterizada, porém ainda há um gargalo metodológico para a obtenção de seus dados estruturais. Com o recente desenvolvimento do programa AlphaFold, que prediz de forma acurada a estrutura tridimensional de proteínas a partir de sua sequência de aminoácidos, este gargalo pode ser superado. Assim, o objetivo desse projeto é avaliar o impacto do uso dessas ferramentas de predição estrutural nas anotações funcionais de proteínas. Neste trabalho, procuramos auxiliar na descrição funcional de domínios proteicos de função desconhecida (DUF). Para isso, dados preditos da sua estrutura tridimensional foram submetidos a ferramentas computacionais que realizam uma busca por outras estruturas que compartilhem similaridade estrutural. O presente estudo demonstra que muitos domínios podem ser beneficiados com esta análise. Além disso, geramos um modelo de classificação utilizando o método SVM que se mostrou eficaz apresentando um valor de ROC AUC de 0,9191 e desvio padrão de 0,0099, capaz de identificar se duas proteínas que compartilham uma similaridade estrutural são homólogas remotas, ou seja, se são derivadas de um ancestral em comum. Este classificador será utilizado para analisar os resultados de similaridade e sugerir funções a esses domínios. Dessa forma, seria possível identificar a similaridade estrutural entre proteínas que compartilham baixa similaridade de sequência. 2023-03-22T17:58:18Z 2023-03-22T17:58:18Z 2022-12-15 masterThesis COSTA, Priscila Caroline de Sousa. Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina. Orientador: Tetsu Sakamoto. 2022. 50f. Dissertação (Mestrado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022. https://repositorio.ufrn.br/handle/123456789/51918 pt_BR Acesso Aberto application/pdf Universidade Federal do Rio Grande do Norte Brasil UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA |