Spetale, Flavio E.2024-04-042024-04-042023https://hdl.handle.net/2133/26843La anotación de funcionalidades biológicas de productos génicos, RNA y proteí nas, es una tarea crítica en el desarrollo de proyectos de secuenciación genómica. En el caso de proyectos de genomas virales, estas anotaciones infieren el rol molecular de estos productos virales de interés durante la infección a sus células diana, indi cando aquellos procesos biológicos en los que están involucrados y constituyen una herramienta útil para el desarrollo y mejoramiento de tratamientos antivirales. La velocidad actual a la que se generan nuevas secuencias de RNA y proteínas a partir de proyectos de secuenciación genómica genera un cuello de botella para los méto dos de anotación tradicionales, basados en estudios experimentales exhaustivos. Este cuello de botella puede resolverse parcialmente mediante métodos computacionales de anotación. Es de interés global el estudio de virus y en particular, SARS-CoV-2, que causa la enfermedad COVID-19 y representa aún una amenaza para la salud mundial. Los esfuerzos para desarrollar medicamentos y vacunas eficaces frente a nuevas variantes se ven obstaculizados por el conocimiento limitado de los detalles moleculares de cómo el SARS-CoV-2 infecta y se propaga. En particular, en es te trabajo se aborda el problema de anotación funcional automática de productos génicos para SARS-CoV-2 a través de ontologías y aprendizaje computacional. La ontología funcional de genes utilizada es Gene Ontology (GO) y el método de apren dizaje computacional utilizado se llama Factor Graph GO Annotation (FGGA). Este método de clasificación jerárquico toma como entrada un conjunto de atributos, ca racterísticas, extraídos desde las secuencias y devuelve un grafo consistente en los tres subdominios de GO. El proceso de extracción de atributos desde las secuencias se lo denomina caracterización. En este trabajo, se considera una caracterización básica que consiste en propiedades fisicoquímicas y una caracterización enriquecida, desarrollada en este proyecto, que agrega atributos virales. La incorporación de es tos contribuye a mejorar la especificidad de predicción de las funcionalidades GO. Finalmente, se evalúa el rendimiento de las predicciones GO obtenidas y se compara los resultados obtenidos sobre 31 productos génicos anotados en forma experimental en Jungreis et al. (2021). Estos resultados validaron de forma exitosa las anotaciones existentes curadas manualmente y también generaron nuevas anotaciones in-silico que fueron avaladas por diversas fuentes bibliográficas disponibles en la actualidadThe annotation of biological functionalities of gene products, RNA and proteins, is a critical task in the development of genomic sequencing projects. In the case of viral genome projects, these annotations infer the molecular role of these viral products of interest during the infection of their target cells, indicating the biological processes in which they are involved and constitute a useful tool for the development and improvement of antivirals treatments. The current rate at which new RNA and protein sequences are generated from genomic sequencing projects creates a bottle neck for traditional annotation methods, based on extensive experimental studies. This bottleneck can be partially resolved by computational annotation methods. The study of viruses is of global interest and, in particular, SARS-CoV-2, which causes the disease COVID-19 and still represents a threat to global health. Efforts to develop effective drugs and vaccines are hampered by limited knowledge of the molecular details of how SARS-CoV-2 infects cells. In particular, this paper ad dresses the problem of automatic functional annotation of gene products for SARS CoV-2 through ontologies and computational learning. The functional gene ontology used is Gene Ontology (GO) and the computational learning method used is called Factor Graph GO Annotation (FGGA). This hierarchical classification method takes as input a set of attributes, characteristics, extracted from the sequences and returns a graph consisting of the three GO subdomains. The process of extracting attributes from the sequences is called characterization. In this work, a basic characterization is considered, which consists of physicochemical properties, and an enriched char acterization, developed in this project, which adds viral attributes. The inclusion of these attributes contributes to improving the specificity of GO functionality pre dictions. Finally, the performance of the obtained GO predictions is evaluated and compared with the results obtained for 31 gene products experimentally annotated in Jungreis et al. (2021). These results successfully validated existing hand-curated annotations and also generated new in-silico annotations that were supported by various currently available literature sources.esopenAccessFunciones biológicasAprendizaje computacionalSARS-CoV-2COVID-19Anotación automática GO de productos génicos en SARS-CoV-2tesisEl autorAttribution-NonCommercial-ShareAlike 4.0 International